开篇:润墨网以专业的文秘视角,为您筛选了一篇医药信息数据采集系统研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
【摘 要】本文顺应目前人们对医药方面的信息需求,编写一个系统对医药信息进行采集研究。采集对象是现在网络上比较热门的医药网,采集的信息类型有药品知识、招商信息、药品信息等。针对医药方面信息有需求的用户,采用Java语言结合开源组件Httpclient和HtmlClient开发的医药信息采集系统,以满足用户对医药方面信息的获取需求。系统分为两个部分:采集信息的Web前端和信息采集后端。前者用于采集到的医药信息,后者则是定时到网络上采集医药方面的信息。
【关键词】医药信息;信息采集;Httpclient;HtmlClient
0 引言
互联网的火速发展,和数据信息时代的到来,人们面对网络上海量的信息,不知道该如何选择才能得到有用的有价值的信息。怎样才能从海量的网络信息中采集到有价值有意义的信息,并对采集到的信息数据研究分析,是市场的研究人员和信息人员所面临的一个重要问题。零零散散的信息只能是新闻性的,是无法体现信息真正的商业价值。信息必须经过汇总、整合、分析才能形成价值。当我们要获取某方面的信息数据时,如果只是手工收集,不仅工作量大而且效率低下,更有可能收集不到有用有价值的信息。本文研究的就是信息的采集分析,在网络上采集医药方面的信息。本文研究的就是医药方面的信息采集,到互联网上多个不同的医药站点上采集信息,把采集回来的信息按人们的普遍需求习惯进行分类筛选。有些站点可能只会采集站点上的某一栏目的信息,有些可能会采集几个栏目的信息,这个会随实际采集的信息类型和站点上的信息类型而定。信息采集系统的开发就是其中一个很有效的方法,在用户方面出发考虑让信息的传递时间在为缩短,让信息在一定程度上集中。
1 医药信息采集系统简介
系统的功能是到多个不同的医药站点上采集相关的医药信息,并在进行分类、统一格式和筛选后,存入数据库并到系统站点。系统网站采用的是开源的Struts框架,使用Java语言结合开源组件Httpclient和HtmlClient实现到医药网站上采集医药信息,用JSP页面技术医药信息。
医药信息采集系统主要包括两个部分:采集信息的Web前端和信息采集后端。Web前端是JSP页面,用于更新采集到的医药信息,分类并提供搜索功能。信息采集后端是Java函数,定时到医药网站上采集相关的医药信息,采集对象有中国医药网、中国医药信息网、医药网、老百姓大药房等。采集的信息类型有药品招商信息、医药财经、医药警示等。
2 问题描述
现在互联网上关于医药方面的Internet站点还是不少的,如中国医药网、中国医药信息网、医药网、老百姓大药房等。信息的各类也很繁多,如药品知识、生活小偏方、生活常识、招商信息、医药财经、警示平台等等。采集系统就是要从多个不同的医药Internet站点上采集它们的信息,并根据一定的算法进行筛选。当然采集到信息也是要进行分类处理的,若只是简单的采集是毫无意义的。关键的是定向采集,比如采集生活常识方面的信息,满足不同的人群阅读需求。系统设计的目标是采集医药方面的信息,采用类似于网页爬虫的技术到多个不同的医药站点上采集信息。然后对采集到的信息按人们的需求习惯进行分析筛选信息,把筛选后的信息录入系统数据库,最后把信息到系统站点上。
3 系统分析
(1)实现系统的采集信息模块的功能,实现到对象Internet站点上采集相应的医药信息并分类处理和筛选处理;
(2)实现系统主页内容及时与数据库内容同步更新;
(3)实现在主页能对采集到的信息进行搜索的功能;
(4)实现对信息类别的添加、修改、删除功能,修改时只能修改类型名,不能修改类型的编号style;
(5)实现对文字类信息的添加、修改、删除功能,包括信息的编号、来源站点的编号ID、信息的标题、新闻的原URL地址、信息的原时间、信息的采集时间、信息的内容、信息的类型ID和信息热度;
(6)实现对采集站点的添加、修改、删除功能,包括站点的名称和站点的URL地址;
(7)实现对招商信息的添加、修改、删除功能,包括产品名称、招商类型、国家批准文号、产品规格、产品用途、产品优势、原URL地址、采集的时间、图片URL地址、信息类型编号ID、来源站点编号ID和热度;
(8)实现对药品信息的添加、修改、删除功能,包括药品的名称、药品的价格、药品的说明、药品的原产地、药品生产公司、联系电话、图片URL地址、信息原URL地址、采集的时间、来源站点编号ID和热度;
(9)实现对采集对象网页的添加、修改、删除功能,包括所属类型编号ID,来源站点编号ID、对象网页URL地址、是否对这个对象进行采集、正则表达式1、正则表达式2;
(10)实现对管理员的添加、修改、删除功能,包括管理员登录名、登录密码、管理权限;
(11)实现对采集时间设定信息的添加、修改、删除功能,包括时间、是否每天都进行采集和是否启动该设定。
4 系统设计
系统按功能可以划分为三个功能模块:医药信息采集功能模块、医药信息模块、系统信息管理模块。采集模块主要实现对各个采集对象站点进行信息采集,先下载网页内容,然后根据正则表达式采集信息,把处理好并分类的信息录入系统数据库。医药信息的使用的是网页形式,网站框架用的是MVC框架,视图为JSP页面,模型是java函数文件,控制是servlet类。信息的管理模块,要实现对整个系统的所有信息进行管理。
系统功能模块如图1所示。其中,系统采集管理中,抓取网页内容的过程其实与平时我们使用浏览器浏览网页的原理是一样的。“打开”网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。更进一步,可以通过浏览器端查看“抓取”过来的文件源代码。选择“查看->源文件“命令,就会出现从服务器上“抓取”下来的文件的源代码。
数据库设计:
系统设计中数据库的结构设计是一个十分重要的环节。数据库结构设计的好坏将直接影响到系统的运行效率及系统实现的效果。不同的数据库结构会造成不一样的存储量,系统的响应速度也会有所不同。根据系统设计的需求,设置有8个数据库表,分别为:
(1)Xinwen,文字类信息表,存储没有图片的医药信息,有标题,时间,内容等,搜索时根据标题、内容进行搜索;
(2)Wangzhan,采集的来源网站表;
(3)Zhaoshang,招商信息表,搜索时根据产品用途、产品名称、类型、规格、产品优势进行搜索;
(4)Test,药品信息表,搜索时根据说明、药品名称、产地、公司、价格进行搜索;
(5)Catchwangzhan,采集的网页对象总表;
(6)Style,全类别表,采集信息的类型,如行业要闻;
(7)Admin,管理员信息表;
(8)catchtime(采集时间设定)。
5 小结
本文顺应目前人们对医药方面的信息需求,编写了一个系统对医药信息进行采集研究。采集对象是现在网络上比较热门的医药网,如中国医药网、老百姓大药房、医药网等,采集的信息类型有药品知识、招商信息、药品信息等。采集的时候会采集避免重复的医药信息,几个站点上相同的信息只会采集一次。首先,对MVC应用框架struts的相关知识如Servlet、JSP、XML进行深入学习讨论,同时对开发工具Myclipse进行全面的理论研究。
其次,针对医药方面信息有需求的用户,采用Java语言结合开源组件Httpclient和HtmlClient开发的医药信息采集系统,以满足用户对医药方面信息的获取需求。系统分为两个部分:采集信息的Web前端和信息采集后端。前者用于采集到的医药信息,后者则是定时到网络上采集医药方面的信息。
【参考文献】
[1]Jiawei Han,Micheline Kamber.数据挖掘:概念与技术[M].范明,孟小峰,等,译.机械工业出版社,2001.
[2]周奇,主编.SQL Server 2005数据库基础及应用技术教程与实训[M].北京大学出版社,2008.
[3]林信良,编.Servlet&JSP学习笔记[M].清华大学出版社,2010.
[4]秦小波.编写高质量代码-改善Java程序的151个建议[M].机械工业出版社,2011.
[5]邱哲,符滔滔,王学松.开发自己的搜索引擎[M].人民邮电出版社,2010.