
基于web的新闻采集系统.doc
81页**大学学院工学学士学位论文(设计)题目:基于Web的行业新闻采集系统学 号: 姓 名: 院 (系): 信息工程学院 专 业: 信息管理与系统 完成日期: 2011.12.20 指导老师: **大学学院工学学士学位论文 摘要摘 要随着互联网的飞速发展,信息时代的到来,面对网络上泛滥的新闻信息,而采集和过滤一些有用的信息对于我们来说是十分重要的行业新闻采集系统是将非结构化的新闻文章从多个新闻来源网页中抽取出来保存到结构化的数据库中的过程尤其是对于大型门户网站,比如新浪,腾讯他们每天的网站信息都更新,而且范围很广,全国各地,甚至全球发生的信息都能每天看到更新,而他们正是利用采集系统从各大媒体网站,外国网站采集过来的。
因此,信息的采集至关重要一般的网站新闻发布平台都是采用人工输入信息,对于中小型网站这样的工作量很算可以,但是网站大了,信息就很庞大了,像那种分类信息网,更新的工作就变得很复杂,如果有专门的类似搜索引擎能检索采集到最新的相关信息然后发布在自己的网站上,因此建立专门的行业新闻采集系统,从相关网站采集有效的新闻信息可以减少很多工作量,而且可以有效的进行修改和过滤工作目前比较有名的采集系统有火车头,视采新闻采集器[2]、万能新闻采集器、新浪新闻采集器关键字:信息采集;行业新闻采集;.net;SQL server II**大学学院工学学士学位论文 AbstractAbstractWith the rapid development of the Internet, the advent of the information age, face the flood of news information network, and the collection and filter some useful information for us, it is very important. News gathering system is will unstructured news articles from multiple sources of news page extracted saved to the structural database in process.Especially for large web portal, such as sina, tencent every day they website information updates, and the range is very wide, all over the country, and even the global happened to see update information every day, and they are the use of acquisition system from the major media web site, foreign web site collected.Therefore, the collection of the information is very important. The general web news release platform are using artificial input information, for small and medium website such workload is calculate can, but the site is big, the information is very big, like the classification and information network, update the work is very complex, if have special similar search engine can retrieve collection to the latest information and then released on his website, thus establishing special collection system, from related website collection effective news information can reduce a lot work load, and can effectively modified and filter work. At present more famous collection system has a locomotive, depending on the mining news terminal [2]; Universal news collector; Sina news collector.Keywords: news collection;Information collection;.net;SQL server**大学学院工学学士学位论文 目录目 录摘 要 IAbstract II摘 要 IAbstract II第一章 引 言 11.1 课题背景 11.2 开发系统的意义 11.3 课题名称 21.4 问题描述 2第二章 可行性研究 32.1 经济可行性 32.2 技术可行性 32.3 开发工具简介 42.4 工厂模式三层架构介绍 6第三章 系统分析 103.1 功能需求 103.2 性能需求 103.3 运行需求 103.4 数据流图 113.5 用例图 123.6 数据字典 163.7 概念结构设计 183.8 逻辑结构设计 203.9 数据库主要表结构说明 223.10 物理结构设计 23第四章 总体设计 264.1 总体功能模块设计 264.2 模块功能细化 26第五章 详细设计 295.1 活动图 295.2 序列图 345.3 类图 39第六章 编码 466.1 ADO.NET的使用 466.2前台技术 566.3系统运行界面 616.4 采集管理功能实现 626.5 入库管理功能实现 666.6 新闻管理实现 686.7 新闻类别管理 696.8 用户管理实现 716.9 权限管理 72第七章 系统测试 767.1 测试目的 767.2 测试方案 76总 结 78参考文献 79致 谢 80附 录 81附录一 系统使用说明书 81附录二:信息采集 8325**大学学院工学学士学位论文 引 言第一章 引 言1.1 课题背景信息自古就有无限的价值,随着时代的不断发展,人类不知不觉已经来到了信息时代,各行各业都充斥了无数的信息,而信息的价值就在于信息的流通,如果信息能够及时的流通和传递起来,才能发挥信息真正的不可比拟的价值。
在市场经济条件下,信息已经成为一种极其重要的商品信息社会通常被定义为信息生产和消费的集中信息集中度取决于对信息的需求以及此需求被满足的程度因此,一种看待信息社会是否形成的方法是评价信息的交换强度及信息内部流动的持久性那么,什么是信息价值?它的价值如何确定?这些问题已成为当今信息社会所面临的最基本问题之一近年来,行为经济学把经济学理论和心理学理论结合起来研究信息的主观价值,取得了一定的成果这些研究成果对于我们认识了解信息价值的确定和市场经济条件下人们对信息的需求特性,具有重要的启示作用 如何从海量信息中收集有价值的信息资料,并进行分析研究,形成企业各种决策的依据,是信息人员及市场研究人员所面临的一个问题信息必须经过汇总、整合、分析才能产生价值,零散的信息只能是新闻性的,无法体现真正的商业价值 对于企业以及信息分析人员来说,一方面要在大量的信息中过滤出有效的价值点,同时又要降低获取相应信息的成本,使信息的实际使用价值大于收集、分析信息等过程所产生的成本,使信息为企业的决策带来增值价值21世纪是信息时代,掌握了迅速便捷的信息就能在激烈的竞争中占取主动,而正是信息的这种金子般的价值也注定了信息本身就是一个行业一个产业。
而这种行业将为社会做出巨大的贡献,所以我这个课题就是关于收集共享信息的1.2 开发系统的意义我要完成的设计能够通过各种手段来收集各行业的一些杂乱庞大的信息,并总结分析出许多有用的有价值的信息例如我们对一个行业的众多企业收集他们的企业的各种信息,小到工人日常支出,大到企业年产值及企业竞争力少数的信息看起来并没有什么价值,但是一旦我们能够获取到整个行业大部分重要企业的大量信息,并且这种信息是可以实时更新的,我们就会发现,通过各种数据的分析排名,我们可以了解到数据背后的东西,例如可以根据工人的平均工资来了解到某个行业中工人待遇的企业排名可以根据企业的总产值的排名来大概了解在这个行业中企业的竞争力的排名像这些经过分析处理过的信息才是真正有价值的信息,当然信息的处理可以根据使用者自身的需求来选择处理信息的方式,例如一些函数的组合或者是统计学方法总之,通过这个网站,对于行业的数据采集分析并形成有巨大的价值的过程有着很大的推进的意义这个课题,其实原理和方法都是简单通俗易懂的,但是改变人们生活方式,推动社会进步的恰恰是那些简单的发明创造,当然这个课题可能达不到这样的高度,但这样的尝试是非常有价值的因为它架设起来容易,复杂的使我们具体去操作,例如收集企业信息,我们可以通过与政府的合作来收集,也可以通过问卷调查来收集,还可以让企业自己登陆我们的网站来添加信息。
在日新月异的信息时代,掌握信息的快速流通手段,在某种程度上我们就走在了时代行业的前列,所以我想这个课题在某种程度上有着划时代的意义像这种课题,在国外发展已经非常成熟,在国内则刚刚起步,例如国外的福布斯排名,国内的胡润排名,所以,从商业上看,这个行业还是非常有前途的1.3 课题名称课题名称:基于Web的行业新闻采集系统1.4 问题描述本课题所设计的目标是行业新闻采集系统(Web News collection System),采用Internet/Intranet方式,是基于浏览器/服务器的管理系统,它由客户在客户端通过浏览器访问服务器上的系统的应用程序,进行网页信息采集,帅选,审核,入库等一系列操作 **大学学院工学学士学位论文 第二章 可行性研究第二章 可行性研究基于web的行业新闻采集系统是基于B/S模型的设计理念的系统,它能提供批量采集。












