我要投稿 投诉建议

探究全自动网页信息采集系统论文

时间:2022-08-06 04:51:34 毕业论文范文 我要投稿
  • 相关推荐

探究全自动网页信息采集系统论文

  搜索引擎存在一定的局限性,会导致搜索的结果不能很好满足用户的需求。例如,在一个搜索引擎中,搜索一个信息,互联网中会搜到成百上千的相关链接,甚至几万个相关链接,其中存在着一些无效和重复的链接,即便是有效的链接,数量也是庞大的。面对这些庞大的数据,如果通过逐一查看,将会消耗大量的时间和人力。因此,使用户利用搜索引擎快速、准确的获取所需数据信息,是用户迫切需要的。

探究全自动网页信息采集系统论文

  全自动网页信息采集的目的是通过已有的Web信息抽取、网络爬虫等相关技术对搜索结果中的网页信息进行处理,能够自动完成商品信息抽取,并将结果存入数据库,以实现在一定的时间内,用户搜索的信息如果在数据库中有相应的记录,就可以直接从数据库中检索出相应的信息提交给用户,最后给用户提供一个较权威的搜索结果,这样能够节省大量的时间,提高自动化程度。

  1 网络爬虫技术

  网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,例如在做图片搜索时,需要大量的测试图片,因此可以使用爬取图书封面图片。它会对一个特定网页进行抓取分析URL,不断的抓取并分析,直到没有新的URL 出现。一般的搜索引擎只抓取网页的一部分,不会抓取全部网页。为了最大限度利用有限的资源,需要进行资源配置,并运用某些策略使爬虫优先爬取重要性较高的网页。HtmlParser 是一个对现有的HTML 进行分析的快速实时解析器,解析功能非常强大,本文将利用它对网页中的内容进行商品信息提取。

  2 基于Heritrix的扩展和定制

  2.1 Heritrix中添加定制的Extractor

  要实现的功能是对淘宝商品信息的抓取。例如淘宝网的商品详细信息的网址如下:http://item.taobao.com/item.htm?spm=a230r.1.14.90.WLLzF8&id=37599839492

  (1)从URL 格式可以看出,http://item.taobao.com 是淘宝商品网页的域名,spm=a230r.1.14.90.WLLzF8 表示流量来源,用于统计点击来源,id=37599839492 表示当前网页的编号。通过多个网页分析之后,发现网页由域名+点击来源+编号等组成,因此制定如下抓取匹配正则表达式:http://item.taobao.com/item.htm?spm=(([w]+).)+[w]+&id=[d]+对于该正则表达式的URL 链接进行抓取,不符合的过滤掉,这样就有了抓取的方向和范围。

  (2)在Heritrix 中,所有的要扩展实现Extractor的类都继承自抽象基类Extractor,在它基类的内部实现了inner Process 方法,主要是处理各种异常和日志的记录,因此扩展实现Extractor 的新类也都必须实现inner Process方法。

  2.2 在Prefetcher中取消限制

  为搜索引擎抓取网站的内容而设置的robots.txt是一个纯文本文件,访问一个站点时,一般首先检查该站点根目录下是否存在robots.txt,如果存在,就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么就沿着链接抓取[5]。在搜索时需要进行robots.txt 查找,影响效率。因此,修改Heritrix的PreconditionEnforcer 类中的ConsiderRobotsPreconditions方法,方法声明如下:private boolean consider Robots Preconditions(CrawlURI curi);返回值设定为false,这样可以提高50%以上的效率。

  3 全自动网页信息采集系统

  基于对国内权威商品网站信息和客户需求的认真分析,本网页信息采集系统需要满足两个需求:

  (1)网页信息的采集。首先要对信息抓取时要进行详细的规划,确保抓取的页面都是和所需信息相关的页面,本文主要针对所要搜索商品的各类信息的抓取为主,然后将搜索到的信息下载到本地,并对其网页进行分析,抽取出所需要的信息,最后将商品的名称、价格、优惠、商品详情等信息,存到数据库中,供用户将来查询和检索。

  (2)信息的搜索需求。根据用户的要求,在系统的前台输入想要查找的信息,首先通过网络爬虫爬去满足要求的网页,经过过滤器信息抽取,将搜索到的信息保存到数据库,并将结果显示给用户。

  3.1 网络爬虫模块

  Heritrix 自身是一个通用爬虫框架,在进行网页内容处理之前需要调用Frontier 对要抓取的URL 进行处理,这样才能根据用户的需求抓取信息。在对URL的处理完成之后,需要实现自定义的Extractor,用于处理对搜索到的网页内容分类,进而找出下一步需要处理的URL信息。具体分为以下步骤:

  (1)设置Heritrix 的种子站点,将淘宝网主页的URL 加入种子站点seeds 文件中,启动Heritrix 抓取时就会到这些页面上开始爬行。

  (2)扩展FrontierScheduler,来实现过滤不相干的网页。由于Frontier Scheduler 不能保证只抓取系统特定格式的URL,扩展抓取符合规则的URL。URL的选择策略主要满足以下任一条件:(a)URL.indexof(“item.taobao.com/item.htm”)!=-1这个条件用于过滤不是详细商品信息的页面,以提高抓取的准确性;(b)URL.indexOf("dns:")!=-1 该条件是Heritrix在域名解释时请求URL的前缀;(c)URL.indexOf("robots.txt")!=-1 满足该条件的URL 是针对robots 策略发出的URL 所包含的字符串抓取页面找到src/modules 目录下的Processor.options文件。

  4 结论

  本论文对搜索引擎的基本原理和内部功能组件的功能做了概述,为信息采集系统的构建提供了理论和技术基础。在通用搜索引擎的基础上,对信息采集的相关技术更加深入的进行分析,针对网络爬虫技术、信息提取技术、HtmlParser 技术等,还需要进一步提高效率和数据分布式存储、建立索引并不断地对其进行更新等。

【探究全自动网页信息采集系统论文】相关文章:

信息管理系统论文02-15

管理信息系统论文06-21

学生信息管理系统论文07-14

管理信息系统论文(集合)07-22

【优选】管理信息系统论文07-21

信息管理系统论文15篇02-15

信息系统项目管理师论文02-22

管理信息系统论文必备15篇07-21

管理信息系统论文优秀15篇07-22

物资管理系统论文07-31