探究全自动网页信息采集系统论文

时间：2022-08-06 04:51:34 毕业论文范文我要投稿

相关推荐

探究全自动网页信息采集系统论文

　　搜索引擎存在一定的局限性，会导致搜索的结果不能很好满足用户的需求。例如，在一个搜索引擎中，搜索一个信息，互联网中会搜到成百上千的相关链接，甚至几万个相关链接，其中存在着一些无效和重复的链接，即便是有效的链接，数量也是庞大的。面对这些庞大的数据，如果通过逐一查看，将会消耗大量的时间和人力。因此，使用户利用搜索引擎快速、准确的获取所需数据信息，是用户迫切需要的。

探究全自动网页信息采集系统论文

　　全自动网页信息采集的目的是通过已有的Web信息抽取、网络爬虫等相关技术对搜索结果中的网页信息进行处理，能够自动完成商品信息抽取，并将结果存入数据库，以实现在一定的时间内，用户搜索的信息如果在数据库中有相应的记录，就可以直接从数据库中检索出相应的信息提交给用户，最后给用户提供一个较权威的搜索结果，这样能够节省大量的时间，提高自动化程度。

　　1 网络爬虫技术

　　网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成，例如在做图片搜索时，需要大量的测试图片，因此可以使用爬取图书封面图片。它会对一个特定网页进行抓取分析URL，不断的抓取并分析，直到没有新的URL 出现。一般的搜索引擎只抓取网页的一部分，不会抓取全部网页。为了最大限度利用有限的资源，需要进行资源配置，并运用某些策略使爬虫优先爬取重要性较高的网页。HtmlParser 是一个对现有的HTML 进行分析的快速实时解析器，解析功能非常强大，本文将利用它对网页中的内容进行商品信息提取。

　　2 基于Heritrix的扩展和定制

　　2.1 Heritrix中添加定制的Extractor

　　要实现的功能是对淘宝商品信息的抓取。例如淘宝网的商品详细信息的网址如下：http：//item.taobao.com/item.htm?spm=a230r.1.14.90.WLLzF8&id=37599839492

　　(1)从URL 格式可以看出，http：//item.taobao.com 是淘宝商品网页的域名，spm=a230r.1.14.90.WLLzF8 表示流量来源，用于统计点击来源，id=37599839492 表示当前网页的编号。通过多个网页分析之后，发现网页由域名+点击来源+编号等组成，因此制定如下抓取匹配正则表达式：http：//item.taobao.com/item.htm?spm=(([w]+).)+[w]+&id=[d]+对于该正则表达式的URL 链接进行抓取，不符合的过滤掉，这样就有了抓取的方向和范围。

　　(2)在Heritrix 中，所有的要扩展实现Extractor的类都继承自抽象基类Extractor，在它基类的内部实现了inner Process 方法，主要是处理各种异常和日志的记录，因此扩展实现Extractor 的新类也都必须实现inner Process方法。

　　2.2 在Prefetcher中取消限制

　　为搜索引擎抓取网站的内容而设置的robots.txt是一个纯文本文件，访问一个站点时，一般首先检查该站点根目录下是否存在robots.txt，如果存在，就会按照该文件中的内容来确定访问的范围;如果该文件不存在，那么就沿着链接抓取[5]。在搜索时需要进行robots.txt 查找，影响效率。因此，修改Heritrix的PreconditionEnforcer 类中的ConsiderRobotsPreconditions方法，方法声明如下：private boolean consider Robots Preconditions(CrawlURI curi);返回值设定为false，这样可以提高50%以上的效率。

　　3 全自动网页信息采集系统

　　基于对国内权威商品网站信息和客户需求的认真分析，本网页信息采集系统需要满足两个需求：

　　(1)网页信息的采集。首先要对信息抓取时要进行详细的规划，确保抓取的页面都是和所需信息相关的页面，本文主要针对所要搜索商品的各类信息的抓取为主，然后将搜索到的信息下载到本地，并对其网页进行分析，抽取出所需要的信息，最后将商品的名称、价格、优惠、商品详情等信息，存到数据库中，供用户将来查询和检索。

　　(2)信息的搜索需求。根据用户的要求，在系统的前台输入想要查找的信息，首先通过网络爬虫爬去满足要求的网页，经过过滤器信息抽取，将搜索到的信息保存到数据库，并将结果显示给用户。

　　3.1 网络爬虫模块

　　Heritrix 自身是一个通用爬虫框架，在进行网页内容处理之前需要调用Frontier 对要抓取的URL 进行处理，这样才能根据用户的需求抓取信息。在对URL的处理完成之后，需要实现自定义的Extractor，用于处理对搜索到的网页内容分类，进而找出下一步需要处理的URL信息。具体分为以下步骤：

　　(1)设置Heritrix 的种子站点，将淘宝网主页的URL 加入种子站点seeds 文件中，启动Heritrix 抓取时就会到这些页面上开始爬行。

　　(2)扩展FrontierScheduler，来实现过滤不相干的网页。由于Frontier Scheduler 不能保证只抓取系统特定格式的URL，扩展抓取符合规则的URL。URL的选择策略主要满足以下任一条件：(a)URL.indexof(“item.taobao.com/item.htm”)!=-1这个条件用于过滤不是详细商品信息的页面，以提高抓取的准确性;(b)URL.indexOf("dns：")!=-1 该条件是Heritrix在域名解释时请求URL的前缀;(c)URL.indexOf("robots.txt")!=-1 满足该条件的URL 是针对robots 策略发出的URL 所包含的字符串抓取页面找到src/modules 目录下的Processor.options文件。

　　4 结论

　　本论文对搜索引擎的基本原理和内部功能组件的功能做了概述，为信息采集系统的构建提供了理论和技术基础。在通用搜索引擎的基础上，对信息采集的相关技术更加深入的进行分析，针对网络爬虫技术、信息提取技术、HtmlParser 技术等，还需要进一步提高效率和数据分布式存储、建立索引并不断地对其进行更新等。

【探究全自动网页信息采集系统论文】相关文章：