第10章户外活动搜索案例分析

一个强大的爬虫系统，不仅要能够及时发现每天互联网上新产生的网页，还要能够及时地更新已经抓取的网页，使之最大程度上与互联网上真实存在的页面一致。

对于这个旅游搜索系统，获取网页信息的方式有两种：
一种是直接指定旅游网站，要搜索的网站列表应当存在于某一类文件中；
另一种是从大范围的网站中进行广义上的搜索，对其中的网页内容进行过滤。

对于当前系统来说，爬虫系统的更新策略与所要抓取的网站优先级有关系，可以先对要抓取的网站进行优先级排序

网页抓取的质量直接决定了网民对该网站的搜索体验，因此至关重要。它主要由以下几方面组成。
·网页信息的过滤，·网页去重，

爬虫运行日志记录了爬虫每天工作的过程，是改进爬虫抓取效率，定位各种异常问题的关键信息，

爬虫在抓取网页信息的过程中，会遇到各种各样的问题，因此爬虫系统必须十分健壮

爬虫系统除了支持现有的数据格式和抓取协议以外，还必须能够及时支持新的数据格式和抓取协议等。这就要求系统在软件结构上有很好的可扩展性

有必要在一定时间段内对系统资源占用情况进行监控

可以从网页信息中提取用户想要的相关信息,
此次信息提取采用的是规则提取的方式，先建立相关字典，存储所要抓取对象的必要的特征信息（如前缀信息、后缀信息等），再根据所要提取的信息特征定义一些规则，用于提取用户所要定义的对象。
提取网页信息中QQ信息的步骤说明如下。

需要把抓取过来的户外活动分类。把户外活动分成运动、徒步、自驾、游泳、登山、滑雪、骑行、休闲、聚会、旅行、户外、公益共12个类别。
因为对一个活动的描述往往很短，所以采用简单的基于关键词匹配的分类方法。

根据行业特点设计出不同的搜索栏目。前期设计出自助游活动搜索、商业旅游线路搜索、旅游新闻搜索、旅行攻略搜索四大功能。采用迭代式开发方法，首先实现活动搜索，然后再实现剩下的三个，以后再考虑增加酒店搜索等功能。

在前期搜索访问量小，为了节省硬件成本，提高系统的运行效率，采用Lucene而没有采用Solr。

在最开始的时候，爬虫和搜索运行在同一台服务器，后来则分开成独立的爬虫服务器和搜索服务器。爬虫抓下来的数据形成索引后，把索引同步到搜索服务器。以后可以考虑采用Solr，把前台界面和后台提供搜索数据独立出来。

第10章 户外活动搜索案例分析