第10章 户外活动搜索案例分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/myvanguard/article/details/86511550

10.1爬虫

一个强大的爬虫系统,不仅要能够及时发现每天互联网上新产生的网页,还要能够及时地更新已经抓取的网页,使之最大程度上与互联网上真实存在的页面一致。

对于这个旅游搜索系统,获取网页信息的方式有两种:
一种是直接指定旅游网站,要搜索的网站列表应当存在于某一类文件中;
另一种是从大范围的网站中进行广义上的搜索,对其中的网页内容进行过滤。

对于当前系统来说,爬虫系统的更新策略与所要抓取的网站优先级有关系,可以先对要抓取的网站进行优先级排序

网页抓取的质量直接决定了网民对该网站的搜索体验,因此至关重要。它主要由以下几方面组成。
·网页信息的过滤,·网页去重,

爬虫运行日志记录了爬虫每天工作的过程,是改进爬虫抓取效率,定位各种异常问题的关键信息,

爬虫在抓取网页信息的过程中,会遇到各种各样的问题,因此爬虫系统必须十分健壮

爬虫系统除了支持现有的数据格式和抓取协议以外,还必须能够及时支持新的数据格式和抓取协议等。这就要求系统在软件结构上有很好的可扩展性

有必要在一定时间段内对系统资源占用情况进行监控

10.2信息提取

可以从网页信息中提取用户想要的相关信息,
此次信息提取采用的是规则提取的方式,先建立相关字典,存储所要抓取对象的必要的特征信息(如前缀信息、后缀信息等),再根据所要提取的信息特征定义一些规则,用于提取用户所要定义的对象。
提取网页信息中QQ信息的步骤说明如下。

10.3活动分类

需要把抓取过来的户外活动分类。把户外活动分成运动、徒步、自驾、游泳、登山、滑雪、骑行、休闲、聚会、旅行、户外、公益共12个类别。
因为对一个活动的描述往往很短,所以采用简单的基于关键词匹配的分类方法。

10.4搜索

根据行业特点设计出不同的搜索栏目。前期设计出自助游活动搜索、商业旅游线路搜索、旅游新闻搜索、旅行攻略搜索四大功能。采用迭代式开发方法,首先实现活动搜索,然后再实现剩下的三个,以后再考虑增加酒店搜索等功能。

在前期搜索访问量小,为了节省硬件成本,提高系统的运行效率,采用Lucene而没有采用Solr。

在最开始的时候,爬虫和搜索运行在同一台服务器,后来则分开成独立的爬虫服务器和搜索服务器。爬虫抓下来的数据形成索引后,把索引同步到搜索服务器。以后可以考虑采用Solr,把前台界面和后台提供搜索数据独立出来。

猜你喜欢

转载自blog.csdn.net/myvanguard/article/details/86511550