02 通用爬虫和聚焦爬虫

通用爬虫 聚焦爬虫
1.通用爬虫:搜索引擎用的爬虫系统
    1.目标:就是尽可能把互联网上所有的网页下载下来,放到本地服务器里形成备份
     再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口

    2.抓取流程:
    a)首选选取一部分已有的URL,把这些URL放到待爬取队列
    b)从队列里取出url,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到对应的搜索引擎的本地服务器里
     之后把这个爬过的url放到已爬取队列
    c)分析这些网页内容,找出网页里其他的URL链接,继续执行第二步,直到爬取条件结束
    3.搜索引擎如何获取一个新网站的URL:
        1.主动向搜索引擎提交网站:https://ziyuan.baidu.com/site/index
        2. 在其他网站设置网站的外链
        3. 搜索引擎会和DNS服务商进行合作,可以快速获取新网站
    4.通用爬虫并不是万物皆可爬,它也需要遵守规则:
        Robots协议:协议会指明通用爬虫可以爬取网页的权限
        Robots.txt 只是一个建议 并不是所有爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守,咱们个人写的爬虫,就不用管了
    5.通用爬虫工作流程:爬取网页  存储数据 内容处理 提供检索/排名服务
    6.搜索引擎排名:
        1.PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,排名越靠前,网站也越值钱
        2.竞价排名:谁给钱多,谁排名就高.
    7.通用爬虫的缺点:
        1.只能提供和文本相关的内容(HTML、Word、PDF)等等,但是不能提供多媒体(音乐、图片、视频)和二进制文件(程序、脚本)
        2.提供的结果千篇一律,不能根据不同背景领域的人提供不同的搜索结果
        3.不能理解人类语义上的检索

为了解决这个问题,聚焦爬虫出现了
2.聚焦爬虫:爬虫程序员写的针对某种内容爬虫
面相主题爬虫, 面相需求爬虫,会针对某种特定的内容去爬取信息,而且会保证内容和需求尽量相关


DNS:就是把域名解析成IP的一种技术、
02 通用爬虫和聚焦爬虫

猜你喜欢