小编最近无聊做了一个网址导航站,突发奇想加了个微博实时热搜模块,没想到效果还不错,这里给大家简单分享一下
首先说下思路:首先采用控制台程序来作为我们的爬虫工具,然后利用windows计划任务让它定时跑起来,有些童鞋要问为何要用windows计划任务呢,控制台里面做个定时不就好了么,小编是个很懒的程序员,有现成的就不去多花时间哈哈~
好,下面说下爬虫:
这里要注意:ScrapySharp不是拿他来爬取的 这里安装他是为了方便解析html文档,爬取程序是Selenum.WebDriver+PhantomJS
以下是代码片段:
var _driver = new PhantomJSDriver();
_driver.Navigate().GoToUrl(mpn.Link);
var html = _driver.PageSource; //执行 js后拿到的html文档
_driver.Quit();
var doc = new HtmlDocument();
doc.LoadHtml(html);//获取到html后丢给ScrapySharp处理
这里之所以用Selenum.WebDriver+PhantomJS是因为微博把内容全都放到JS里面去加载,如果采用一般的网页抓取是没办法获取到抓取内容的。
然后后面就是分析目标结构:
结构很简单,获取链接文字,标签和热度值
最终效果:
好这里就跟大家介绍完了,最后码字辛苦,希望大家支持下我的新站点: 我的网址导航 https://www.so180.cn