关于详解一段爬虫代码(原创,启发自一段与师兄的对话)

第一行和第二行中requests和BeautifulSoup都是python的库,进行导入。

第三行headers,只是我定义的一段变量,用大括号、冒号、逗号的形式表现出来,就告诉python这是一个字典类型的变量,用大括号、冒号、逗号的形式表现出来,就告诉python这是一个字典类型的变量。

倒数第六行,是一个for循环,从827次到999次;

倒数第五行,把int类型变量转化成字符串类型,打印出来,提示我们代码执行到哪一次循环;

倒数第四行自己定义变量start_html,request.get是请求头,爬取网址http://baidu.com/book.php?id=827  到  http://baidu.com/book.php?id=999的所有网址信息;

倒数第三行的soup是自定义变量,用BeautifulSoup去解析上一行定义的变量 start_html 的文本内容,lxml应该是一种解析器;

倒数第二行,在网页源代码里面,找到名为body的标签,然后用get_text()方法获取标签包含的内容(使用get_text()方法从大段html中提取文本);

最后print出来这个title(文本内容)就可以了。

猜你喜欢

转载自blog.csdn.net/weixin_40765606/article/details/81297306