第一行和第二行中requests和BeautifulSoup都是python的库,进行导入。
第三行headers,只是我定义的一段变量,用大括号、冒号、逗号的形式表现出来,就告诉python这是一个字典类型的变量,用大括号、冒号、逗号的形式表现出来,就告诉python这是一个字典类型的变量。
倒数第六行,是一个for循环,从827次到999次;
倒数第五行,把int类型变量转化成字符串类型,打印出来,提示我们代码执行到哪一次循环;
倒数第四行自己定义变量start_html,request.get是请求头,爬取网址http://baidu.com/book.php?id=827 到 http://baidu.com/book.php?id=999的所有网址信息;
倒数第三行的soup是自定义变量,用BeautifulSoup去解析上一行定义的变量 start_html 的文本内容,lxml应该是一种解析器;
倒数第二行,在网页源代码里面,找到名为body的标签,然后用get_text()方法获取标签包含的内容(使用get_text()方法从大段html中提取文本);
最后print出来这个title(文本内容)就可以了。