利用lxml和request完成当当网图书信息提取 - 代码天地

利用lxml和request完成当当网图书信息提取

其他 2019-01-18 22:16:48 阅读次数: 0

版权声明：2018/4/10重启blog；转载请注明出处 https://blog.csdn.net/zhaiqiming2010/article/details/86512662

import requests
from lxml import html

def spider(sn):
    '''get book data of Dangdang'''
    url = 'http://search.dangdang.com/?key={sn}&act=input'.format(sn=sn)
    # 请求
    html_data = requests.get(url).text
    # 解析HTML
    selector = html.fromstring(html_data)
    # 获取图书列表
    ul_list = selector.xpath('//div[@id="search_nature_rg"]/ul/li')

    #提取出书籍的部分信息
    book_list = []
    for li in ul_list:

        #bookName
        bookName = li.xpath('a/@title')[0]
        
        #link
        link = li.xpath('a/@href')[0]
        
        #price
        price = li.xpath('p[3]/span[1]/text()')[0].replace('¥', '')
        
        #business
        business = li.xpath('p[@class="search_shangjia"]/a/text()') if len(li.xpath('p[@class="search_shangjia"]/a/text()')) > 0 else '当当自营'

        book_list.append({'name':bookName,'link':link,'price':price,'business':business,})

    book_list = sorted(book_list, key=lambda item:float(item['price']))
    for item in book_list:
        print(item['price'])
if __name__ == '__main__':
    # sn = input('PELEASE INPUT BOOK NUMBER')
    sn = "9787115428028" #书籍的编号
    spider(sn)

猜你喜欢

转载自blog.csdn.net/zhaiqiming2010/article/details/86512662

利用lxml和request完成当当网图书信息提取

爬虫基本原理介绍和初步实现（以抓取当当网图书信息为例）

当当网程序设计类图书信息爬取

Python爬虫实战+Scrapy框架爬取当当网图书信息

当当网图书

[Python爬虫]爬虫实例:在线爬取当当网畅销书Top500的图书信息

[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息

爬去当当热销图书信息

利用python爬虫可视化分析当当网的图书数据！

爬虫爬当当网书籍信息

当当网

scrapy爬虫框架实例二当当图书信息

scrapy 当当网书籍信息爬取存储MySQL

python scrapy爬取当当网商品信息

scrapy 爬取当当网信息并保存mysql

当当网商品数据接口API 获取当当网商品详情信息商品列表

python当当网爬虫

scrapy 当当网爬虫

使用Taskflow完成简历信息提取

lxml中的xpath股票信息提取

Scrapy爬虫（5）爬取当当网图书畅销榜

分布式爬虫----当当网图书数据爬取

基于Scrapy框架的当当网编程开发图书定向爬虫

保姆级scrapy框架实践：爬取当当网java图书数据

python课程设计——当当网Python图书数据分析

Python爬取当当、京东、亚马逊图书信息代码实例

当当网 / sharding-jdbc

当当网的elastic-job

dubbox 当当网编写下载

自写当当网1

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)