利用CSS选择器和BeautifulSoup抓去京东网商品信息 - 代码天地

利用CSS选择器和BeautifulSoup抓去京东网商品信息

其他 2018-06-25 19:46:10 阅读次数: 2

知识点：

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库
CSS选择器

步骤：

环境要安装好BeautifulSoup，具体可以看官网文档
进入京东网，输入要查询的商品，向服务器发送网页请求。这里用“笔记本”
检查网页源码，利用CSS选择器复制数据

具体代码：

import numpy as np
from urllib.request import urlopen
from urllib.parse import quote
from bs4 import BeautifulSoup

def get_product(keyword):
    url = 'https://search.jd.com/Search?keyword='+ quote(keyword) + '&enc=utf-8'
    html = urlopen(url).read().decode('utf-8')
    soup = BeautifulSoup(html,'lxml')
    items = soup.select('li.gl-item')
    for i in range(1,len(items)):
        title = soup.select('div.p-img > a')[i]['title']
        print('title: ', title)
        url = soup.select('div.p-img > a')[i]['href'].split('//')[1]
        print('url: ', url)
        try:
            img = soup.select('div.p-img > a > img')[i]['source-data-lazy-img'].split('//')[1]
            print('img: ', img)
        except Exception as e:
            img = soup.select('div.p-img > a > img')[i]['source-data-lazy-img'].split('//')[1]
            print('img: ', img)
        price = soup.select('div.p-price > strong > i')[i].get_text()
        print('price: ', price)
        print('===========================')


if __name__ == '__main__':
    get_product('笔记本')

输出：

猜你喜欢

转载自blog.csdn.net/qq_21325977/article/details/80782772

利用CSS选择器和BeautifulSoup抓去京东网商品信息

如何利用BeautifulSoup选择器抓取京东网商品信息

如何利用CSS选择器抓取京东网商品信息

如何利用Xpath选择器抓取京东网商品信息

爬虫3 css选择器和xpath选择器, selenium的使用, 爬取京东商品信息

如何利用BeautifulSoup抓取京东网商品信息

如何利用Xpath抓取京东网商品信息

Python基于BeautifulSoup爬取京东商品信息

利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器

利用Python正则表达式抓取京东网商品信息

利用python+selenium采集京东商品信息

xpath和css及BeautifulSoup选择器的使用

day03 selenium补充及实训（爬京东商品信息）、Beautifulsoup4

beautifulsoup之CSS选择器

CSS 选择器：BeautifulSoup4

BeautifulSoup之Css样式选择器

BeautifulSoup解析（CSS选择器）

Python抓取京东商品信息

java京东商品信息爬取

爬取京东商品信息

爬取京东商城商品信息

史上最全的BeautifulSoup解析（基本选择器，标准选择器，css选择器）

Python大神利用正则表达式教你搞定京东商品信息

利用selenium爬取京东商品信息存放到mongodb

利用NodeJS抓取某商品信息

Python爬虫包 BeautifulSoup 之 CSS 选择器

爬虫之CSS选择器的使用(BeautifulSoup)

网络爬虫中CSS选择器的使用（BeautifulSoup）

Python-- CSS 选择器：BeautifulSoup4

beautifulSoup库中的css选择器介绍

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)