Python百度爬虫，分析各行业权重排行，数据分析工程师也不如你！

Window环境下python爬取百度权重排行榜，如果你对SEO优化有所了解，那么你一定知道权重的概念，以及它的重要意义，下面这些是官方解释：

权重是指某一因素或指标相对于某一事物的重要程度，其不同于一般的比重，体现的不仅仅是某一因素或指标所占的百分比，强调的是因素或指标的相对重要程度，倾向于贡献度或重要性。通常，权重可通过划分多个层次指标进行判断和计算，常用的方法包括层次分析法、模糊法、模糊层次分析法和专家评价法等。

官方的话太绕口，简单来讲就是你在某一个行业所占的位置的重要程度。

那么我们获得这些数据有什么作用呢？

我们身处于大数据时代，然而意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行特殊加工，创造价值。

当我们了解权重，那么我们就可以利用python获取我们所需行业权重最高的数据，进行分析、归纳、总结。学着人家的方法做，或在人家的方法上进行加工，创造更多的价值。

Python爬取到的效果图：

# coding=utf-8

import requests

import re

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

url = "http://top.chinaz.com/all/index_br.html"#由于第一页跟第二页之后的url格式不一样,so,分两步完成.

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

session = requests.session()

html = session.get(url, headers=headers).content

config = re.compile('<span class="col-gray">(.*?)</span>.*?<a target="_blank" >(.*?)</a>.*?<img src="/themes/default/images/baidu/(.*?).gif">')

res = re.findall(config, html)

connecterror = []

f = open("url.txt", "a")

print '''程序启动... '''

for i in range(1, len(res)):

if "www" in res[0:3]:

cc = "http://" + res[0]

try:

a= cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: ' + requests.get(cc, headers=headers).headers['Server']

print a

f.write(a+'\n')

except:

a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: 获取失败'

print a

f.write(a+'\n')

connecterror.append(cc)

else:

cc = "http://www." + res[0]

try:

a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: ' + requests.get(cc, headers=headers).headers['Server']

print a

f.write(a+'\n')

except:

a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: 获取失败'

print a

f.write(a+'\n')

connecterror.append(cc)

for j in range(2,1844):

url = "http://top.chinaz.com/all/index_br_%d.html"%j

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

session = requests.session()

html = session.get(url, headers=headers).content

config = re.compile('<span class="col-gray">(.*?)</span>.*?<a target="_blank" >(.*?)</a>.*?<img

Python编程语言是迄今为止最好用的做爬虫的语言，身处大数据时代，数据就是不动产。所以Python爬虫虽然简单，但是却非常有学习的必要！

Python百度爬虫，分析各行业权重排行，数据分析工程师也不如你！

猜你喜欢