Python百度爬虫,分析各行业权重排行,数据分析工程师也不如你!

Window环境下python爬取百度权重排行榜,如果你对SEO优化有所了解,那么你一定知道权重的概念,以及它的重要意义,下面这些是官方解释:

权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。通常,权重可通过划分多个层次指标进行判断和计算,常用的方法包括 层次分析法 、模糊法、 模糊层次分析法 和专家评价法等。

官方的话太绕口,简单来讲就是你在某一个行业所占的位置的重要程度。

那么我们获得这些数据有什么作用呢?

 

我们身处于大数据时代,然而意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行特殊加工,创造价值。

当我们了解权重,那么我们就可以利用python获取我们所需行业权重最高的数据,进行分析、归纳、总结。学着人家的方法做,或在人家的方法上进行加工,创造更多的价值。

Python爬取到的效果图:

 

 

# coding=utf-8

import requests

import re

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

url = "http://top.chinaz.com/all/index_br.html"#由于第一页跟第二页之后的url格式不一样,so,分两步完成.

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

session = requests.session()

html = session.get(url, headers=headers).content

config = re.compile('<span class="col-gray">(.*?)</span>.*?<a target="_blank" >(.*?)</a>.*?<img src="/themes/default/images/baidu/(.*?).gif">')

res = re.findall(config, html)

connecterror = []

f = open("url.txt", "a")

print '''程序启动... '''

for i in range(1, len(res)):

if "www" in res[0:3]:

cc = "http://" + res[0]

try:

a= cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: ' + requests.get(cc, headers=headers).headers['Server']

print a

f.write(a+'\n')

except:

a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: 获取失败'

print a

f.write(a+'\n')

connecterror.append(cc)

else:

cc = "http://www." + res[0]

try:

a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: ' + requests.get(cc, headers=headers).headers['Server']

print a

f.write(a+'\n')

except:

a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: 获取失败'

print a

f.write(a+'\n')

connecterror.append(cc)

for j in range(2,1844):

url = "http://top.chinaz.com/all/index_br_%d.html"%j

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

session = requests.session()

html = session.get(url, headers=headers).content

config = re.compile('<span class="col-gray">(.*?)</span>.*?<a target="_blank" >(.*?)</a>.*?<img

Python编程语言是迄今为止最好用的做爬虫的语言,身处大数据时代,数据就是不动产。所以Python爬虫虽然简单,但是却非常有学习的必要!

 

猜你喜欢

转载自www.cnblogs.com/tzjks/p/9140624.html