简单代码爬取博客超链接的文字，并且去除字符“原”和空格

这里给大家分享一个怎么用Python爬取超链接的文字，并且能够去除字符“原“和前后空格、空行等等。这个代码不多，而且非常简单。我这里用的是Python3，版本不和的可以调整一下，这个代码还是很好理解的。

接下来我给大家分享爬取我的博客超链接文字的例子，先给大家逐步分析一下，这样有助于帮助大家的理解和学习。后面将会附上完整的代码。

首先，一如既往的，开始就是简单的爬取网页的三个基本步骤，不过这里用到了解析器，不过也很容易理解的；代码如下：

url = "http://blog.csdn.net/zjy18886018024?t=1"
content = urllib.request.urlopen(url).read()
soup=BeautifulSoup(content,"html.parser")
top=soup.find_all(attrs={"class":"text-truncate"}

接下来就是对字符“原”的处理，其实这里就是用到了一个函数replace：

nu.append(num[i].replace("原",""))

紧接着就是对空格和空行的处理，这里我采用了strip函数，直接利用这个函数既可轻而易举解决：

print(nu[j].strip())

这里就是完整的代码：

# coding:utf-8

import urllib.request
from bs4 import BeautifulSoup
import requests

num=[]
url = "http://blog.csdn.net/zjy18886018024?t=1"
content = urllib.request.urlopen(url).read()
soup=BeautifulSoup(content,"html.parser")
top=soup.find_all(attrs={"class":"text-truncate"})
i=0
nu=[]
while i<len(top):
    num.append(top[i].get_text())
    nu.append(num[i].replace("原",""))
    i=i+1
j=0
while j<len(nu):
    print(nu[j].strip())
    j=j+1

下面是结果截图：

好了，这次就到这里了，望大家学习愉快！！

简单代码爬取博客超链接的文字，并且去除字符“原”和空格

猜你喜欢