简单代码爬取博客超链接的文字,并且去除字符“原”和空格

        这里给大家分享一个怎么用Python爬取超链接的文字,并且能够去除字符“原“和前后空格、空行等等。这个代码不多,而且非常简单。我这里用的是Python3,版本不和的可以调整一下,这个代码还是很好理解的。

        接下来我给大家分享爬取我的博客超链接文字的例子,先给大家逐步分析一下,这样有助于帮助大家的理解和学习。后面将会附上完整的代码。

首先,一如既往的,开始就是简单的爬取网页的三个基本步骤,不过这里用到了解析器,不过也很容易理解的;代码如下:

 
 
url = "http://blog.csdn.net/zjy18886018024?t=1"
content = urllib.request.urlopen(url).read()
soup=BeautifulSoup(content,"html.parser")
top=soup.find_all(attrs={"class":"text-truncate"}

接下来就是对字符“原”的处理,其实这里就是用到了一个函数replace:

nu.append(num[i].replace("原",""))

紧接着就是对空格和空行的处理,这里我采用了strip函数,直接利用这个函数既可轻而易举解决:

print(nu[j].strip())

这里就是完整的代码:

# coding:utf-8

import urllib.request
from bs4 import BeautifulSoup
import requests

num=[]
url = "http://blog.csdn.net/zjy18886018024?t=1"
content = urllib.request.urlopen(url).read()
soup=BeautifulSoup(content,"html.parser")
top=soup.find_all(attrs={"class":"text-truncate"})
i=0
nu=[]
while i<len(top):
    num.append(top[i].get_text())
    nu.append(num[i].replace("原",""))
    i=i+1
j=0
while j<len(nu):
    print(nu[j].strip())
    j=j+1
下面是结果截图:

好了,这次就到这里了,望大家学习愉快!!


猜你喜欢

转载自blog.csdn.net/zjy18886018024/article/details/80573145