使用get函数无法获取相对应的标签 - 代码天地

使用get函数无法获取相对应的标签

其他 2018-05-07 15:39:05 阅读次数: 4

# -*- coding: utf-8 -*-
import requests
import pandas as pd
from bs4 import BeautifulSoup
import re
import json
#import cx_Oracle
from sqlalchemy import create_engine
import sys

url = 'http://www.sac.net.cn/hyfw/hydt/'
for i in range(1):
    if i ==0:
        url1='http://www.sac.net.cn/hyfw/hydt/index.html'
    else:
        url1=url+'index_'+str(i)+'.html'
    print url1
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    directory = {'User-Agent': user_agent}
    response = requests.get(url1, headers=directory)
    # 告诉他这段文本是以utf8方式编码 所以要以utf8方式解码
    response.encoding = 'utf-8'
    bs = BeautifulSoup(response.text, 'html.parser')
    title = bs.find('title').string[5:12]
    print title
    print url[0:21]
    table = bs.find_all('table')
    for a in table:
        b = a.find_all('td', attrs={'class': 'pad_le30 hei_000'})
        #print b
        for c in b:
            print c.find_all('a')
            #print d

          #print type(d)
          #print d.get('href')
          #print d.attrs.get('href'）

今天在使用爬虫爬取网页时，一直抓取不出想要的链接。

原网页的源代码是

然后我就想使用 .get('href')来取出想要的a标签中的连接，结果一直输出的都是None.

在询问过一些身边比较厉害的朋友后，说是双重循环双重列表所以取不出来。

接着我输出d的结果是没有问题的，那么问题究竟是什么原因呢？

最后才明白，原来findall返回的是list，list没有href。于是就把原来的print d.get('href')改成print d[0].get('href')然后运行，就成功了。不过输出的连接很奇怪。

这个是链接是缺省的url，对于这些缺省的url，前面的是当前url的域名，也就是当前url域名+缺省url就是真实的url

再回过头来print d 和 print d[0]，我们很明显就能看到一个输出的是列表，带有[]。后者输出的则是列表中的第一个元素。这样我们才能从标签中取出想要的href属性。还可以使用.string来获取中文哦！

猜你喜欢

转载自blog.csdn.net/weixin_41931602/article/details/80160649

使用get函数无法获取相对应的标签

Get Value——获取某个元素标签对应的value属性

git 获取标签对应的版本

客户产品相关信息标签模板相对应关联

批量获取与apk文件相对应的包名

matlab boundaries和fchcode函数无法执行的解决办法未定义与 'double' 类型的输入参数相对应的函数 'boundaries'

Python 字典 get()函数使用详解，字典获取值

无法获取页面标签元素

MAX()KEEP(DENSE_RANK FIRST/LAST) 获取最大值相对应的某个字段,非常非常实用的一个函数

使用TKMapper报错'无法获取实体类xxx对应的表名!'

小程序 - 获取html标签相对位置、宽高

mysql map_get function,用于解析map结构数据，根据key返回相对应value

使用Servlet根据浏览器request的get方法获取值，将磁盘中与之对应的json数据删除的方法

“ flutter pub get”无法获取依赖插件

Monkeyrunner学习之任意节点控件获取及获取对应控件的相对坐标实现对控件的操作

C# matalb混合编程/matlab神经网络工具箱无法编译/C#调用matlab工具箱函数“未定义与 'struct' 类型的输入参数相对应的函数 'sim'”

【Linux 内核】进程优先级与调度策略 ② ( 获取调度策略对应的进程优先级函数 | sched_get_priority_max 函数 | sched_get_priority_min 函数 )

springboot 继承shiro 使用redis缓存 @Value 标签无效无法获取值

使用selenium无法获取到标签的文本内容的解决方法

正则表达试，获取指定id ,class 对应标签的内容

函数和标签的使用

C#中获取时间相对应的年月日时分秒

利用字典获取到数据里面相对应的值

使用通用mapper时报错，tk.mybatis.mapper.MapperException:无法获取实体类xxx对应的表名!

61 jQuery-使用全局函数get()实现异步获取XML文档数据

前端函数获取或删除url get参数

matlab 未定义与‘XXX‘类型的输入参数相对应的函数‘princomp‘

python爬虫：get_text()等方法获取标签数据

Matlab中get函数的使用

@data注解加上，get无法使用

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)