版权声明:本文为博主原创文章,未经博主允许不得转载 https://blog.csdn.net/g_optimistic/article/details/89510099
目录
1.爬虫是用来干什么的?
是从互联网上提取数据的一组程序
2.在大数据时代,我们的数据从哪来?
途径1:企业产生的数据
百度指数
index.baidu.com/v2/index.html
阿里指数
alizs.taobao.com
腾讯浏览指数
tbi.tencent.com
新浪微博指数
data.weibo.com
途径2:从数据平台购买数据
数据堂
data.tang.com/index.html
国云数据市场
贵阳大数据交易市场
trade.gbdex.com/trade.web
途径3:政府/机构公开的数据
国家统计局
世界银行
data.worldbank.org.cn
联合国数据
https://www.un.org/zh/databases/
纳斯达克数据
途径4:数据管理咨询公司
麦肯锡
埃森哲
https://www.accenture.com/cn-zh
艾瑞咨询
途径5:爬取网络数据
如果需要的数据市场上没有,或者不愿意购买,可以选择招/做一名爬虫工程师,自己动手去爬去数据
但凡在互联网上看到的数据都可以把它爬下来
3.爬虫的定义
爬虫是一种按照一定规则,自动抓取万维网信息的程序或者脚本