天天基金可爬取主要URL

首先天天基金robots.txt内容如下

User-agent: * 
Disallow: /*spm=*
Disallow: /*aladin

表示不限制爬虫方式,不能爬取根目录下包含字符串'spm='的文件和根目录下'aladin'结尾的文件

主要URL

  1. 公司列表:http://fund.eastmoney.com/js/jjjz_gs.js
  2. 基金列表:http://fund.eastmoney.com/js/fundcode_search.js
  3. 基金信息1:http://fund.eastmoney.com/pingzhongdata/'+code+'.js‘ 其中,code为6位整数,如000001的URL位=为http://fund.eastmoney.com/pingzhongdata/000001.js
  4. 基金信息2:http://fund.eastmoney.com/f10/tsdata_'+code+'.html',同上
  5. 基金经理信息:http://fundf10.eastmoney.com/jjjl_'+code+'.html',同上

已经写好的爬虫源码:https://github.com/XDTD/fund_crawler

发布了17 篇原创文章 · 获赞 7 · 访问量 8438

猜你喜欢

转载自blog.csdn.net/qq_40405705/article/details/100590491