1.项目背景
接到业务部门提出需要在国家电网下载文件,详细沟通后将需求逐步明确和澄清,详见:
- 数据来源
http://ecp.sgcc.com.cn/ecp1.0/project_list.jsp?site=global&column_code=014001001&project_typ
e=1- 抓取国家电⽹电⼦商务平台所有招标公告,下载“项⽬公告⽂件”
- 将下载的项⽬公告⽂件解压后,寻找有’货物清单’字样的Excel表格,
- 将所有的货物清单统⼀合并成⼀个csv⽂件
- 获取货物清单Excel表格中的指定共15列数据
‘包号’, ‘⽹省采购申请⾏号’, ‘项⽬单位’, ‘需求单位’, ‘项⽬名称’, ‘⼯程电压等级’, ‘物资名称’, ‘物资描
述’,‘单位’, ‘数量’, ‘交货⽇期’, ‘交货地点’, ‘备注’, ‘技术规范ID’, ‘状态’- 其中’状态’列是后期添加列,指的是本标书的项⽬状态,例如’已经截标’,‘正在评标’,'评标结束’等
状态
用Xmind脑图梳理如下:
2.流程步骤
- 下载文件
- 解压文件
- 修改编码
- 寻找"货物清单"
- 合并数据
- “项目状态”列数据添加到合并数据里
3.工具及技术
- requests
- lxml
- time
- urllib
- re,os
- shutil
- zipfile
- threading
以上对需求的拆解以及整体的分析思路
接下来通过代码实现每个步骤:爬虫系列文章(二)爬取页面分析及信息获取