环境配置
点击超链接进入下载页面
Python3
建议安装Anaconda,这是一个开源的Python发行版本,包含大量科学包。
如果原本安装了Python3也可以安装。安装选项中:
Add Anaconda to my PATH environment variable 将Anaconda添加到环境变量PATH中
Register Anaconda as my default Python 3.6 关联Python3.6作为默认解释器安装成功后在命令行中输入
conda list
会输出所有已安装好的包PyCharm
Python的IDE,Professional专业版需要注册码,Community社区版免费,一般开发足够用改字体大小:File→Settings→Editor→Colors&Fonts→Font
点一下Save As就可以自定义大小了
另外也可把Console Font控制台的字体同样改大新建测试工程:
File→New Project→修改untitled为Python爬虫→Create
右键工程→New→Python File→0 Hello
输入代码print("Hello World!")
→Run→RunMongoDB
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的
MongoDB是一款NoSQL四大类型之一的文档数据库,文档存储格式为BSON(Binary JSON)配置环境变量PATH:
*\MongoDB\Server\3.4\bin;
建立存储数据文件夹:在*\MongoDB\Server\3.4(bin同一目录)新建文件夹名为“data”→再在“data”内新建文件夹名为“db”
设置数据存储路径:命令行→输入
mongod --dbpath H:\MongoDB\Server\3.4\data\db
→在浏览器输入localhost:27017
看到浏览器显示“It looks like you are trying to access MongoDB over HTTP on the native driver port.”则MongoDB启动成功进入MongoDB:命令行→输入
mongo
→输入db
→显示test数据库→输入db.test.insert<<'a':'b'>>
插入一条记录显示WriteResult<<”nInserted”:1>>则插入成功(这里我试着插入会出现…没反应,跳过它~)为MongoDB配置日志文件:*:\MongoDB\Server\3.4\data文件夹→新建logs文件夹→logs文件夹下新建”mongo.log”文件
配置系统服务(方便日后启动):命令行→输入
mongod --bind_ip 0.0.0.0 --logpath H:\MongoDB\Server\3.4\data\logs\mongo.log --logappend --dbpath H:\MongoDB\Server\3.4\data\db --port 27017 --serviceName "MongoDB" --serviceDisplayName "MongoDB" --install
右键计算机→管理→服务中可以找到MongoDB这个服务→右键启动没报错即配置成功(如果报错试下关掉命令行)
Robomongo
MongoDB的可视化界面,我下的右边的Robo 3T版本
打开→Create→Name:New Connection→Address:localhost:27017→Connect
右键“New Connection”→Open Shell→输入db.foo.insert({"bar":"baz"})
即可插入数据
- Redis
Redis是一款NoSQL四大类型之一的键值数据库,非常高效
打开链接下载.msi安装即可
安装选项中:
Add the Redis installation folder to the PATH environment variable 将Redis添加到环境变量PATH中 - RedisDesktopManager
Redis的可视化界面
打开链接下载.exe安装即可(不建议下beta版)
打开→Name:localhost→Host:localhost→Port:6379→确定
双击localhost打开→右键db0→Add new key→Key:a,Value:b→save→Yes
双击db0查看→将View as改为Plain Text
MySQL
关系型数据库,体积小且易用
打开链接→Go to Download Page→选择一个几百兆的点Download→跳转到一个页面不会自动下载→点No thanks, just start my download.
安装直接Next到一个Accounts and Roles页面后输入Root密码即可MySQL-Front
MySQL的可视化界面Python爬虫常用库
命令行使用pip3 install 库名
命令进行安装,若安装速度过慢使用国内镜像安装
命令行输入python便可进行python库测试
urllib re
Python自带的库
命令行测试代码:
import urllib
import urllib.request
urllib.request.urlopen(‘http://www.baidu.com‘)
返回一个HTTTPResponse
import re
没报错则正常
requests
做请求处理
命令行测试代码:
import requests
requests.get(‘http://www.baidu.com‘)
返回Response200则成功请求
selenium
驱动浏览器,用于自动化测试
许多网站会用JS对网站进行渲染,这时需要用这个库驱动浏览器获取渲染后的网页信息
需先安装Chrome和ChromeDriver,目前最新版的Chrome v66 对应ChromeDriver 2.38
Chrome版本可通过:帮助→关于Google Chrome查看
ChromeDriver对应版本可点击以下链接任一文件夹下的notes.txt查看
ChromeDriver
命令行测试代码:
from selenium import webdriver
driver = webdriver.Chrome()
这时会自动打开Chrome
driver.get(“http://www.baidu.com“)
这时Chrome自动链接到百度
phantomjs
无界面浏览器,无需弹出浏览器进行爬虫
打开链接下载后解压将bin目录下的“phantomjs.exe”复制到Python的Bin目录下即可运行
命令行测试代码:
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(“http://www.baidu.com“)
driver.page_source
将百度源代码打印出来
lxml
使用Xpath语法对网页进行解析
beautifulsour4
依赖于lxml库,需先安装lxml库,也可以对网页进行解析
命令行测试代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup(‘‘,’lxml’)
pyquery
python下的JQuery
命令行测试代码:
from pyquery import PyQuery as pq
doc = pq(“HelloWorld“)
result = doc(“html”).text()
result
pymysql
python连接MySQL
命令行测试代码:
import pymysql
coon = pymysql.connect(host=”localhost”,user=”root”,password=”123456”,port=3306,db=”mysql”)
cursor = coon.cursor()
cursor.execute(“select * from db”)
cursor.fetchone()
pymongo
python连接MongoDB
命令行测试代码:
import pymongo
client = pymongo.MongoClient(“localhost”)
db = client[“newtestdb”]
db[‘table’].insert({‘name’:’Bob’})
db[‘table’].find_one({‘name’:’Bob’})
redis
python连接redis
命令行测试代码:
import redis
r = redis.Redis(‘localhost’,6379)
r.set(‘name’,’Bob’)
r.get(‘name’)
flask
代理设置,Python编写的Web微框架
django
Web服务器框架
jupyter
日志文档,一个网页,可以在上面写代码、调试、记录文档(支持MarkDown)
命令行测试代码(不进入Python):
jupyter notebook
将会自动弹出一个浏览器,列出当前目录和文件
网页new→Python3→点击Untitled1可以改名→输入print('Hello World!')
点run即可运行代码
加下拉列表改为“Markdown”输入“## request包”→Ctrl+Enter转Markdown格式