不知有没空写下去——Python爬虫(一) 环境配置

环境配置

点击超链接进入下载页面

  1. Python3
    建议安装Anaconda,这是一个开源的Python发行版本,包含大量科学包。
    如果原本安装了Python3也可以安装。

    安装选项中:
    Add Anaconda to my PATH environment variable 将Anaconda添加到环境变量PATH中
    Register Anaconda as my default Python 3.6 关联Python3.6作为默认解释器

    安装成功后在命令行中输入conda list会输出所有已安装好的包

  2. PyCharm
    Python的IDE,Professional专业版需要注册码,Community社区版免费,一般开发足够用

    改字体大小:File→Settings→Editor→Colors&Fonts→Font
    点一下Save As就可以自定义大小了
    另外也可把Console Font控制台的字体同样改大

    新建测试工程:
    File→New Project→修改untitled为Python爬虫→Create
    右键工程→New→Python File→0 Hello
    输入代码print("Hello World!")→Run→Run

  3. MongoDB
    MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的
    MongoDB是一款NoSQL四大类型之一的文档数据库,文档存储格式为BSON(Binary JSON)

    配置环境变量PATH:*\MongoDB\Server\3.4\bin;

    建立存储数据文件夹:在*\MongoDB\Server\3.4(bin同一目录)新建文件夹名为“data”→再在“data”内新建文件夹名为“db”

    设置数据存储路径:命令行→输入mongod --dbpath H:\MongoDB\Server\3.4\data\db→在浏览器输入localhost:27017看到浏览器显示“It looks like you are trying to access MongoDB over HTTP on the native driver port.”则MongoDB启动成功

    进入MongoDB:命令行→输入mongo→输入db→显示test数据库→输入db.test.insert<<'a':'b'>>插入一条记录显示WriteResult<<”nInserted”:1>>则插入成功(这里我试着插入会出现…没反应,跳过它~)

    为MongoDB配置日志文件:*:\MongoDB\Server\3.4\data文件夹→新建logs文件夹→logs文件夹下新建”mongo.log”文件

    配置系统服务(方便日后启动):命令行→输入mongod --bind_ip 0.0.0.0 --logpath H:\MongoDB\Server\3.4\data\logs\mongo.log --logappend --dbpath H:\MongoDB\Server\3.4\data\db --port 27017 --serviceName "MongoDB" --serviceDisplayName "MongoDB" --install

    右键计算机→管理→服务中可以找到MongoDB这个服务→右键启动没报错即配置成功(如果报错试下关掉命令行)
    这里写图片描述

  4. Robomongo
    MongoDB的可视化界面,我下的右边的Robo 3T版本
    打开→Create→Name:New Connection→Address:localhost:27017→Connect
    右键“New Connection”→Open Shell→输入db.foo.insert({"bar":"baz"})即可插入数据
    这里写图片描述

  5. Redis
    Redis是一款NoSQL四大类型之一的键值数据库,非常高效
    打开链接下载.msi安装即可
    安装选项中:
    Add the Redis installation folder to the PATH environment variable 将Redis添加到环境变量PATH中
  6. RedisDesktopManager
    Redis的可视化界面
    打开链接下载.exe安装即可(不建议下beta版)
    打开→Name:localhost→Host:localhost→Port:6379→确定
    双击localhost打开→右键db0→Add new key→Key:a,Value:b→save→Yes
    双击db0查看→将View as改为Plain Text
    这里写图片描述
  7. MySQL
    关系型数据库,体积小且易用
    打开链接→Go to Download Page→选择一个几百兆的点Download→跳转到一个页面不会自动下载→点No thanks, just start my download.
    安装直接Next到一个Accounts and Roles页面后输入Root密码即可

  8. MySQL-Front
    MySQL的可视化界面

  9. Python爬虫常用库
    命令行使用pip3 install 库名命令进行安装,若安装速度过慢使用国内镜像安装
    命令行输入python便可进行python库测试

urllib re
Python自带的库
命令行测试代码:

import urllib
import urllib.request
urllib.request.urlopen(‘http://www.baidu.com‘)

返回一个HTTTPResponse
import re
没报错则正常

requests
做请求处理
命令行测试代码:

import requests
requests.get(‘http://www.baidu.com‘)

返回Response200则成功请求

selenium
驱动浏览器,用于自动化测试
许多网站会用JS对网站进行渲染,这时需要用这个库驱动浏览器获取渲染后的网页信息

需先安装Chrome和ChromeDriver,目前最新版的Chrome v66 对应ChromeDriver 2.38
Chrome版本可通过:帮助→关于Google Chrome查看
ChromeDriver对应版本可点击以下链接任一文件夹下的notes.txt查看
ChromeDriver
命令行测试代码:

from selenium import webdriver
driver = webdriver.Chrome()

这时会自动打开Chrome

driver.get(“http://www.baidu.com“)

这时Chrome自动链接到百度

phantomjs
无界面浏览器,无需弹出浏览器进行爬虫
打开链接下载后解压将bin目录下的“phantomjs.exe”复制到Python的Bin目录下即可运行
命令行测试代码:

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(“http://www.baidu.com“)
driver.page_source

将百度源代码打印出来

lxml
使用Xpath语法对网页进行解析

beautifulsour4
依赖于lxml库,需先安装lxml库,也可以对网页进行解析
命令行测试代码:

from bs4 import BeautifulSoup
soup = BeautifulSoup(‘‘,’lxml’)

pyquery
python下的JQuery
命令行测试代码:

from pyquery import PyQuery as pq
doc = pq(“HelloWorld“)
result = doc(“html”).text()
result

pymysql
python连接MySQL
命令行测试代码:

import pymysql
coon = pymysql.connect(host=”localhost”,user=”root”,password=”123456”,port=3306,db=”mysql”)
cursor = coon.cursor()
cursor.execute(“select * from db”)
cursor.fetchone()

pymongo
python连接MongoDB
命令行测试代码:

import pymongo
client = pymongo.MongoClient(“localhost”)
db = client[“newtestdb”]
db[‘table’].insert({‘name’:’Bob’})
db[‘table’].find_one({‘name’:’Bob’})

redis
python连接redis
命令行测试代码:

import redis
r = redis.Redis(‘localhost’,6379)
r.set(‘name’,’Bob’)
r.get(‘name’)

flask
代理设置,Python编写的Web微框架

django
Web服务器框架

jupyter
日志文档,一个网页,可以在上面写代码、调试、记录文档(支持MarkDown)
命令行测试代码(不进入Python):

jupyter notebook

将会自动弹出一个浏览器,列出当前目录和文件
网页new→Python3→点击Untitled1可以改名→输入print('Hello World!')点run即可运行代码
加下拉列表改为“Markdown”输入“## request包”→Ctrl+Enter转Markdown格式
这里写图片描述

猜你喜欢

转载自blog.csdn.net/lly1122334/article/details/80331281