1.这个问题要么换3.6要么改源码
File “c:\users\administrator.user-20160420ae\appdata\local\programs\python\pyt
hon37-32\lib\site-packages\twisted\conch\manhole.py”, line 154
def write(self, data, async=False):
^
SyntaxError: invalid syntax
2.robots.txt:
DEBUG: Forbidden by robots.txt:
这个文件中规定了本站点允许的爬虫机器爬取的范围,因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限,出错是因为使用的爬虫爬取内容违背这个robot.txt。所以只要让爬虫不遵守该协议就好了,具体做法是找到settings文件里的ROBOTSTXT_OBEY设置成False。
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
3.xpath的text()和extract()
extract()这个是获取到标签的所有信息
text()则是将该标签的的值获取到,也就是>这里的值<
4.403解决,settings下面用这个就行
USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5’
5.json.loads和jumps的区别
json.dumps : dict转成str
json.loads:str转成dict
6.scrapy 打印页面出现编码不正确
print(html.decode('utf-8', 'ignore')) #这样子是py3默认utf8 打印 不用utf-8打印就行
- xpath 如何去掉换行和空格
normalize-space(//*[@class="entry-meta-hide-on-mobile"]/text())
translate():替换字符,产生新的字符串
8.Unknown command: crawl
这个是没有进到项目根目录