这是一篇简明的 Scrapy 框架部署教程(因此不再累赘 Python 的安装和基础命令的使用方法),以截至本文发布时的 64 位 Python 最新稳定版 3.7.3 为例,正常只要操作没错都能顺利安装。

安装 Scrapy 前建议执行此命令先升级下 pip 包管理器(PS:升级时有概率出现新 pip 包管理器损坏的情况)

python -m pip install --upgrade pip

因为 Python 官方的 PyPI 软件源尚未收录(发布)支持 Python 3.X 的 Twisted 库,导致 Scrapy 安装程序在自动安装依赖框架 Twisted 时会出现以下报错:

Running setup.py install for Twisted ... error
……此处省略 N 行……
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/

解决办法是,手动安装第三方发布的 Twisted 库 → 传送门

pip install "Z:\Twisted-19.2.1-cp37-cp37m-win_amd64.whl"

注意将路径替换为你的实际文件路径,并且不要搞错版本(Python 的位数和版本主版本号都要相对应)
此外,Windows 环境还需要额外安装pywin32模块,否则 Scrapy 部分功能可能不正常

pip install pywin32

开始安装 Scrapy

pip install scrapy

出现类似提示则说明安装成功:

Installing collected packages: pyOpenSSL, parsel, scrapy
Successfully installed parsel-1.5.1 pyOpenSSL-19.0.0 scrapy-1.6.0

另外建议安装 Beautiful Soup 4 配合 Scrapy 使用(配合使用有奇效)

pip install beautifulsoup4

顺便把 Requests 安装上(你以后的项目中可能会用上也说不定)

pip install requests

安装 Chardet 模块,提升 BS4 解析 HTML 文档的效率(同时有助于降低解析时的CPU和内存占用)

pip install chardet
dotterel-summer
最后修改:2019 年 07 月 18 日
如果觉得我的文章对你有用,请随意赞赏