这是一篇简明的 Scrapy 框架部署教程(因此不再累赘 Python 的安装和基础命令的使用方法),以截至本文发布时的 64 位 Python 最新稳定版 3.7.3 为例,正常只要操作没错都能顺利安装。
安装 Scrapy 前建议执行此命令先升级下 pip 包管理器(PS:升级时有概率出现新 pip 包管理器损坏的情况)
python -m pip install --upgrade pip因为 Python 官方的 PyPI 软件源尚未收录(发布)支持 Python 3.X 的 Twisted 库,导致 Scrapy 安装程序在自动安装依赖框架 Twisted 时会出现以下报错:
Running setup.py install for Twisted ... error
……此处省略 N 行……
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/解决办法是,手动安装第三方发布的 Twisted 库 → 传送门
pip install "Z:\Twisted-19.2.1-cp37-cp37m-win_amd64.whl"注意将路径替换为你的实际文件路径,并且不要搞错版本(Python 的位数和版本主版本号都要相对应)
此外,Windows 环境还需要额外安装pywin32模块,否则 Scrapy 部分功能可能不正常
pip install pywin32开始安装 Scrapy
pip install scrapy出现类似提示则说明安装成功:
Installing collected packages: pyOpenSSL, parsel, scrapy
Successfully installed parsel-1.5.1 pyOpenSSL-19.0.0 scrapy-1.6.0另外建议安装 Beautiful Soup 4 配合 Scrapy 使用(配合使用有奇效)
pip install beautifulsoup4顺便把 Requests 安装上(你以后的项目中可能会用上也说不定)
pip install requests安装 Chardet 模块,提升 BS4 解析 HTML 文档的效率(同时有助于降低解析时的CPU和内存占用)
pip install chardet