文章标签:lxml 的归档

利用 lxml 库的 Cleaner 类清洗标签

lxml 是一款功能强大和易用的 Python 库,主要用来处理 XML 和 HTML,很多爬虫工具都会用到它,而且因为 lxml 是基于 C 语言的 libxml2 和 libxslt 库,所以解析速度会快很多。

本文记录使用 lxml 库里的 Cleaner 类来清洗 HTML 文档中的各种多余元素。

继续阅读