这可能是你见过最全的网络爬虫工具库集合!_python

大家好,我是辰哥~

经常逛 GitHub 的同学可能会听说过大名鼎鼎的 awesome 仓库,没错,就是这个:https://github.com/sindresorhus/awesome。

这可能是你见过最全的网络爬虫工具库集合!_数据库_02

这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。

就拿 Platform 这个平台这个分支来讲吧,里面又有进一步的细分,比如 iOS、Android、Linux、macOS、JVM 等等,然后每一个又是一个新的以 awesome 开头的仓库,比如:

  • awesome-linux:https://github.com/inputsh/awesome-linux
  • awesome-android:https://github.com/JStumpp/awesome-android
  • awesome-macOS:https://github.com/iCHAIT/awesome-macOS

这可能是你见过最全的网络爬虫工具库集合!_编程语言_03

是的,每一个子仓库里面都收集了关于这个领域的几乎所有的资料、工具、库等等。

也就是说,awesome (https://github.com/sindresorhus/awesome)这个库是根,然后衍生出来了各个领域和方向的 awesome 子仓库来收集对应领域的资料、工具库,由全世界的程序员一起维护和贡献。

真的全是宝藏!

有朋友这会就好奇了,有没有有关爬虫的 awesome 库呢?有!

awesome-web-scraping

就是这个:https://github.com/lorien/awesome-web-scraping

这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等,首页如下:

这可能是你见过最全的网络爬虫工具库集合!_java_04

另外还有一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等等。

比如我们看看 Python 的,里面就收集了各种请求库、解析库、数据处理库等等:

这可能是你见过最全的网络爬虫工具库集合!_java_05这可能是你见过最全的网络爬虫工具库集合!_人工智能_06这可能是你见过最全的网络爬虫工具库集合!_java_07

这里就不一一放了,是不是又大又全?

awesome-web-scraping 中文版

是的,awesome 系列仓库还有更小的分支,那就是根据语言划分的分支,比如说中文版、日文版、俄文版等等,比如说 awesome-windows 上面就分了中文:https://github.com/Awesome-Windows/Awesome,

这可能是你见过最全的网络爬虫工具库集合!_java_08

其他的很多 awesome 仓库也有中文,比如:

  • awesome-anrdoid 中文:https://github.com/jobbole/awesome-android-cn
  • awesome-ios 中文:https://github.com/jobbole/awesome-ios-cn

OK,那我做了件什么事呢?

我也为 awesome-web-scraping 创建了一个中文版本的仓库:https://github.com/Germey/AwesomeWebScraping。

其实就是对原仓库进行了一次翻译,也是区分了各种语言,比如 Python、JavaScript 等各个语言的工具库全在这里面了!另外每个语言都有很多分类,像请求库、爬取框架、解析库、自然语言处理、消息队列等等,都在这里了:

这可能是你见过最全的网络爬虫工具库集合!_编程语言_09

比如部分的内容大致如下:

这可能是你见过最全的网络爬虫工具库集合!_人工智能_10

这可能是你见过最全的网络爬虫工具库集合!_java_11

这可能是你见过最全的网络爬虫工具库集合!_编程语言_12

总之,这个库的目标就是做一个 GitHub 上收集有关网络爬虫工具库的最全的中文版集合!

当然现在我还在翻译和优化过程中,部分内容可能不是完全通顺,还会继续更新和完善的。

大家如果发现有遗漏的库,想往里面加的话也欢迎提 PR,我会一并收纳和整理,一起让它完善起来吧!

附上github:

https://github.com/Germey/AwesomeWebScraping