1. Scrapy:优秀的网络爬虫框架

提供了构建网络爬虫系统的框架功能,功能半成品

支持批量和定时网页爬取、提供数据处理流程等

python最主要且最专业的的网络爬虫框架

 

  1. pyspider:强大的web页面爬取系统

提供了完整的网页爬取系统构建功能

支持数据库后端、消息队列、优先级、分布式叫等

python重要的网络爬虫类的三方库

 

  1. Beautiful Soup:HTML和XML的解析库

提供了解析HTML和XML等WEB信息的功能

又名beautifulsoup4或bs4,可以加载多种解析引擎

常与网络爬虫库搭配使用,如scrapy和requests等

 

  1. Re:正则表达式解析和处理功能库

提供了定义和解析正则表达式的一批通用功能

可用于各类场景,包括定点的WEB信息提取

python最主要的标准库之一,无需安装

 

  1. Python-Goose:提取文章类型Web页面的功能库

提供了对Web页面中文章信息/视频等元素的提取功能

针对特定类型Web页面,应用覆盖面较广

python最主要的Web信息提取库

form goose importGoose

url='.....html'

g = Goose({'use_meta_language':False, 'target_language':'es'})

article = g.extract(url=url)

article.cleaned_text[:150]

 

  1. Django:最流行的Web应用框架

提供了构造Web系统的基本应用框架

MTV模式:模型(model)、模板(Template)、视图(views)

python最重要的Web应用框架,略微复杂的应用框架

 

 

  1. Pyramid:规模适中的Web应用框架

提供了简单方面构建Web系统的应用框架

不大不小,规模适中,适合快四构建并湿度扩展类应用

Python产品级Web应用框架,起步简单可扩展性好

 

  1. Flask:Web应用开发微框架

提供了最简单构建Web系统的应用框架

特点是:简单、规模小、快速

 

  1. WeRoBot:微信公众号开发框架

提供了解析微信服务器及反馈消息的功能

建立微信机器人的重要技术手段

 

  1. aip:百度AI开放平台接口

提供了访问百度AI服务的Python功能接口

语音、人脸、ocr、nlp、知识图谱、图像搜索等领域

Python百度AI应用的最主要方式

 

  1. MyQR:二维码生成第三方库

提供了声场二维码的系列功能

基本二维码、艺术二维码、和动态二维码

 

这是我上网课的初步总结,之后再进行实战