- Scrapy:优秀的网络爬虫框架
提供了构建网络爬虫系统的框架功能,功能半成品
支持批量和定时网页爬取、提供数据处理流程等
python最主要且最专业的的网络爬虫框架
- pyspider:强大的web页面爬取系统
提供了完整的网页爬取系统构建功能
支持数据库后端、消息队列、优先级、分布式叫等
python重要的网络爬虫类的三方库
- Beautiful Soup:HTML和XML的解析库
提供了解析HTML和XML等WEB信息的功能
又名beautifulsoup4或bs4,可以加载多种解析引擎
常与网络爬虫库搭配使用,如scrapy和requests等
- Re:正则表达式解析和处理功能库
提供了定义和解析正则表达式的一批通用功能
可用于各类场景,包括定点的WEB信息提取
python最主要的标准库之一,无需安装
- Python-Goose:提取文章类型Web页面的功能库
提供了对Web页面中文章信息/视频等元素的提取功能
针对特定类型Web页面,应用覆盖面较广
python最主要的Web信息提取库
form goose importGoose
url='.....html'
g = Goose({'use_meta_language':False, 'target_language':'es'})
article = g.extract(url=url)
article.cleaned_text[:150]
- Django:最流行的Web应用框架
提供了构造Web系统的基本应用框架
MTV模式:模型(model)、模板(Template)、视图(views)
python最重要的Web应用框架,略微复杂的应用框架
- Pyramid:规模适中的Web应用框架
提供了简单方面构建Web系统的应用框架
不大不小,规模适中,适合快四构建并湿度扩展类应用
Python产品级Web应用框架,起步简单可扩展性好
- Flask:Web应用开发微框架
提供了最简单构建Web系统的应用框架
特点是:简单、规模小、快速
- WeRoBot:微信公众号开发框架
提供了解析微信服务器及反馈消息的功能
建立微信机器人的重要技术手段
- aip:百度AI开放平台接口
提供了访问百度AI服务的Python功能接口
语音、人脸、ocr、nlp、知识图谱、图像搜索等领域
Python百度AI应用的最主要方式
- MyQR:二维码生成第三方库
提供了声场二维码的系列功能
基本二维码、艺术二维码、和动态二维码
这是我上网课的初步总结,之后再进行实战