从头开始学Java数据采集

原创

wx63560c7d74933 2022-11-03 19:11:30 博主文章分类：从头开始学Java数据采集 ©著作权

©著作权归作者所有：来自51CTO博客作者wx63560c7d74933的原创作品，请联系作者获取转载授权，否则将追究法律责任

第一章网络爬虫概述与原理
1.1 网络爬虫简介1.2 网络爬虫分类
1.3 网络爬虫流程
1.4 网络爬虫采集策略

第二章 HTTP协议基础与网络抓包
2.1 HTTP简介2.2 HTTP统一资源定位符
2.3 HTTP报文
2.4 HTTP请求方法
2.5 HTTP状态码
2.6 HTTP信息头
2.7 网络抓包

第三章网页内容获取
3.1 Jsoup的使用
3.1.1 Jsoup环境搭建3.1.2 Jsoup请求URL
3.1.3 Jsoup设置头信息
3.1.4 Jsoup提交请求参数
3.1.5 Jsoup超时设置
3.1.6 Jsoup代理服务器
3.1.7 Jsoup响应转输出流
3.1.8 Jsoup大文件内容获取

3.2 HttpClient的使用
3.2.1 HttpClient环境搭建3.2.2 HttpClient请求URL
3.2.3 HttpClient实体工具类
3.2.4 HttpClient设置头信息
3.2.5 HttpClient提交请求参数
3.2.6 HttpClient超时设置
3.2.7 HttpClient代理服务器的使用
3.2.8 HttpClient文件下载
3.2.9 HttpClient请求重试
3.2.10 HttpClient多线程执行请求

第四章网页内容解析
4.1 Jsoup解析4.2 JsoupXpath解析
4.3 XML解析
4.4 JSON解析

第五章网络数据存储
5.1 网络数据文本存储5.2 网络数据Excel存储
5.3 网络数据Mysql存储

第六章 Selenium的使用
6.1 Selenium环境搭建6.2 Selenium定位元素
6.3 Selenium操作浏览器
6.4 Selenium操作页面元素
6.5 Selenium操作弹出窗口
6.6 Selenium操作弹出对话框
6.7 Selenium操作iframe中的元素
6.8 Selenium动态加载Javascript

第七章 WebMagic的使用
7.1 WebMagic环境搭建7.2 入门案例
7.3 相关配置