网络采集器

转载

mb5fd8698f60f87 2012-05-31 13:29:00

文章标签 程序语言--------Java .net hive html 超文本 文章分类 Hadoop 大数据

我们在浏览网页的时候，都会在浏览器地址栏中输入需要访问的地址，通常这些地址都是以HTTP打头，表明是采用HTTP协议实现和站点通讯，HTTP准确的说法是超文本传输协议，归根结底还是文本，所以传输的内容就是文本，浏览的网页也是文本，这就是我们可以采集网站数据的根本。

同时，在地址栏中我们还会看到网址中会包含www的字样，这表示我们请求的是Web服务，WWW服务（3W服务）是目前应用最广的一种基本互联网应用。WWW服务使用的是超文本链接（HTML），所以可以很方便的从一个信息页转换到另一个信息页。它不仅能查看文字，还可以欣赏图片、音乐、动画。

至此，我们知道，浏览网页实际是采用HTTP协议向Web服务请求一个超文本（HTML），这个超文本包含有文字、图片、音乐等内容，这就是我们最终看到的网页。同时我们所采集的数据也包含在这个超文本中。超文本（HTML）有自己的规则，通过这些规则，浏览器会自动识别超文本格式，知道该用何种方式展示页面，这也是我们看到不同网页风格的根本。如果我们通过浏览器，查看网页源码就会发现很多<>标识的内容，这就是HTML的规范内容，当然还有很多其他规范。

手工方式进行数据采集流程：

1、用浏览器（浏览器可是IE、Firefox）打开一个网页

2、用浏览器查看网页源代码（Firefox）或查看源文件（IE）的功能打开这个网页的传输文本内容

3、可以把这个文本内容全部拷贝到一个专业的文本编辑工具中，譬如：UltraEdit，也或者直接采用浏览器自带的功能

4、通过查找的功能，开始查找您想要的内容

5、找到之后需要把它拷贝出来

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。