近期的积压,及团购

转载

mob604756fd7a56 2012-06-04 10:56:00

文章标签 html java lucene 搜索爬虫框架 文章分类 Java 后端开发

2012 06 04 整理桌面

Carrot2(http://project.carrot2.org/)是一个开源的聚类搜索引擎，可以把其它网站的搜索结果聚类。

Weka(http://www.cs.waikato.ac.nz/ml/weka/)中有个DBScan算法的实现。源代码在weka.clusterers包中，文件名为DBScan.java。

网络爬虫工具介绍

(2012-03-25 10:22:02)

近期的积压,及团购_搜索转载▼

标签： web爬虫 it	分类： J2EE框架

Heritrix是一个开源的爬虫框架。

WebSPHINX是一个Java类包与Web爬虫的交互式开发环境。

WebLech是一个功能强大的Web站点下载与镜像工具。

Arale主要为个人使用而设计，而没有像其他爬虫一样关注于页面搜索。

Jspider是一个完全可配置和订制的Web Spider引擎。

Spindle是一个构建在Lucene工具包(是一个基于Java的全文信息检索工具包)之上的Web索引搜索工具。

Arachnid是一个基于Java的网络爬虫框架。

LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。

JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。

Snoics-retrieval是基于Lucene全文检索框架。

Snoics-reptile是用纯Java开发的，用来进行网站镜像抓取的工具。

Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。

Crawler是一个简单的Web爬虫。

http://blog.sina.com.cn/s/blog_93c7eeec01012334.html

(和spring如何集成)，模拟登录，实现数据采集，(当前应用的是Crawler4j和jsoup结合实现数据抓取)

you can use scala, it is similar in syntax and it's actually probably more powerful than linq.

java 类似linq的功能

顺便给个防网络爬虫比较成功的网站 www.icmaster.com

http://www.nuomi.com/deal/hlsmf222.html

http://www.linuxso.com/php/16911.html mysql连接字符串

Http详解

使用Tidy 把html转成xml,然后用dom4j 解析xml;

http://www.iteye.com/topic/828723

java多线程

fork-join框架的设计，使分而治之算法易于并行

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：关于“未能加载文件或程序集“System.Core, Version=3.5.0.0

下一篇：应用程序正常初始化(0xc0000135)失败

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯