william_xu的博客_Iphone,Java,C#,Ajax,j2ee,Web开发,Mysql,数据库,SOA,搜索技术,个人收集,云技术

网页正文提取技术文库

最近项目需要对网页正文进行提取，说实话是个蛋疼的功能，在百度文库中收集整理了一些资料，share给同样需求的苦逼开发者。 http://wenku.baidu.com/album/view/70afe1d376eeaeaad1f33057?pn=20#albumDocs

职场

休闲

网页正文提取

正文提取

文库

原创 2011-12-29 16:52:41 1063 阅读

Levenshtein Distance算法实现简单文本相似度分析

前一篇使用了LCS算法实现了文本相似度分析，使用过程中发现运行效率并不是太好，瓶颈主要体现在逐字比较的算法上，对于长一点的文本，其消耗的时间成倍增加。因此在不考虑使用基于语义分析（机器学习）算法的基础上，采用一种简化并且有效的方法。 Levenshtein Distance 该算法又称之为 "编辑距离"，用于计算两个字符串的相似程度。原理很简单，就是返回将第一个字符串转换(删

职场

休闲

文本相似度

Levenshtein Distance

编辑距离

原创 2011-12-28 10:22:48 4104 阅读 1点赞

LCS算法实现简单中文文本相似度分析

LCS(Longest Common Subsequence)算法实现的文本相似度分析：算法原理： (1) 将两个字符串分别以行和列组成矩阵。 (2) 计算每个节点行列字符是否相同，如相同则为 1。 (3) 通过找出值为 1 的最长对角线即可得到最长公共子串。人民共和时代中 0, 0, 0, 0, 0, 0 华 0, 0, 0, 0, 0, 0 人 1, 0

职场

休闲

LCS

文本相似度

相似度分析

原创 2011-12-21 14:20:36 5755 阅读

Quartz Job Scheduling Framework Reading Note(四)

Quartz Job Scheduling Framework中文版阅读笔记（Unmi(隔叶黄莺) 译，译者博客：http://unmi.blogjava.net/）

笔记

职场

休闲

Quartz

原创 2011-12-16 09:29:19 895 阅读

Quartz Job Scheduling Framework Reading Note(三)

Quartz Job Scheduling Framework中文版阅读笔记（Unmi(隔叶黄莺) 译，译者博客：http://unmi.blogjava.net/）

笔记

职场

休闲

Quartz

原创 2011-12-15 15:40:14 687 阅读

Quartz Job Scheduling Framework Reading Note(二)

Quartz Job Scheduling Framework中文版阅读笔记（Unmi(隔叶黄莺) 译，译者博客：http://unmi.blogjava.net/）

笔记

职场

休闲

Quartz

原创 2011-12-15 11:29:58 505 阅读

Quartz Job Scheduling Framework Reading Note(一)

Quartz Job Scheduling Framework中文版阅读笔记（Unmi(隔叶黄莺) 译，译者博客：http://unmi.blogjava.net/）

笔记

职场

休闲

Quartz

原创 2011-12-15 10:40:56 1057 阅读

关于Live Writer 2011

使用Live Writer 2011写博客上传之后，文章的格式很难保障啊。

职场

休闲

Live Writer

原创 2011-12-06 14:22:44 315 阅读 1点赞 1评论

POI如何使用已有Excel作为模板二三事

关于POI POI是Apache的一个开源项目，起初的目标是允许用户使用java代码来对Excel进行操作，发展到今天POI本身支持的范围已经逐步扩展到对Microsoft Office主要产品，包括：Excel\Word\PPT\Visio的全面支持，目前稳定版本为3.7，开发版本为3.8。应用场景本文仅对项目中遇到的，使用已有Excel作为

职场

Excel

休闲

POI

原创 2011-12-06 14:15:47 4723 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

果壳中的宇宙

网页正文提取技术文库

Levenshtein Distance算法实现简单文本相似度分析

LCS算法实现简单中文文本相似度分析

Quartz Job Scheduling Framework Reading Note(四)

Quartz Job Scheduling Framework Reading Note(三)

Quartz Job Scheduling Framework Reading Note(二)

Quartz Job Scheduling Framework Reading Note(一)

关于Live Writer 2011

POI如何使用已有Excel作为模板二三事

欢迎