最近项目需要对网页正文进行提取,说实话是个蛋疼的功能,在百度文库中收集整理了一些资料,share给同样需求的苦逼开发者。 http://wenku.baidu.com/album/view/70afe1d376eeaeaad1f33057?pn=20#albumDocs
前一篇使用了LCS算法实现了文本相似度分析,使用过程中发现运行效率并不是太好,瓶颈主要体现在逐字比较的算法上,对于长一点的文本,其消耗的时间成倍增加。因此在不考虑使用基于语义分析(机器学习)算法的基础上,采用一种简化并且有效的方法。 Levenshtein Distance 该算法又称之为 "编辑距离",用于计算两个字符串的相似程度。原理很简单,就是返回将第一个字符串转换(删
LCS(Longest Common Subsequence)算法实现的文本相似度分析: 算法原理: (1) 将两个字符串分别以行和列组成矩阵。 (2) 计算每个节点行列字符是否相同,如相同则为 1。 (3) 通过找出值为 1 的最长对角线即可得到最长公共子串。 人 民 共 和 时 代 中 0, 0, 0, 0, 0, 0 华 0, 0, 0, 0, 0, 0 人 1, 0
Quartz Job Scheduling Framework中文版阅读笔记(Unmi(隔叶黄莺) 译, 译者博客:http://unmi.blogjava.net/)
使用Live Writer 2011写博客上传之后,文章的格式很难保障啊。
关于POI POI是Apache的一个开源项目,起初的目标是允许用户使用java代码来对Excel进行操作,发展到今天POI本身支持的范围已经逐步扩展到对Microsoft Office主要产品,包括:Excel\Word\PPT\Visio的全面支持,目前稳定版本为3.7,开发版本为3.8。 应用场景 本文仅对项目中遇到的,使用已有Excel作为
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号