实现在新浪微博搜索中自动抓取配置的关键字的搜索结果。在此分享一下。
利用mmSeg4j分词实现网页文本倾向性分析 最近一直在做网页情感倾向性分析的工作,找了一些论文,发现基于机器学习的算法在项目中不太合适,于是自己鼓捣了一套基于中文分词和正负面词库的分析算法。 原理很简单:  
import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * 分析时
package org.apache.nutch.parse.html; import java.text.ParseException; import java.text.SimpleDateFormat; impo
<?xml version="1.0" encoding="UTF-8" ?> <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTI
最近项目需要对网页正文进行提取,说实话是个蛋疼的功能,在百度文库中收集整理了一些资料,share给同样需求的苦逼开发者。 http://wenku.baidu.com/album/view/70afe1d376eeaeaad1f33057?pn=20#albumDocs
前一篇使用了LCS算法实现了文本相似度分析,使用过程中发现运行效率并不是太好,瓶颈主要体现在逐字比较的算法上,对于长一点的文本,其消耗的时间成倍增加。因此在不考虑使用基于语义分析(机器学习)算法的基础上,采用一种简化并且有效的方法。 Levenshtein Distance 该算法又称之为 "编辑距离",用于计算两个字符串的相似程度。原理很简单,就是返回将第一个字符串转换(删
LCS(Longest Common Subsequence)算法实现的文本相似度分析: 算法原理: (1) 将两个字符串分别以行和列组成矩阵。 (2) 计算每个节点行列字符是否相同,如相同则为 1。 (3) 通过找出值为 1 的最长对角线即可得到最长公共子串。 人 民 共 和 时 代 中 0, 0, 0, 0, 0, 0 华 0, 0, 0, 0, 0, 0 人 1, 0
做个简图,Share。
在工程中找到“solrindex-mapping.xml”修改如下: <fields> <field dest="content"
修改Reduce方法,如下: public void reduce(Text key, Iterator<NutchWritable> values, &nbs
FileInputFormat.addInputPath(job, new Path(segment, ParseText.DIR_NAME));中仅处理了Segment文件夹下“parse_data”与“parse_text”中的内容,对于原始的网页快照文件夹(“content”)并没有进行处理,Segment文件夹结构如下
Nutch1.3版本以后使用了Solr作为索引功能的提供者,在索引效率、集群功能方面做了很大改进,但与Nutch1.2版本相比,Solr缺失了网页快照的功能,按官方手册中集成配置后,每次查询返回的结果中仅包含解析处理过的HTML正文部分,如下图所示: 对于需要原网页快照功能的使用者来说,带来了巨大的麻烦。因此,需要对Nutch1.3做一些改动,使其支持集成后的网页快照功能。 参考N
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号