接着学习wvtool,实现wvtool的分词功能,话不多述,直接上代码吧!
import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileReader; import
原创
2011-12-24 11:12:03
2127阅读
已经分好词的文本中还有许多与我们需要无关的词,这就需要我们进行停词过滤了,而wvtool已经实现了这样的功能! 废话不多说,上代码吧:
import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import
原创
2011-12-24 11:30:41
1014阅读
今天纠结了一天,还是把这个弄出来了!太有成就感了……呵呵
首先得把IK_Analyzer的jar包放到项目中,然后“当前project”->properities->java build path->add jar 把IKAnalyzer3
原创
2011-12-24 20:38:37
2014阅读
这几天在做TFIDF的Java实现,昨天实现了英文的TFIDF,但是中文的老是出问题,分词后只能显示部分词(只能计算3个汉字组成的词)的TFIDF值,让人很郁闷....
经过仔细分析,终于发现了问题的所在,是由于edu.udo.cs.wvtool.generic.wordfilter.AbstractStopWordFilter这个抽象类惹的祸,在这个抽象类中有如下代码:
&nbs
原创
2012-05-10 10:39:48
1912阅读
该WVTool可作为一个独立的Java库或RapidMiner环境的一个插件来使用。在这里,我们将主要讨论WVTool作为一个j
原创
2023-05-10 16:42:05
160阅读
自学文本分类好久都摸不到门路,到网上找wvtool的应用基本上没有我想要的,
只好自己去看wvtool的API结合网上零碎的资料来一步步慢慢往前走了,纠结了这么几天,总算走出了学习的第一步了。其它结合着API,一点点自己写代码,至少现在
感觉没遇到很多的麻烦,可能麻烦的事在后面吧,who cares,来了再说吧! 呵呵 …&helli
原创
2011-12-23 22:38:49
818阅读
先来贴源码吧:
package edu.wvtool.test;
import java.io.FileWriter;
import edu.udo.cs.wvtool.config.WVTConfiguration;
import edu.udo.cs.wvtool.config.WVTConfigurationFact;
import
原创
2012-05-09 18:28:44
1088阅读
点赞
1评论