接着学习wvtool,实现wvtool的分词功能,话不多述,直接上代码吧! import java.io.BufferedReader;  import java.io.File;  import java.io.FileInputStream;  import java.io.FileReader;  import
原创 2011-12-24 11:12:03
2127阅读
已经分好词的文本中还有许多与我们需要无关的词,这就需要我们进行停词过滤了,而wvtool已经实现了这样的功能! 废话不多说,上代码吧:   import java.io.BufferedReader;  import java.io.File;  import java.io.FileInputStream;  import
原创 2011-12-24 11:30:41
1014阅读
   今天纠结了一天,还是把这个弄出来了!太有成就感了……呵呵       首先得把IK_Analyzer的jar包放到项目中,然后“当前project”->properities->java build path->add jar 把IKAnalyzer3
这几天在做TFIDF的Java实现,昨天实现了英文的TFIDF,但是中文的老是出问题,分词后只能显示部分词(只能计算3个汉字组成的词)的TFIDF值,让人很郁闷.... 经过仔细分析,终于发现了问题的所在,是由于edu.udo.cs.wvtool.generic.wordfilter.AbstractStopWordFilter这个抽象类惹的祸,在这个抽象类中有如下代码:  &nbs
原创 2012-05-10 10:39:48
1912阅读
WVTool可作为一个独立的Java库或RapidMiner环境的一个插件来使用。在这里,我们将主要讨论WVTool作为一个j
原创 2023-05-10 16:42:05
160阅读
  自学文本分类好久都摸不到门路,到网上找wvtool的应用基本上没有我想要的, 只好自己去看wvtool的API结合网上零碎的资料来一步步慢慢往前走了,纠结了这么几天,总算走出了学习的第一步了。其它结合着API,一点点自己写代码,至少现在 感觉没遇到很多的麻烦,可能麻烦的事在后面吧,who cares,来了再说吧!  呵呵 …&helli
原创 2011-12-23 22:38:49
818阅读
  先来贴源码吧: package edu.wvtool.test;   import java.io.FileWriter;   import edu.udo.cs.wvtool.config.WVTConfiguration; import edu.udo.cs.wvtool.config.WVTConfigurationFact; import
原创 2012-05-09 18:28:44
1088阅读
1点赞
1评论