WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果想自己实现数据挖掘算法的话,可以参考weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

Weka提供的功能有数据处理,特征选择、分类、回归、聚类、关联规则、可视化等。本文将对Weka的使用做一个简单的介绍,并通过简单的示例,使大家了解使用Weka的流程。

下面就具体介绍如何安装使用。

一、下载与安装

下载链接为:https://www.cs.waikato.ac.nz/ml/weka/downloading.html

这里面含有若干个版本,推荐安装含有java开发环境的包。

下载完成后双击安装即可。

安装完成后,找到安装目录下的weka-src文件,将其解压到你未来想要建造java工程的目录下。我直接放在了安装目录下

二、Eclipse下载与配置

在第一步安装weka时,会直接安装java开发环境。默认安装在C盘目录下。

下面就是配置Eclipse。我习惯于使用免安装的Eclipse,下载地址为http://www.eclipse.org/downloads/packages/index.php

直接下载即可。

双击运行eclipse.exe文件(也可以发送快捷方式到桌面上双击运行,看个人习惯)

打开之后大概是这样的。

创建一个新的java工程file->new java project

取消默认勾选的Use default location

将位置设置为刚才解压好的weka-src的目录下

然后点击finish即可(上面会报错是由于我已经在该目录下建立过工程了)

接着就可以开发使用了。建立好的工程如下所示。

三、算法演示

下面演示如何实现自己的算法(以朴素贝叶斯为例)

在weka下的src创建一个包(包名随意)此处我定义的为test。

接着在test下创建NB.java文件

接着讲你的代码写入NB.java文件

接着找到weka.gui下的GenericProperitiesCreator.props,在里面添加你定义的包。weka.classifiers.test,\

再接着找到weka.gui下的GenericObjectEditor.props,在里面添加你写好的算法。weka.classifiers.test.NB,\

再接着找到weka.gui目录下的GUIChooser.java。点击运行即可。

此时就打开了weka平台。

点击weka下的Explorer->Open file->选择data。weka安装好后自带部分数据集,可以直接使用。

数据集如下所示。

我刚才的test是在classify下,选择classify,选择你事先定义好的算法。

各类参数配置好后,点击start即可。

这个软件功能很强大,需要慢慢去钻研。

欢迎访问电影小程序。