K 均值聚类,即数据发掘中的 C 均值聚类,属于聚类分析方式中一种根本的且利用最普遍的划分算法。数据挖掘工具 WEKA所支持的数据格式有两种: ARFF 文件和CSV 文件。

原始数据 EXCEL 文件需要转换为 ARFF 或 CSV 文件。转换方法为: 在 EXCEL 中打开 “MARK. xls”,选择菜单另存为,在弹出的 对 话 框 中,文 件 名 输 入 “Mark”,保 存 类 型 选 择 “CSV ( 逗号分隔) ”,保存,便可得到 “Mark. csv”文件。

打开 WEKA 软件的 Exporler 菜单,点击 Open file 按钮,打开刚得到的 “Mark. csv”文件,点击 “Save”按钮,在弹出的对话框中,文件 名 输 入 “Mark”,文 件 类 型 选 择 “Arff date files ( * .arff) ”,这样就得到的数据文件为 “Mark. arff”。

打开 WEKA 软件中的 Exporler,点击刚才得到的 “Mark. arff”,切 换 到 “Cluster”,点 “Choose” 按 钮 选 择“SimpleKmeans”,这是 WEKA 中实现 K 均值的算法。点击旁边的文本框,将 “numClusters”设置为 3,把实例分成三个簇,即 K = 3。其他结果按默认值。

右击左下方 “Result list”列出的结果,点“Visualize cluster assignments”。显示弹出的窗口给出了各实例的散点图。