数据挖掘技术,是指从大量的、不完全的、有噪声的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。机器学习技术是数据挖掘中非常有用的工具之一,新西兰怀卡大学开发的Weka机器学习软件Weka汇集了当今主要的数据挖掘算法和数据预处理工具:回归、分类、聚类、关联规则挖掘以及属性选择。Weka的主要图形用户界面Explorer,在Explorer窗口顶部六个标签的功能分别是:1)预处理(Preprocess):选择数据集,并以多种方式对其进行修改。2)分类(Classify):训练用作分类或回归的学习方案,并对它们做评估。3)聚类(Cluster):学习数据集的聚类。4)关联(Associate):学习数据的关联规则并对其评估。5)选择属性(Selectattributes):在数据集中选择最相关的部分。6)可视化(Visualize):查看不同的二维数据点图并与其互动。数据准备主要包含以下三个方面:

1)了解数据挖掘需要处理的任务,并制定一个针对数据挖掘结果的评价标准。这个项目目标应该是适用于选取的聚类分析方法来达到的。

2)根据挖掘项目的目标,确定项目涉及的业务对象,确定要进行挖掘所需要的数据源。

3)将多个数据源中的多种数据整合在一起,数据集成的目的是解决语义模糊性,统一数据格式,消除冗余,保证数据的一致性、完整性和有效性,为数据挖掘打下良好的基础。

Weka存储数据的原始方式是ARFF格式,大多数电子表及数据库程序允许用户将数据导入CSV格式的文件中,Weka能够直接读取CSV数据表。数据源主要有客户档案记录、客户营销记录、销售单主表、销售退货表、客户联系表、客户投诉记录等,数据集成后生成客户行为特征表电子表格customerbehavior.xls,在Microsoft Excel中将此文件存储为cus⁃tomerbehavior.csv,Explorer能够直接读取CSV电子数据表格。将此数据集通过Weka的图形用户界面Explorer载入系统,供下面的数据挖掘使用。单击“Explorer”按钮,进入“Explorer”界面。单击“Preprocess”标签,进入预处理阶段。单击“Open file”按钮,通过弹出的对话框选择数据文件customerbehavior.csv,在这里假定数据文件中的数据是完整的、无噪声的、一致的。载入数据文件后,面板中会显示所载入的数据集包含的实例个数和属性项数。所载入的数据集含有14个实例和12个属性。这里选custompackage作为分类属性。可通过单击复选框和Remove按钮来删除属性。单击All则选中全部属性,None表示不选,Invert则反向转换目前的选择。通过点击Undo按钮撤销所做的改动。点击Edit按钮会弹出一个编辑器。通过编辑器可检查数据,搜索具体的值并对其进行编辑,以及删除实例和属性。

创建决策树的问题可以用递归形式表示。首先,选择一个属性放置在根节点,为每一个可能的属性值产生一个分支。这将使样本集分裂成多个子集,一个子集对应于一个属性集。选择CustomPackage属性作为根节点,运用Weka平台的“Explorer”,实施基于决策树技术的客户群体分类的客户模型的建立。单击WekaExplorer窗口中的Classify标签。查看结果。在该结果的开头给出了数据集概要并注明所用的评估方法是10-foldcross-validation,该方法是默认的。实验选用的是J48分类器。