数据挖掘技术，是指从大量的、不完全的、有噪声的、随机的实际应用数据中

数据挖掘技术，是指从大量的、不完全的、有噪声的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。机器学习技术是数据挖掘中非常有用的工具之一，新西兰怀卡大学开发的Weka机器学习软件Weka汇集了当今主要的数据挖掘算法和数据预处理工具：回归、分类、聚类、关联规则挖掘以及属性选择。Weka的主要图形用户界面Explorer，在Explorer窗口顶部六个标签的功能分别是：1）预处理（Preprocess）：选择数据集，并以多种方式对其进行修改。2）分类（Classify）：训练用作分类或回归的学习方案，并对它们做评估。3）聚类（Cluster）：学习数据集的聚类。4）关联（Associate）：学习数据的关联规则并对其评估。5）选择属性（Selectattributes）：在数据集中选择最相关的部分。6）可视化（Visualize）：查看不同的二维数据点图并与其互动。数据准备主要包含以下三个方面：

1）了解数据挖掘需要处理的任务，并制定一个针对数据挖掘结果的评价标准。这个项目目标应该是适用于选取的聚类分析方法来达到的。

2）根据挖掘项目的目标，确定项目涉及的业务对象，确定要进行挖掘所需要的数据源。

3）将多个数据源中的多种数据整合在一起，数据集成的目的是解决语义模糊性，统一数据格式，消除冗余，保证数据的一致性、完整性和有效性，为数据挖掘打下良好的基础。

Weka存储数据的原始方式是ARFF格式，大多数电子表及数据库程序允许用户将数据导入CSV格式的文件中，Weka能够直接读取CSV数据表。数据源主要有客户档案记录、客户营销记录、销售单主表、销售退货表、客户联系表、客户投诉记录等，数据集成后生成客户行为特征表电子表格customerbehavior.xls，在Microsoft Excel中将此文件存储为cus⁃tomerbehavior.csv，Explorer能够直接读取CSV电子数据表格。将此数据集通过Weka的图形用户界面Explorer载入系统，供下面的数据挖掘使用。单击“Explorer”按钮，进入“Explorer”界面。单击“Preprocess”标签，进入预处理阶段。单击“Open file”按钮，通过弹出的对话框选择数据文件customerbehavior.csv，在这里假定数据文件中的数据是完整的、无噪声的、一致的。载入数据文件后，面板中会显示所载入的数据集包含的实例个数和属性项数。所载入的数据集含有14个实例和12个属性。这里选custompackage作为分类属性。可通过单击复选框和Remove按钮来删除属性。单击All则选中全部属性，None表示不选，Invert则反向转换目前的选择。通过点击Undo按钮撤销所做的改动。点击Edit按钮会弹出一个编辑器。通过编辑器可检查数据，搜索具体的值并对其进行编辑，以及删除实例和属性。

创建决策树的问题可以用递归形式表示。首先，选择一个属性放置在根节点，为每一个可能的属性值产生一个分支。这将使样本集分裂成多个子集，一个子集对应于一个属性集。选择CustomPackage属性作为根节点，运用Weka平台的“Explorer”，实施基于决策树技术的客户群体分类的客户模型的建立。单击WekaExplorer窗口中的Classify标签。查看结果。在该结果的开头给出了数据集概要并注明所用的评估方法是10-foldcross-validation，该方法是默认的。实验选用的是J48分类器。