机器学习在近些年备受关注,最常见机器学习任务有:回归方法、分类方法、聚类方法。也是老生常谈的东西,今天这篇文章主要谈谈分类和聚类。分类就像是给事物分配标签,而聚类则看起来像是本来一起的东西进行分组。然而,人们常常对这些是什么以及它们有什么区别感到困惑。

产生困惑的部分原因是因为许多解释很快就会变成一堆公式。但今天这里有一种解释不太相同,:在Excel电子表格中,用老式的方法对事物进行聚类和分类。

[机器学习入门:什么是机器学习?解释了如何开始使用机器学习软件工程师的机器学习技巧。 ]

分类如何工作

假设你想预测哪些学生可能毕业,哪些学生可能退学。又或许你想标记他们,所以你可以指派一名顾问。这时候,你用到两个标签:风险和低风险。而要使用分类来做到这一点,你需要已经毕业的经过训练的学生。

(请注意,这些数据并不准确,只是为了帮助你理解分类的概念。)

现在忘记算法。我们来使用这个电子表格:

在表格的数据中有一些GPA模式,停课次数以及学生是否被驱逐。在心理上,你可以做出一些相关性的联想,并注意一些例外的情况。

那么,根据以下数据,你能决定谁可能毕业吗?如果是这样,恭喜!这个分类算法你基本已经了解。

聚类是如何工作的

现在让我们看看聚类。由于没有这个数据集的标签。因此只是希望电脑能够有效地找到与其他相似的,并对其进行分组。

这些数据还包含一些你可以看到的模式:第一列和最后一列对于分组目的可能没有意义。但是,有几个在第一个字段中有1 1 1个。事实上,有一些有1 1 1,然后是0 0 0,然后是1 1 1。现在将这些行分组成一个类别。

你也可以找到相反的模式。那是另一个集群。

你也可能会发现一些较小的匹配项,例如1 1 1 0 0 0 1 1(这里不包含示例数据,因此你不会错过任何内容),它也可以是一个集群。

有很多算法都可以计算这些。有些甚至做了不同形式的分类和聚类。但是,这儿主要说的是,你可以在Excel中做这件事情,而且采取的是比较容易的方法。

小科普:

1、回归方法

回归方法是一种对数值型连续随机变量进行预测和建模的监督学习算法。使用案例一般包括房价预测、股票走势或测试成绩等连续变化的案例。

回归任务的特点是标注的数据集具有数值型的目标变量。也就是说,每一个观察样本都有一个数值型的标注真值以监督算法。

2、分类方法

分类方法是一种对离散型随机变量建模或预测的监督学习算法。使用案例包括邮件过滤、金融欺诈和预测雇员异动等输出为类别的任务。

许多回归算法都有与其相对应的分类算法,分类算法通常适用于预测一个类别(或类别的概率)而不是连续的数值。

3、聚类方法

聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群)。使用案例包括细分客户、新闻聚类、文章推荐等。

因为聚类是一种无监督学习(即数据没有标注),并且通常使用数据可视化评价结果。如果存在「正确的回答」(即在训练集中存在预标注的集群),那么分类算法可能更加合适。