当前位置: 网站首页 学术研究 正文

学术研究

前沿方法 | 解锁K均值聚类:数据分类的神奇密码
 

undefined

 

图片来源scikit-learn.org

K 均值聚类是什么?

在机器学习的众多算法中,K 均值聚类(K-Means Clustering)是一种十分基础且应用广泛的无监督学习算法。什么是无监督学习呢?简单来说,就是在没有给定明确标签或目标值的情况下,让算法从数据中自动发现模式和结构 。聚类,就是把相似的数据点归为一类,让同一类内的数据点尽可能相似,不同类之间的数据点尽可能不同。

举个通俗易懂的例子,假如你面前有一堆水果,包含苹果、橙子、香蕉。你事先不知道这些水果具体是什么类别,但你可以根据它们的特征,比如颜色、形状、大小来进行分类。苹果大多是红色或绿色,呈圆形;橙子是橙色,接近球形;香蕉是黄色,形状弯曲。通过这些特征,我们就可以把相似的水果聚成一类,这就是聚类的基本思想 。而 K 均值聚类,就是其中一种实现聚类的具体算法。 它会根据你指定的 K 值(也就是想要划分的类别数量),将数据点划分到 K 个不同的簇中。

算法原理大揭秘

1. 关键步骤

K 均值聚类算法的核心步骤主要包含以下四步:

• 随机选择初始质心:从数据集中随机选择 K 个数据点作为初始的簇质心。这 K 个质心就像是 K 种子,后续的聚类过程都围绕它们展开 。例如,在一个包含 100 个数据点的二维数据集里,如果我们设定 K=3,那么就会随机从这 100 个点中挑选 3 个点作为初始质心。这一步是整个算法的起点,初始质心的选择虽然是随机的,但却对最终的聚类结果有着重要影响 。

• 分配数据点到最近质心:对于数据集中的每一个数据点,计算它与这 K 个质心的距离,然后将该数据点分配到距离最近的质心所在的簇。这里的距离计算通常使用欧式距离或者曼哈顿距离 。以欧式距离为例,假设一个数据点 A 的坐标为 (x1, y1),一个质心 B 的坐标为 (x2, y2),那么它们之间的欧式距离 。通过这样的计算,将每个数据点划分到最近的簇,就初步完成了数据的分组

• 更新质心:在所有数据点都被分配到相应的簇后,重新计算每个簇内所有数据点的均值,将这个均值作为新的质心。比如,某个簇内有 10 个数据点,每个数据点都有两个特征维度(x y),那么新的质心坐标就是这 10 个点在 x 维度上的平均值和 y 维度上的平均值 。通过更新质心,使得每个簇的中心更能代表该簇内的数据点特征 。

• 重复迭代直至质心稳定:不断重复上述分配数据点和更新质心的步骤,直到质心不再发生明显变化,或者达到预设的最大迭代次数。当质心稳定时,意味着聚类结果已经收敛,算法结束,此时得到的 K 个簇就是最终的聚类结果 。

2. 距离度量方式

K 均值聚类算法中,距离度量方式的选择十分关键,它直接影响到数据点的分配和聚类的结果。常用的距离度量方式有欧式距离和曼哈顿距离 。

• 欧式距离:欧式距离是最直观的一种距离度量,它计算的是两点之间的直线距离。在二维平面中,假设有两点 A (x1, y1) B (x2, y2),它们之间的欧式距离公式为 。推广到 n 维空间,对于两个 n 维向量 ,欧式距离公式为 。例如,在一个三维空间中有两个点 ,它们之间的欧式距离 。欧式距离适用于数据分布较为均匀,且特征之间相互独立的情况

曼哈顿距离:曼哈顿距离也叫城市街区距离,它计算的是两个点在各个维度上的坐标差值的绝对值之和。在二维平面中,对于两点 A (x1, y1) B (x2, y2),曼哈顿距离公式为 。在 n 维空间中,对于两个 n 维向量 ,曼哈顿距离公式为 。比如,在二维平面上有两点 M(1,1)N(4,5)的曼哈顿距离为∣1−4∣+∣1−5∣=3+4=7。曼哈顿距离更适用于数据具有网格结构,或者特征之间存在较强相关性的情况

在实际应用中,需要根据数据的特点和分布来选择合适的距离度量方式。有时候,还可以通过实验对比不同距离度量方式下的聚类效果,从而选择最优的方案 。例如,在图像识别中,欧式距离可能更适合处理像素点之间的距离计算;而在文本分类中,由于文本数据的高维稀疏性,曼哈顿距离可能会有更好的表现

3. 目标函数与优化

K 均值聚类算法的目标是找到一种聚类方式,使得同一簇内的数据点相似度尽可能高,不同簇之间的数据点相似度尽可能低 。为了实现这个目标,算法通过最小化簇内平方误差(Within-Cluster Sum of Squares,简称 WCSS)来进行优化 。

• 目标函数公式:簇内平方误差的计算公式为 ,其中,K 表示簇的数量,表示第 i 个簇,表示簇中的第 j 个数据点,表示第 i 个簇的质心 。这个公式的含义是,对于每个簇,计算该簇内所有数据点与簇质心的距离的平方和,然后将所有簇的这些平方和相加 。WCSS 的值越小,说明簇内的数据点越紧密地围绕在质心周围,聚类效果就越好 。

• 优化过程:算法通过不断迭代更新质心和分配数据点来优化这个目标函数。在每次迭代中,先固定质心,根据距离度量将数据点分配到最近的质心所在的簇,这一步使得每个数据点都尽可能地靠近它所属簇的质心,从而减小了 WCSS ;然后固定数据点的分配,重新计算每个簇的质心,新的质心更能代表该簇内的数据点,也有助于减小 WCSS 。通过这样反复迭代,WCSS 会逐渐减小,直到质心不再发生明显变化或者达到最大迭代次数,此时认为算法收敛,找到了一个相对较优的聚类结果 。

举个例子,假设有一个二维数据集,我们设定 K=2,在初始状态下,随机选择了两个质心,通过计算数据点与质心的距离进行分配后,得到了两个簇。然后计算这两个簇的新质心,发现新质心与原来的质心有较大差异,再次分配数据点,重新计算质心,如此反复。在这个过程中,WCSS 会不断减小,聚类效果逐渐优化 。通过这种方式,K 均值聚类算法能够有效地将数据点划分成 K 个簇,实现聚类的目的 。

经管类文献中的 K 均值聚类应用

K 均值聚类算法凭借其简洁高效的特点,在经济管理领域的研究中发挥着重要作用,为解决各类实际问题提供了有力的支持 。下面将通过一些具体的文献案例,深入探讨 K 均值聚类在经管领域的应用。

1. 客户细分案例

客户细分是企业精准营销和客户关系管理的关键环节。通过对客户消费行为数据的分析,利用 K 均值聚类可以将客户划分为不同的群体,每个群体具有相似的消费特征,从而为企业制定个性化的营销策略提供依据 。

例如,在某电商企业的研究中,学者收集了大量客户的消费数据,包括购买频率、购买金额、购买品类偏好等多个维度 。利用 K 均值聚类算法,将客户分为了四类:

• 高价值忠诚客户:这类客户购买频率高,购买金额大,对各类商品都有一定的偏好,且忠诚度较高,是企业的核心客户群体

• 潜力客户:购买频率较低,但每次购买金额较大,对部分热门品类商品表现出浓厚兴趣,具有较大的消费潜力,有待企业进一步挖掘

• 价格敏感型客户:购买频率较高,但购买金额较小,更倾向于购买促销商品,对价格较为敏感

• 低频偶发客户:购买频率和购买金额都较低,消费行为较为随机,可能是偶尔浏览购物平台产生的购买行为

针对不同的客户群体,企业可以采取不同的营销策略 。对于高价值忠诚客户,提供专属的会员服务、优先购买权和个性化的推荐;对于潜力客户,通过精准的广告投放和优惠活动,引导他们增加购买频率;对于价格敏感型客户,重点推送折扣信息和满减活动;对于低频偶发客户,可以通过新用户优惠、个性化推荐等方式吸引他们再次购买 。通过这种基于 K 均值聚类的客户细分策略,该电商企业有效提高了客户满意度和忠诚度,提升了销售额 。

2. 市场分析应用

在市场分析中,了解消费者的偏好和需求是企业制定产品策略和市场定位的基础 K 均值聚类可以对消费者的偏好数据进行分析,帮助企业发现不同的消费群体,从而有针对性地开发产品和制定市场策略 。

以某化妆品公司为例,研究人员收集了消费者对化妆品的多个方面的偏好数据,如品牌偏好、功效偏好(保湿、美白、抗皱等)、包装偏好、价格敏感度等 。运用 K 均值聚类算法,将消费者分为了三个主要群体:

• 追求品质与品牌型:这类消费者对知名品牌的化妆品有较高的认可度,注重产品的品质和功效,愿意为高品质的化妆品支付较高的价格,对包装也有一定的审美要求

• 功效导向型:更关注化妆品的具体功效,如美白、抗皱等,对品牌和价格的敏感度相对较低,只要产品功效能满足需求,就可能选择购买

• 价格敏感型:在购买化妆品时,首要考虑的是价格因素,更倾向于选择性价比高的产品,对品牌和包装的要求相对较低

基于这些聚类结果,化妆品公司可以针对不同群体开发不同的产品系列 。对于追求品质与品牌型的消费者,推出高端、包装精美的系列产品,并加强品牌宣传;对于功效导向型的消费者,加大研发投入,专注于提升产品的功效;对于价格敏感型的消费者,推出价格亲民的基础款产品 。这样的市场策略使得该化妆品公司能够更好地满足不同消费者的需求,提高市场占有率

3. 金融风险评估

在金融领域,准确评估企业的风险水平对于投资者和金融机构至关重要 K 均值聚类可以通过对企业的财务指标进行分析,将企业划分为不同的风险等级,为风险评估和决策提供参考 。

例如,在对上市公司的研究中,学者选取了多个财务指标,如资产负债率、流动比率、净利率、营业收入增长率等 。利用 K 均值聚类算法,将这些上市公司分为了三个风险等级:

• 低风险企业:这类企业通常具有较低的资产负债率,较高的流动比率,稳定的净利率和营业收入增长率,财务状况良好,风险较低

• 中等风险企业:财务指标处于中等水平,资产负债率、流动比率等指标在一定范围内波动,盈利能力和增长能力相对稳定,但存在一定的风险因素

• 高风险企业:资产负债率较高,流动比率较低,净利率不稳定,营业收入增长率可能为负,财务状况较差,面临较大的风险

金融机构可以根据这些聚类结果,对不同风险等级的企业采取不同的信贷政策 。对于低风险企业,提供较为宽松的信贷条件;对于中等风险企业,加强风险监控,适当调整信贷额度和利率;对于高风险企业,谨慎放贷,或者要求提供更多的担保措施 。投资者也可以根据企业的风险等级,合理调整投资组合,降低投资风险 。通过 K 均值聚类在金融风险评估中的应用,能够有效提高金融决策的科学性和准确性 。

优缺点大盘点

任何算法都不是完美无缺的,K 均值聚类算法也不例外,它有自己独特的优势,但也存在一些局限性 。

1. 优点

• 简单高效K 均值聚类算法的原理和实现都相对简单,不需要复杂的数学推导和计算,普通的开发者和研究人员都能轻松理解和上手 。并且,它的计算速度快,时间复杂度为 O (nkt),其中 n 是数据点的数量,k 是簇的数量,t 是迭代次数 。对于大规模的数据集,也能在较短的时间内完成聚类任务 。例如,在处理包含数百万条客户消费记录的数据集时,K 均值聚类算法能够快速地将客户划分为不同的群体,为企业的市场分析和决策提供支持 。

• 可解释性强:聚类结果中的质心具有明确的物理意义,它代表了每个簇的中心位置,可以直观地反映出该簇内数据点的特征 。通过分析质心,我们能够清晰地了解每个簇的特点,从而更好地解释聚类结果 。比如在客户细分中,质心所代表的客户特征可以帮助企业了解不同客户群体的消费偏好和行为模式

• 应用广泛:由于其简单高效的特点,K 均值聚类算法在众多领域都有广泛的应用,如上文提到的经济管理领域的客户细分、市场分析、金融风险评估,还有图像处理、文本分类、生物信息学等领域 。在图像处理中,它可以用于图像压缩,通过将图像中的颜色像素聚类,减少颜色的种类,从而降低图像的存储空间;在文本分类中,它可以对文档进行聚类,将相似主题的文档归为一类,方便信息检索和管理 。

2. 缺点

• K 值难确定:在使用 K 均值聚类算法之前,需要事先指定 K 值,也就是要划分的簇的数量 。然而,在实际应用中,很难确定一个合适的 K 值 。如果 K 值设置过小,数据点可能会被过度合并,导致聚类结果过于粗糙,丢失很多细节信息;如果 K 值设置过大,又会出现过拟合的问题,将原本属于同一类的数据点划分到不同的簇中 。例如,在对客户进行细分时,如果 K 值设置为 2,可能只能简单地将客户分为高消费和低消费两类,无法准确反映客户群体的多样性;如果 K 值设置为 100,又可能会将一些具有相似消费特征的客户划分到不同的类别,增加分析的复杂性 。虽然有一些方法,如手肘法、轮廓系数法等来辅助确定 K 值,但这些方法也并非完全准确,需要结合实际情况和经验进行判断 。

• 对初始值敏感:算法的初始质心是随机选择的,不同的初始质心可能会导致不同的聚类结果 。如果初始质心选择不当,算法可能会收敛到局部最优解,而不是全局最优解 。比如在一个包含多个簇的数据集中,由于初始质心选择在数据分布较为稀疏的区域,导致聚类结果出现偏差,无法准确反映数据的真实结构 。为了克服这个问题,通常会多次运行算法,选择不同的初始质心,然后比较不同结果的聚类质量,选择最优的结果

• 对噪声和离群点敏感K 均值聚类算法是基于数据点与质心的距离来进行聚类的,噪声和离群点会对质心的计算产生较大影响 。由于这些异常数据点与其他正常数据点的特征差异较大,在计算质心时,它们会拉高簇内数据点的均值,导致质心偏离正常数据点的中心位置,从而影响聚类的准确性 。例如,在客户消费数据中,如果存在一些异常的大额消费记录(可能是由于数据录入错误或者特殊情况导致),这些离群点会使高消费客户群体的质心发生偏移,进而影响对客户群体的准确划分 。

参考文献

• MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, 1 (14), 281-297.K 均值聚类算法的经典文献,首次提出该算法 )

• Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data clustering: A review. ACM computing surveys (CSUR), 31 (3), 264-323.(对聚类算法的全面综述,其中包含 K 均值聚类的详细介绍和分析 )

• 可调用信息请见https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html 

 

关闭窗口

    中国广州市番禺区小谷围广州大学城 510006 (南校区)

    电话: (020) 39328957 | 传真: (020) 39328957

    Copyright?2016 广东外语外贸大学粤港澳大湾区会计与经济发展研究中心 版权所有