设为首页 - 加入收藏
广告 1000x90
您的当前位置:12555主二肖com > 聚类 > 正文

机器学习 关于聚类算法你知道多少?

来源:未知 编辑:admin 时间:2019-05-17

  本文笔者将对聚类算法的基本概念以及常见的几类基本的聚类算法的运作逻辑以及思路,还有优缺点进行分析。

  聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似。类别之间的数据相似度比较小,属于无监督学习。

  余弦相似度用向量空间中两个向量夹角的余弦值,作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。

  分类算法是有监督的算法,也就是算法找到是特征属性x和类别属性y之间的关系,基于这样的关系,对样本数据x做类别的划分预测

  聚类算法是无监督的算法,也就是说训练数据中只有特征属性x,没有类别属性y,模型是通过找x的特征信息,将数据划分为不同的类别,基于这样的划分,对于样本数据x认为和那个类别最接近来产生预测。

  KMeans、GMM高斯混合聚类、LDA(主题模型,非聚类算法,但是可以用到聚类中)

  主体思想:有M个对象的数据集,构建一个具有k个簇(类别)的模型,其中k=M。

  首先给定初始划分,通过迭代改变样本和簇的隶属关系,使的每次处理后得到的划分方式比上一次的好(总的数据集之间的距离和变小了)

  使用平方误差作为目标函数(使用欧几里得距离),计算当前划分情况下,所有样本到所有中心的距离平方和公式如下:

  求解目标函数,我们希望的是在当前划分情况下,有一组新的a1,a2,ak,使得MSE最小,对J进行求偏导:

  K值是用户给定的,在进行数据处理前,K值是未知的,不同的K值得到的结果也不一样;对初始簇中心点是敏感的。

  不适合发现非凸形状的簇或者大小差别较大的簇特殊值(离群值)对模型的影响比较大。

  理解容易,聚类效果不错处理大数据集的时候,该算法可以保证较好的伸缩性和高效率当簇近似高斯分布的时候,效果非常不错。

  问题:K-means算法在迭代的过程中使用所有点的均值作为新的质点(中心点),如果簇中存在异常点,将导致均值偏差比较严重。

  初始解决方案:使用中位数6可能比使用均值的想法更好,使用中位数的聚类方式叫做K-Mediods聚类(K中值聚类)。

  问题:K-means算法是初值敏感(K值的给定和K个初始簇中心点的选择)的,选择不同的初始值可能导致不同的簇划分规则。

  初始解决方案:为了避免这种敏感性导致的最终结果异常性,可以采用初始化多套初始节点构造不同的分类规则,然后选择最优的构造规则。

  解决K-means初值敏感问题,二分K-Means算法是一种弱化初始质心的一种算法。

  也是解决K-means初值敏感问题,问题产生原因是K-means算法一个簇中间选择了两个中心点,K-Means++算法优化初始的K个中心点的方式,避免上述情况的发生。

  解决K-Means++依赖问题,主要思路是:改变每次遍历时候的取样规则,并非按照K-Means++算法每次遍历只获取一个样本,而是每次获取K个样本,重复该取样操作O(logn)次,然后再将这些抽样出来的样本聚类出K个点。最后使用这K个点作为K-Means算法的初始聚簇中心点。实践证明:一般5次重复采用就可以保证一个比较好的聚簇中心点。

  MiniBatchK-Means算法是K-Means算法的一种优化变种,采用小规模的数据子集(每次训练使用的数据集是在训练算法的时候随机抽取的数据子集)减少计算时间,同时试图优化目标函数;MiniBatchK-Means算法可以减少K-Means算法的收敛时间,而且产生的结果效果只是略差于标准K-Means算法

  一个簇中只包含一个类别的样本,则满足均一性;其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)

  同类别样本被归类到相同簇中,则满足完整性;每个聚簇中正确分类的样本数占该类型的总样本数比例的和:

  其中C表示实际类别信息,K表示聚类结果,a表示在C与K中都是同类别的元素对数。

  ARI取值范围[-1,1],值越大,表示聚  类结果和真实情况越吻合。从广义的角度来将,ARI是衡量两个数据分布的吻合程度:

  本文由 @SincerityY 原创发布于人人都是产品经理。未经许可,禁止转载

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位服务产品人和运营人,成立8年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长。

本文链接:http://organikhijau.com/julei/53.html

相关推荐:

网友评论:

栏目分类

现金彩票 联系QQ:24498872301 邮箱:24498872301@qq.com

Copyright © 2002-2011 DEDECMS. 现金彩票 版权所有 Power by DedeCms

Top