数据挖掘集群分析

什么是集群?

集群是一组属于同一类的对象。换句话说,类似对象被分组在一个簇和异种分组在其他集群。

什么是聚类?

集群是制作小组抽象对象到类相似对象的过程。

你需要记住的

  • 数据对象的一个集群可以被视为一组。

  • 而这样做的聚类分析,我们首先根据数据相似性划分的一组数据分组,然后将标签分配给该组。

  • 聚类在分类的主要优点是,它是适应变化,并帮助该区分不同群体挑出有用的功能。

聚类分析中的应用

  • 聚类分析被广泛用于许多应用,如市场调查,模式识别,数据分析和图像处理。

  • 群集也可以帮助营销人员发现不同的群体在他们的客户基础。他们可以根据购买模式的客户群体特征。

  • 在生物学领域,可以用于推导植物和动物分类法进行分类的基因相似的功能,并深入了解所固有的种群结构。

  • 集群也有助于识别类似土地利用在地球观测数据库的区域。它还有助于房子的群体在一个城市,根据房子的类型,价值,地理位置识别。

  • 集群也有助于在网络上的信息发现文件分类。

  • 聚类也可用于异常检测的应用,如检测信用卡欺诈的。

  • 作为数据挖掘功能聚类分析作为一种工具来洞察数据,观察每个簇的分布性特点。

聚类在数据挖掘需求

这里是聚类数据挖掘的典型要求:

  • 可扩展性 - 我们需要高度可扩展的聚类算法来处理大型数据库。

  • 能够处理不同类型的属性 - 算法应该能够在任何种类的数据,如基于间隔(数字)数据,类别,二进制数据被应用。

  • 集群与属性形状的发现 - 聚类算法应能够检测任意形状的簇。本不应该为界,往往发现小尺寸的球状星团只有距离测量。

  • 高维 - 该聚类算法不仅能够处理低维数据,而且该高维空间。

  • 能够处理噪声数据 - 数据库包含嘈杂,丢失或错误的数据。一些算法是这样的数据敏感,并且可能导致质量差的集群。

  • 解释性 - 聚类结果应该是可解释的,可理解的和可用的。

聚类方法

聚类方法可以分为以下几种:

  • 划分方法

  • 分层方法

  • 基于密度的方法

  • 基于网格的方法

  • 基于模型的方法

  • 基于约束的方法

分割方法

假设我们给出n个对象的数据库,该划分方法构建数据的k个分区。每个分区将代表一个集群和k≤| N。这意味着它将对数据进行分类成k个组,其中满足下列要求:

  • 各组至少包含一个对象。

  • 每个对象必须属于正好一个组。

要记住的要点:

  • 对于分区(K)的一个给定的数目,分区方法将创建一个初始划分。

  • 然后,它使用了迭代搬迁技术,通过移动的物体从一组到其他改善分区。

层次方法

这个方法创建给定数据对象的层次分解。我们可以的层次分解是如何形成如下基础分层分类方法:

  • 凝聚法

  • 分裂法

凝聚进近

这种方法也被称为自下而上的方法。在此,我们开始与每个对象形成一个单独的组。它不断合并是彼此接近的物体或基团。它继续这样做,直到所有的组都合并成一个或直到终止条件成立。

分裂的进近

这种方法也被称为自顶向下的方法。在此,我们开始都在同一个簇中的对象的。在连续的迭代中,簇被分裂成更小的簇。这是直到在一个集群或终止条件的每个对象保存。

坏处

这个方法是刚性的,即,一旦合并或拆分完成后,它不可能被撤消。

方法以提高质量层次聚类

这里是用来提高层次聚类的质量的两种方法:

  • 在每个层次划分进行认真分析对象的联系。

  • 首先使用分层凝聚算法组对象到微簇,然后在微簇进行宏簇整合分层结块。

基于密度的方法

此方法是基于密度的概念。其基本思路是将继续增长给定的簇,只要在附近的密度超过某个阈值,即对于一个给定集群内的每一个数据点,在给定簇的半径必须包含点中的至少一个最小数目。

基于网格的方法

在这个对象一起从一个网格。对象空间量化成形成一个网格结构单元的数量有限。

优点
  • 这种方法的主要优点是快速的处理时间。

  • 它仅依赖于细胞中的量化空间的每个维度的数目。

基于模型的方法

在该方法中,模型是假设每个簇并找到数据的给定模型的最佳拟合。此方法通过聚类的密度函数找出集群。这反映了数据点的空间分布。

这种方法也有助于自动决定基于标准的统计聚类数,取异常或噪声考虑的方式。因此,产生强大的聚类方法。

基于约束的方法

在该方法中,聚类是由用户或应用程序面向约束掺入执行。约束是指用户期望或希望的聚类结果的属性。约束给我们的集群进程间通信的交互方式。该约束可以由用户或应用程序的要求来指定。


上一篇: 数据挖掘分类方法 下一篇: 数据挖掘 - 挖掘文本数据