数据挖掘分类方法

在这里,在这个教程中,我们将讨论有关的其他分类方法,如遗传算法,粗糙集方法和模糊集途径。

遗传算法

遗传算法的思想是从自然进化而得。在遗传算法首先初始种群的建立。这个初始群体包括随机生成的规则。我们可以通过比特串代表的每个规则。

例如,假设在给定的训练集的样本由两个布尔属性,例如A1和A2中所述。而这个给定的训练集包含两个类,如C1和C2。

我们可以将规则编码如果A1和A2不那么C2为位串100。在该位表示两个最左边的位所代表的属性分别为A1和A2。

同样的规则IF NOT A1和A2的不那么C1可以被编码为001。

注意:如果属性的K值,其中K>2,那么我们就可以使用K比特编码的属性值。类也编码中相同的方式。

要记住的要点:

  • 基于优胜劣汰的概念,一个新的人口构成为包含在这些规则的当前人口和后代值优胜劣汰的规则也是如此。

  • 该规则的适应度是通过一组训练样本的分类精度评估。

  • 遗传操作如交叉和变异应用到创建后代。

  • 在交叉从对规则的子字符串是从一副新的规则交换到。

  • 在突变,随机选择位在规则的字符串反转。

粗糙集方法

发现内不精确和噪声数据结构的关系,我们可以用粗糙集。

注意:这种方法只能在离散值属性被应用。因此,连续属性必须在使用前进行离散化。

粗糙集理论的基础上,建立等价类的给定的训练数据中。形成的等价类中的元组是不可分辨。这意味着样品是相同的 wrt 来描述数据的属性。

有一些班级在给定现实世界的数据,而不能在可用的属性方面加以区分。我们可以用粗糙集大致定义这些类。

对于一个给定的类,C粗糙集的定义是由两套近似如下:

  • C下近似 - C的下近似包括所有的数据元组,即对属性的知识基础。这些属性一定会属于C类。

  • C上近似 - C的上近似由所有基于属性的知识的元组,不能被描述为不属于C。

下图显示了C类的上,下近似:

Approximation

模糊集途径

模糊集理论也被称为可能性理论。这个理论是由卢特菲扎德于1965年。这种方法是一种替代二值逻辑。这种理论使我们能够在工作的抽象程度高;这个理论也为我们提供手段来处理数据的不精确的测量。

模糊集理论还允许处理模糊或不精确的事实。例如是一套高收入的成员是不准确的(例如,如果50,000元,高那么约为49,00048 000美元)。不像传统的CRISP组,其中任一元素属于S或它的补码,但在模糊集理论中的元素可以属于多于一个模糊集合。

例如,收入值49000美元同时属于中,高模糊集,但程度有所不同。这个收入值模糊集符号如下:

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

其中 m 为隶属函数,操作上分别模糊集medium_income 和 high_income。这个符号可以图解显示如下:

Fuzzy Approach
 

上一篇: 基于数据挖掘的分类规则 下一篇: 数据挖掘集群分析