数据挖掘的任务

数据挖掘涉及什么样的模式可以开采。挖掘出来的数据在基础上有2种涉及数据挖掘的功能,列出如下:

  • 描述性

  • 分类和预测

描述性

描述功能处理数据在数据库中的一般属性。下面是描述性的功能列表:

  • 类/概念描述

  • 频繁模式挖掘

  • 社团挖掘

  • 相关性的挖掘

  • 集群挖掘

分类/概念描述

类/概念指的是可以与类或概念相关联的数据。例如,在一个公司类出售的物品包括电脑和打印机,以及客户的概念包括挥金如土和预算挥金如土。一个类或概念的这种描述称为类/概念描述。这些描述可以得出通过以下两种方式:

  • 数据表征 -  这是指在研究总结类的数据。此类别下的研究被称为目标类。

  • 数据辨析 - 它是指映射一类或分类有一些预定义的组或一类。

频繁模式挖掘

频繁模式是那些经常出现在交易数据模式。下面是那种频繁模式的列表:

  • 频繁项集 - 它是指设置经常一起出现,例如牛奶和面包的项目。

  • 频繁子序列 - 经常出现诸如购买相机的模式序列其次是存储卡。

  • 频繁子结构 - 子结构是指不同的结构形式,如图形,树木,或晶格,其可与项集或子组合。

关联挖掘

关联被用在零售销售,以识别经常一起购买的模式。这个过程是指揭示数据之间的关系,并确定关联规则的过程。

例如零售商生成显示时间牛奶70%,销售面包,并且只有30%的时间用饼干面包出售的关联规则。

相关性的挖掘

它是一种进行揭露相关的属性 - 值对之间或两者之间的有趣的统计相关性的其他分析项目设置来分析,如果他们对对方正面,负面或没有影响。

集群挖掘

集群是指一组相似的对象的类型的。聚类分析是指形成组非常相似彼此但与在其他簇中的对象高度不同的对象。

分类和预测

分类是找到一个模型,描述了数据类或概念的过程。的目的是为了能够使用该模型来预测类别的对象,它的类标签是未知的。此派生模型是基于训练数据集的分析。导出的模型可以提出下列形式:

  • 分类(IF-THEN)规则

  • 决策树

  • 数学公式

  • 神经网络

以下是参与这个功能的列表:

  • 分类 - 它预测类的对象,它的类标签是未知的。它的目标是找到一个派生模型,描述并区分数据类或概念。派生模型是基于分析组训练数据,即数据对象的类标签是众所周知的。

  • 预测 - 它是用来预测丢失或不可用的数字数据值,而不是类的标签。回归分析通常被用于预测。预测还可以用于分布趋势的基础上提供数据的识别。

  • 异常值分析 - 异常值可以被定义为不符合一般行为或数据的可用模型的数据对象。

  • 进化分析 - 进化分析指,描述和模型的规律或趋势的对象,其行为随时间变化。

数据挖掘任务原语

  • 我们可以在数据挖掘查询的形式指定数据挖掘任务。

  • 该查询被输入到系统中。

  • 数据挖掘查询中的数据挖掘任务原语来定义。

Note: 使用这些原语让我们的互动形式与数据挖掘系统通信。下面是数据挖掘任务原语的列表:

  • 设置任务的可供开采相关的数据

  • 类型的知识才能开采出来的

  • 在发现过程中使用的背景知识

  • 兴趣度度量和阈值模式评估

  • 代表性的可视化发现的模式

设置任务相关数据进行挖掘

这是数据库,其中用户感兴趣的部分。这部分包括以下内容:

  • 数据库属性

  • 感兴趣的数据仓库维度

形式的知识来进行开采

它指的是种将要执行的功能。这些功能是:

  • 描述

  • 区别

  • 关联和相关性分析

  • 分类

  • 预测

  • 聚类

  • 异常值分析

  • 进化分析

背景知识可以用于发现过程

背景知识允许数据在多个层次的抽象挖掘。例如,概念层次结构的背景知识,使数据在多个抽象层次挖掘之一。

兴趣度度量和阈值模式评估

这是用来评估是发现通过知识发现过程的模式。有不同的兴趣度度量不同类型的知识。

陈述的可视化发现的模式

这是指在其中发现的模式是将要显示的形式。这些陈述可能包括以下内容:

  • 规则

  • 表格

  • 图表

  • 曲线图

  • 决策树

  • 多维数据集


上一篇: 数据挖掘概述,什么是数据挖掘? 下一篇: 数据挖掘的关键问题