数据挖掘的关键问题

数据挖掘是不那么容易。所使用的算法是很复杂的。数据不可用在需要将其整合形成的各种异构数据源的一个地方。这些因素也造成了一些问题。在这里,在本教程中,我们将讨论有关重大问题:

  • 挖掘方法和用户交互

  • 性能问题

  • 不同数据类型的问题

下图描述的重大问题:

Data Mining issues

挖掘方法和用户交互的问题

它是指下列类型的问题:

  • 挖掘不同类型的知识在数据库 - 不同用户的需要是不一样的。和不同的用户可能会在感兴趣的不同种类的知识。因此,有必要进行数据挖掘涵盖范围广泛的知识发现任务。

  • 知识的多层次的抽象交互挖掘 - 数据挖掘过程需要有互动的,因为它可以让用户专注于搜索模式,提供基于返回的结果提炼数据挖掘请求。

  • 成立背景知识 - 以引导发现过程和要表达的发现的模式,背景知识都可以使用。背景知识可以用来表达发现的模式不仅在简洁的条款在多个抽象层次.

  • 数据挖掘查询语言和特殊数据挖掘 - 数据挖掘查询语言,它允许用户以描述特设挖掘任务时,应与数据仓库查询语言集成和高效,灵活的数据挖掘优化。

  • 演示数据挖掘结果的和可视化 - 一旦模式被发现,它需要被表达的高级语言,可视化表示。这个声明应该是很容易理解的用户。

  • 处理噪音或不完整的数据 - 数据清洗方法是必需的,可以处理噪声,不完整的对象,同时挖掘数据的规律性。如果数据清洗方法是不是有那么发现的模式的精度会很差。

  • 模式评估 - 它指的是该问题的兴趣性。因为无论他们代表的常识或缺乏新颖性发现的模式应该是有趣的。

性能问题

它指的是下列问题:

  • 效率和数据挖掘算法的可扩展性. - 为了有效地从巨大量的数据库中的数据中提取的信息,数据挖掘算法必须是高效的,可扩展的。

  • 并行,分布式和增量挖掘算法. - 因素,如数据库规模庞大的数据挖掘方法,数据分布广,复杂性和激励的并行和分布式数据挖掘算法的开发。这些算法将数据划分为分区,其中被进一步处理并行。然后从分区的结果合并。增量算法,而无需再次矿井中的数据从头开始更新数据库。

不同数据类型的问题

  • 处理关系和复杂类型的数据 - 该数据库可包含复杂的数据对象,多媒体数据对象,空间数据,时间数据等,这是不可能的一个系统到矿井所有这些种类的数据。

  • 从异构数据库和全球信息系统挖掘信息. - 该数据可在局域网或广域网的不同的数据源。这些数据源可以被结构化,半结构化或非结构化的。因此,从他们身上挖掘知识增加了挑战,数据挖掘。


上一篇: 数据挖掘的任务 下一篇: 数据挖掘评估