数据挖掘 - 挖掘互联网

万维网包含了庞大的信息，如超链接信息，网页访问信息，教育等，提供用于数据挖掘丰富来源。

Web挖掘的挑战

在网络构成的基础上，以下意见供资源和知识发现的巨大挑战：

该网站是过于庞大 - 对纤维网的大小是非常巨大和迅速增加。这似乎是网络过于庞大的数据仓库和数据挖掘。
Web页面的复杂性 - 该网页并没有统一的结构。相对于传统的文本文档，他们是非常复杂的。有在网络的数字图书馆大量的文件。根据在任何特定的排序顺序这些库没有安排。
网络是动态的信息源 - 在网络上的信息被迅速更新。数据如新闻，股市，天气，体育，购物等会定期更新。
用户群体的多样性 - 在网络上的用户群体正在迅速扩大。这些用户有不同的背景，兴趣，以及使用目的。但是也有一些连接到互联网，仍然迅速增加超过1亿的工作站。
信息的相关性 - 可以认为，一个特定的人通常是感兴趣的网页只有一小部分，而腹板的部分的其余部分包含的是不相关的用户和可能淹没想要的结果的信息。

网页的基本结构是基于文档对象模型（DOM）。 DOM结构指状结构树。在这种结构中的页的HTML标签对应于DOM树中的节点。我们可以分段使用预先定义的标签的HTML网页。在HTML的语法很灵活，因此，网页不遵循W3C规范。不遵循W3C的规范可能在DOM树结构导致错误。

DOM结构最初被引入供呈现在浏览器中不为所述网页的语义结构的描述。 DOM结构不能正确识别网页的不同部分之间的语义关系。

下图显示的VIPS算法的程序：