万维网包含了庞大的信息,如超链接信息,网页访问信息,教育等,提供用于数据挖掘丰富来源。
Web挖掘的挑战
在网络构成的基础上,以下意见供资源和知识发现的巨大挑战:
-
该网站是过于庞大 - 对纤维网的大小是非常巨大和迅速增加。这似乎是网络过于庞大的数据仓库和数据挖掘。
-
Web页面的复杂性 - 该网页并没有统一的结构。相对于传统的文本文档,他们是非常复杂的。有在网络的数字图书馆大量的文件。根据在任何特定的排序顺序这些库没有安排。
-
网络是动态的信息源 - 在网络上的信息被迅速更新。数据如新闻,股市,天气,体育,购物等会定期更新。
-
用户群体的多样性 - 在网络上的用户群体正在迅速扩大。这些用户有不同的背景,兴趣,以及使用目的。但是也有一些连接到互联网,仍然迅速增加超过1亿的工作站。
-
信息的相关性 - 可以认为,一个特定的人通常是感兴趣的网页只有一小部分,而腹板的部分的其余部分包含的是不相关的用户和可能淹没想要的结果的信息。
挖掘Web页面布局结构
网页的基本结构是基于文档对象模型(DOM)。 DOM结构指状结构树。在这种结构中的页的HTML标签对应于DOM树中的节点。我们可以分段使用预先定义的标签的HTML网页。在HTML的语法很灵活,因此,网页不遵循W3C规范。不遵循W3C的规范可能在DOM树结构导致错误。
DOM结构最初被引入供呈现在浏览器中不为所述网页的语义结构的描述。 DOM结构不能正确识别网页的不同部分之间的语义关系。
基于视觉的网页分块(VIPS)
-
VIPS的目的是提取网页的基础上它的视觉呈现的语义结构。
-
这样的一个语义结构对应于树结构。在这个树中的每个节点对应一个块。
-
值被分配给每个节点。这个值被称为相干度。这个值被分配以指示如何相干是基于视觉感知的块中的内容。
-
在VIPS算法首先提取从HTML DOM树中的所有合适的块。之后,它发现这些块之间的分隔符。
-
分离器是指在网页中的水平线或垂直线在视觉上没有块交叉。
-
该网页的语义构造这些块的基础上。
下图显示的VIPS算法的程序:
