Web挖掘研究(韩家炜)
Web挖掘
Web内容挖掘
Web结构挖掘
权威页面:根据Web中包含的一个页面指向另一个页面的超链接
Page-rank方法(较简单)
一个页面被多次引用,则这个页面很可能是重要的;一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面。
Hub/authority方法(较复杂,没看懂)
一个hub是指一个或多个Web页面,它提供了指向权威页面的链接集合.hub页面本身可能并不突出,或者说可能没有几个链接指向它们.但是,hub页面却提供了指向就某个公共话题而言最为突出的站点链接.此类页面可以是主页上的推荐链接列表。好的hub是指向许多好的权威的页面;好的权威是指由许多好的hub所指向的页面.
Web使用记录的挖掘
个人想法:是否可以用上面的方法在Web的结构挖掘找出权威的页面,并从页面中进行内容挖掘来获取概念。
可预见的问题:怎样的权威程度才可以用于获取概念?动态性?
...