Web搜索算法与结果聚类方法解析
1. HITS算法的实践与评估
HITS(Hypertext Induced Topic Search)算法是一种用于网页排名的算法,通过评估网页的权威性(Authority)和枢纽性(Hub)来确定网页的重要性。下面我们来看看它在实际应用中的表现和存在的问题。
1.1 HITS算法优势
- 广泛查询响应:HITS算法能够通过识别权威页面和枢纽页面来回答广泛的查询。即使初始结果中没有包含查询的优质权威页面,用户也可能在高排名枢纽页面的链接列表中找到一些优质权威页面。
- 额外信息提供:显示权威值和枢纽值为用户提供了关于搜索结果优劣的额外信息,有助于用户更好地判断。
例如,在ALLTHEWEB上搜索“search engine”,结果只显示了一些元搜索引擎,而没有像GOOGLE或ALTAVISTA这样的权威搜索引擎。但HITS算法利用子图的链接信息,将这些搜索引擎纳入基础集,并赋予它们较高的权威值。
1.2 HITS算法的问题及解决方案
主题漂移(Topic Drift):根集和基础集的主要主题不同可能导致主题漂移现象。例如,在搜索“deutsche politik”(德国政治)时,根集包含研究机构、联邦银行和外交部等组织的页面,以及21个指向世界各地德国大使馆的链接,而基础集仅包含三个政党的地区网页。应用HITS算法后,前二十的权威值集中在德国大使馆页面上,这使得大使馆页面的关注度掩盖了其他主题。