聚类算法在Web文本挖掘中的应用研究

DHBTHBRBHRB

聚类算法在Web文本挖掘中的应用研究

陈宇,王强

(北京航空航天大学,100191)

摘要:本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况。着重总结了

Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的

研究热点,并提出了Web文本聚类算法的发展方向。

关键词:聚类Web文本挖掘

ApplicationResearchofClusteringAlgorithmsinWebText

Mining

ChcnYu,WangQiang

(BeihangUniversity,100191)

Abstract:Thispapermainlydiscussesapplicationresearchinclusteringalgorithmsin

WebTextMining.Itsummarizesthecharacteristicsandgeneralprocessof

toWebTextMiningandrequirementsofalgorithmsapplied

currentWebTextClustering.ItalsoliststheofresearchtopicsandgivesaprospectondevelopmentWebTextClustering

Algorithms.

KeyWords:ClusteringWebTextMining

1引言

近年来,囚特网发展迅猛,应用愈加广泛,涉及了经济、文化、教育、新闻、广告、

消费、娱乐、金融、保险、销售、电子商务等多方面的内容,这使得Web上的信息量

以惊人的速度增长。2006年3月,中国互联网络信息中心发布了{2005年中国互联网

络信息资源数最调奄报告》,报告称:截I}:到2005年12月31日,中国网页总数约有

24.0亿个。一年内增长17.5亿个,年增长率高达269%,如图1所示11】,这一统计数字

更在2009年1月发布的《第23次中国互联网络发展状况统计报告》中达到160.8亿【21。

3000

2500

Z-2000

粤1500

■■簦豳

曰一口一f『『]一2001年2002f|'iL...一—o2004年2005年2003年

『口静态面育i蕊雨磊]

图1中国历年网页总数及发展情况

在这些海最数据当中,大部分信息是非结构化的或是半结构化的,而其中80%以

Word文档免费下载Word文档免费下载:聚类算法在Web文本挖掘中的应用研究 (共10页,当前第1页)

聚类算法在Web文本挖掘中的应用研究相关文档

最新文档

返回顶部