当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于互联网多语种分布情况研究与分析

发布时间:2018-06-21 10:01

  本文选题:高频字 + 搜索引擎 ; 参考:《计算机应用与软件》2007年09期


【摘要】:提出了一种互联网上语种识别和多语种分布统计的方法。方法针对各语种文字被使用频率不同的特点给出高频字定义,以高频字作为关键字进行网页查询和网页语种识别,然后引用概率论中加法公式的推广公式统计互联网上各语种网页分布情况,并结合高频字被使用频率对各语种文字分布情况做出进一步统计。实验方法和数据结果对计算机工作者全面了解互联网特征提供参考。
[Abstract]:A method of language identification and multilingual distribution statistics on the Internet is proposed. The method is used to define the high frequency words for different language characters used in different frequencies. The high frequency words are used as keywords to search for web pages and to identify the language of the web. Then, the extension formula of the addition formula in probability theory is used to count the languages on the Internet. "Distribution, combined with the high frequency words are frequently used to make further statistics for each language text distribution methods and experimental data. Results of computer workers fully understand the characteristics of the Internet to provide reference.
【作者单位】: 上海交通大学计算机科学与工程系 上海交通大学计算机科学与工程系
【分类号】:TP393.4

【相似文献】

相关硕士学位论文 前1条

1 周煜;南齐书高频字词汇研究[D];北京大学;2007年



本文编号:2048211

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2048211.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户37cb9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com