首页 > 范文大全 > 正文

基于统计的维吾尔文信息熵的估计

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于统计的维吾尔文信息熵的估计范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:信息熵是信息论中用于度量随机变量的不确定性。自然语言信息熵的估计是自然语言信息处理中非常重要而且基本的问题。在试验中,使用统计的方法对250多万词的维吾尔语语料库文本进行统计,初步计算了维吾尔文的信息熵和多余度。所求得的信息熵和多余度分别为4.387比特和13%,相当接近了其它拼音文字的信息熵和多余度。

关键词:维吾尔文;信息熵;多余度;语料库;统计

中图分类号:TP391.1 文献标识码:A文字编码:1009-3044(2008)04-1014-02

Statistical Estimation for Entropy of Uyghur Script

SAMAT Mamtimin1,2

(munication University of China, Beijing, 100024; 2.Xinjiang University, Urumqi 830046, China)

Abstract: In information theory, entropy is a measure of the uncertainty associated with a random variable. Estimating the entropy of natural language is a fundamentally important problem in natural language information processing. In the experiment, the entropy and redundancy of Uyghur script are estimated by statistic results of more than 2.5 million words in the Uyghur Corpus. The result shows that the entropy and redundancy of Uyghur script are 4.387bit and 13% respectively which very similar to that of other alphabetical languages.

Key words: Uyghur script; entropy; redundancy; corpus; statistics

1 引言

自然语言字符的熵(entropy)表示该语言每一个字符所包含平均信息量的大小,是语言符号不确定性程度的一种度量。从字符编码的角度来看,语言符号的熵可以被认为是对该语言字符编码所需的最小平均码长。通过计算某种语言的字符熵可以找出该语言符号系统的信息量和多余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。因此,正确地估计信息熵的值对语言信息处理具有重要意义。利用熵的概念,可以从理论上研究信息的计量、传递、变换、存储。此外,熵在控制论、概率论、数论、天体物理、生命科学等领域也都有一定的应用。

到目前为止,在国外很多学者研究不同语言的信息熵,计算出了这些语言的信息熵。各种语言字母的熵:法文3.98比特;西班牙文4.01比特;英文4.03比特;俄文4.35比特;德文4.10比特;罗马尼亚文4.12比特。在国内最早冯志伟先生用了将近10年的时间,进行手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于在70年代末期首次计算出了在不考虑上下文影响的前提下汉字信息熵的值是9.65比特,1995年,冯志伟又进一步测定了在充分考虑汉字上下文的影响时包含在一个汉字中的熵,这个熵叫做“极限熵”。他测得,汉字的极限熵平均为4.0462比特。黄萱菁等在4年的《人民日报》语料的基础上,所求得的零阶熵、一阶熵、二阶熵分别为9.62,6.18和4.89比特。刘源给出汉字熵的计算结果是9.71比特。孙帆等基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为精确的估计,其熵值为5.31比特。

由于维吾尔文的特殊性决定了至今未有人计算出维吾尔文的信息熵。近年来由于计算机可读文本的大量出现,以及计算能力的不断提高,使得在更大的语料规模上,更为精确地用统计方法计算维吾尔文的信息熵成为可能。本文将在大规模文本的基础上,运用概率的估计方法来计算维吾尔文字符的信息熵和多余度。

2 基本概念

2.1 熵

熵(entropy)是1865年作为热力学的一个重要概念引入的。信息理论中的熵是从不同的观点引入的,两者间虽有相同的数学形式,但它们并没有什么直接的联系。在信息论中,熵可用作某事件不确定度的量度。信息量越大,体系结构越规则,功能越完善,熵就越小。利用熵的概念,可以从理论上研究信息的计量、传递、变换、存储。

熵的定义:如果一个随机变量x共有n种取值,概率分别为P0, P1, P2,.....,Pn,则其熵为H(x) =f(P0, P1, P2......,Pn) =-∑Pnlog2Pn

2.2 信息熵

信息熵也简称为熵(entropy),是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。信息熵的基本作用就是消除人们对事物的不确定性,变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

根据人们的实践经验,一个事件给予人们的信息量多少,与这一事件发生的概率(可能性)大小有关。一个小概率事件的发生,给予人们的信息量就很多。相反,一个大概率事件的出现,给人们的信息量就很少。20世纪40年代末,香农(C.E.Shannon)在著作《通信的数学理论》中提出,信息论中的熵是信息不确定性的度量单位。他用公式(1)来表示不确定性程度:

H=Log2P (1)

不确定性的值与概率P的对数值有关,其单位则由对数的底决定,当以2为底时,单位为比特(bit),两个等概率的事件实验结果的不确定性就是1比特。将其推广,就可以用信息熵来表示一个各事件出现概率已知系统的不确定性。

H=∑-PiLog2Pi(2)

H为信息熵,Pi表示系统中事件i出现的概率,因此有:Pi

语言的熵是数学方法和语言文字学的结合,语言的熵反映语言中每个字符的平均信息量。同样,用公式(2)可以计算某种语言符号系统的信息量。但是,我们在测定这个熵值的时候,只是把文本看作不等概率独立链的熵,测定时只需要考虑语言符号出现概率的不同,不必考虑语言符号出现概率之间的相互影响。因此,用这个公式求到的数值是静态平均信息熵。根据信息论的基本原理,这个熵也可以叫做“零阶熵”。

2.3 多余度(redundancy)

由上可知,有n个符号的文字,每个字符最大的信息量(最大熵)Hmax=Log2(n)(即-Log2 (1/n)),而有不相等概率时,其平均信息量(平均熵)H=-∑Pnlog2Pn总小于最大信息量Hmax。例如英文的最大信息量等于4.7,就要用5个二进制数码来编码和传输。但它的平均信息量近于4.03,表示实际上可用比4个多一点点的二进制位就可以了。说明这一部分熵是多余的,被浪费了。信息论研究这样的多余度,多余度的计算公式:

R=(1-H/Hmax)×100=(Hmax-H)/ Hmax×100 (3)

从多余度的计算公式可知,多余度随最大熵Hmax的增大而减小。而从最大熵的计算公式Hmax=S(n)可知,最大熵则随字符个数的增加而增大。

3 维吾尔文和语料介绍

3.1 维吾尔文

维吾尔语(简称维语)属于阿尔泰语系突厥语族,是维吾尔族所说的语言。维吾尔族在历史上使用过突厥文、回鹘文、察合台文。现在中国维吾尔族使用的维吾尔文是在晚期察合台文基础上形成的以阿拉伯字母为基础的拼音文字,是从右向左书写的文字。

现行维吾尔文有32个字母,其中有8个元音字母和24个辅音字母,每个字母按照出现的位置而具有单独、前、中、后等几种不同的形式。词与词之间用空格来分开写。

3.2 语料介绍

本文所使用的语料来源于新疆大学在2003-2006年期间建立的现代维吾尔语语料库。为了保证语料的平衡和代表性,我们按照一定的比例从语料库中抽取了不同领域的2558810词次规模的语料。这样规模的语料基本包含了各种语体和体裁的文本,其中,文学类30%,学术类27%,新闻公文等30%,综合类23%。

4 维吾尔文信息熵和多余度的计算

语言通常都是由一组符号的集合构成的信息源,如汉语、英语、日语、维吾尔语等。在书面语中,汉语采用的符号是汉字;日语采用的符号是汉字和拼音文字;英语和维吾尔语等采用拼音文字的符号集,也就是它们的字母表(还可以加上标点符号和空格)。而且这些字母在各种文本中的出现也有一定的规律性。我们对各个维吾尔文字母在上述语料中出现的频率作了统计工作,统计结果如表1所示。

如果我们假定这些字母是独立出现的,就可以利用计算信息熵的公式(2)计算出维吾尔文33个符号(32个字母和1个空格)携带的平均信息量。

根据表1的概率,代入计算信息熵的公式:H=∑-PiLog2P ,其中 i=1~33

得到 H=∑-PiLog2Pi≈4.387 (平均信息熵)

已知Hmax= Log233≈5.044,根据多余度公式:

R=(1-H/ Hmax)×100, 得到R≈0.13×100≈13% (多余度)

各民族的语言都有“多余度”,我们并不能因此就认为“多余度”是多余的。恰恰相反这种“多余度”是用语言传递信息时必不可少的。没有多余度的语言实际上是无法理解的。

应该注意的是,我们在计算这个熵值的时候,仅只考虑到了字符在文本中出现概率的差异,而完全没有考虑文本中汉字出现概率之间的相互影响。所以我们计算得到的是维吾尔文字母的静态平均信息熵。事实上,语言符号的出现概率是相关的,是彼此相互影响的。在充分考虑上下文关系的情况下,达到的最小条件信息量,称为极限熵。根据极限熵,我们可以进一步研究使传输更快的编码,即不是对单个文字符号,而是对文字进行编码,就可使平均码长减小,逼近极限熵。

5 结论

综上所述,本文在大规模语料的基础上,采用统计的方法对维吾尔文信息熵和多余度进行估计和计算,在250多万词的语料规模下,所求得的零阶熵约4.387比特,多余度为13%。得到的值已经是相当接近了其它拼音文字的信息熵。可以看出,维吾尔文字信息量小,今后在处理维吾尔文时完全可以使维吾尔文信息管理和传递成本降低和效率提高,进一步说明了维吾尔文同样是个高效率的文字方式。

当然,这里所求得的熵仍然只是维吾尔文信息熵的一个静态平均值,结果也不很精确。我们希望将来有更巧妙的方法,以便算出更加精确的维吾尔文字母的平均信息熵和极限熵的值。

参考文献:

[1] 孙帆, 孙茂松, 等. 基于统计的汉字极限熵估测[A]. 中文信息处理前沿进展――中国中文信息学会二十五周年学术会议论文集[C]. 2006. 542-551.

[2] 冯志伟. 关于汉字的熵和极限熵致编辑部的一封信[J].中文信息学报,1998,12(1):63-64.

[3] 冯志伟. 汉字的熵[J]. 语文建设; 1984(04): 40-42.

[4] 冯志伟. 汉字的极限熵[J]. 中文信息,1996(2):53-56.

[5] 黄萱菁, 吴立德, 郭以昆, 刘秉伟, 等. 现代汉语熵的计算及语言模型中稀疏事件的概率估计[J]. 电子学报, 2000,(08):110-112.

[6] 那日松,淑琴. 蒙古文信息熵和拉丁转写研究[A].中国计算技术与语言问题研究――第七届中文信息处理国际会议论文集[C], 2007:782-785.

[7] D. A. Huffman. A Method for the Construction of Minimum Redundancy Codes [A].Proc.of IRE[C]. 1952, 40(10):1098-1101.

[8] C. E. Shannon. A mathematical theory of communication [J].ACM SIGMOBILE Mobile Computing and Communications Review[C].2001, 5(1).

塞麦提・麦麦提敏(1980-),男(维吾尔族),新疆和田人,中国传媒大学博士生,新疆大学讲师,主要研究方向:计算语言学。