首页 > 范文大全 > 正文

中文词性标注:单步标注还是同步标注?基于词还是基于字?

开篇:润墨网以专业的文秘视角,为您筛选了一篇中文词性标注:单步标注还是同步标注?基于词还是基于字?范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘 要】中文词性标注给中文语句中的每一个字分配一个POS标签。但是,由于中文词语在句子中不能被精确切分,所以若想进行中文词性标注,需要词语切分作为前提条件。我们可以在分词之后进行词性标注,或者将词性标注与分词进行组合,两者同时进行。此外,我们可以选择在基于词的基础上进行词性标注,利用上下文语意,或者基于字符的基础。本文提出一种利用最大熵值框架方法针对中文词性标注等架构处理和特征表示的深入研究。我们发现分词与标注同步进行的基于字符的方法是最好的,基于字符单步(once-at-a-time)进行的标注方法是值得商榷和完善的,在精确度上略差于同步(all-at-once)进行方法,但是它的运行时间更短些。

【关键词】词性标注;分词;单步;同步

【中图分类号】G623.31【文献标识码】A【文章编号】1672-5158(2013)07-0354-02

1.引言

大多数基于语料库语言处理的研究,主要集中在对英文的处理。理论上,我们应该只能使用基于语料库的端口,因为语言的机器学习技术在很大的程度上独立于语言。但是,实际上,不同语言的特性带来了复杂性。尤其是中文,词语在一条语句中不能被准确的划分。因此在我们进行标注和解析等工作之前需要先进行分词,因为中文词性标注是对每一个词进行标注,并且一条语句的解析树是词。

进行中文部分词语标注时,会遇到以下问题:

(1) 我们应该严格按照先分词后标注的方法进行标注还是分词与标注同时进行?

(2) 我们应该基于上下文(基于词)进行标注,还是基于字符进行标注?

本文提出一种利用最大熵值框架方法针对词性标注等问题的深入研究。我们分析了不同方法的运行结果,试图找寻最优化的方法。

2.分词

作为我们调查研究的第一步,我们创建一种不进行词性标注的中文分词。由于在使用单步方法时,分词中的错误将传递到词语标注阶段,为了我们研究的准确性,我们使用最先进的分词技术。我们的分词类似于采用最大熵值分词法(Xue and Shen, 2003)。它根据上下文得来的特性对每个词进行分类。每个词被分配一个由4个边界值组成的标签:“b”表示一个词的开始,“m”表示一个词的中间的字,“e”表示一个词的结尾,“e”表示该表示的词是单个字的词。

2.1 分词特点

我们提出了另外三种能够提高分词精确度的功能(如下模板(d)-(f))。在我们的分词中去掉了默认功能(Xue and Shen, 2003),因为在我们的分词中默认功能不能够提高我们的精确度。

以下的功能模板在我们的分词中被使用,W指代词,C指代字。(a)-(c)指的是含有5个字的内容。 0C表示当前字符, nC表示当前字符的前后n位置上的字符。

英文与中文的语言差别直接影响到英文词性标注方法在中文环境下的运行结果,得到是无效的结果。中文里个别字符编码信息有助于词性标注。使用基于字符方法的中文词性标注优于使用基于词方法的中文词性标注。我们的研究还表明,与之前提出的同步基于字符方法相比,单步基于字符方法达到了相当良好的词性标注精确度,并且可以大大缩减运行时间。

参考文献

[1] H.Jing,R.Florian, X. Luo, T. Zhang, and A.Ittycheriah. 2003. HowtogetaChineseName(Entity):segmentation and combination issues.In Proc. of EMNLP

[2] O.Y.Kwong and B. K. Tsou. 2003. Categorial fluidity in Chinese and its implications for part-of-speech tagging. In Proc. of EACL

[3] X.Luo. 2003. A maximum entropy Chinese characterbased parser. In Proc. of EMNLP

[4] A.Ratnaparkhi. 1996. A maximum entropy model for part-of-speech tagging. In Proc. of EMNLP

[5] R. Sproat, C. Shih, W. Gale, and N. Chang. 1996. A stochastic finite-state wordsegmentation algorithm for Chinese. Computational Linguistics, 22(3):377-404

[6] R.Sproat and T.Emerson. 2003. The first international Chinese word segmentation bakeoff. In Proc. of SIGHAN Workshop.

[7] W.J.Teahan,Y.Wen,R.McNab, and I. H. Witten. 2000. A compression-based algorithm for Chinese word segmentation Computational Linguistics,26(3):375-393

[8] F.Xia, M. Palmer,N.Xue, M. E. Okurowski, J. Kovarik, F-D Chiou,S.Huang,T.Kroch,and M. Marcus. 2000. Developing guidelines and ensuring consistency for Chinese text annotation. In Proc. of LREC