首页 > 范文大全 > 正文

词语表征新探

开篇:润墨网以专业的文秘视角,为您筛选了一篇词语表征新探范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【内容摘要】词语表征要做到:采取综合的观点;充分性和经济性的统一;概念知识与前概念知识结合;考虑词语在语言系统中的地位;形式化、模块化。词语表征内容包括语言和表象两方面内容,其语义生成机制(SGM)要体现隐喻、转喻等认知机制,有助于区分一词多义现象。

【关 键 词】词语表征;原则;内容;SGM。

【作者简介】倪盛俭,武汉大学文学院2010级博士研究生,研究方向:语言学及应用

语言学(自然语言处理)。一、引言

认知科学(CS)认为,知识表征(KR)是大脑表示知识内容与结构的方式,包括表象、概念、命题等形式;KR既储存知识,也是再现已有知识和理解新信息的基础[1]。KR的主要内容是语言知识,表达概念、命题等。词语表征(WR)是语言KR的基础,是生成和理解不可或缺的依据。

自然语言处理(NLP)停滞的根本原因在于对语言规律挖掘及其相应的语言工程建设的不足[2],包括对WR研究的不足。目前,国际上对WR描述最详尽的当属生成词库理论(the Generative Lexicon,GL)。GL的WR最大问题是:缺乏对表象系统的描述,没有体现隐喻语义机制。这也是词汇语义学(LS)其他新结构主义分解法共同的缺点。

本文基于GL,参考CS和认知语言学(CL)等,探讨WR的原则、内容和模型,并说明改良后的WR在NLP中潜在的实践价值。

二、词语表征原则

第一,WR要采取综合的观点并分层次表示。由于词语概念的复杂性,WR必须采取综合[3]、多维度的方法[4],这一点GL基本上都做到了。

第二,充分性和经济性的统一。冗余内容会增加表征的难度和工作量,制造噪音并可能影响结果的完全性。WR的内容应该有助于语言选择和理解。本质特征一般比具体、可感知、非本质的感知属性更能实现这种功能。但即使是本质内容,如果不具有选择和理解的功能,也不纳入WR;相反,非本质的东西(如表象)如果具有这种功能,也要进入WR。当然,从原型理论角度看,本质属性和非本质属性构成一个连续统一,其区分不是绝对的。

第三,概念(语言)知识与前概念(语言外)知识结合。后者是前者理解的语境,体现为表象系统,其功能类似于CS中的表象或者情景[5]。CS已经证明,表象和概念是人类认知的两种基本成分[6],表象与词语一样参与心智的思维活动[7],所以,表象在思维中具有重要的作用[8]。认知语义学把表象系统中的“图式”“框架”、脚本和理想认知模型等通称为前概念[9]。

总之,现有CL和CS研究显示,语言表达会激发一套作为理解其语义基础的认知域和知识框架[10]。WR中包括相关的内容是必要的,而这部分内容是GL的WR所缺乏的。

第四,考虑词语在语言系统中的地位。既要表示词语本身的内涵,也要表示词语的横组合关系和纵聚合关系,后者作为关系语义学的核心内容,对于语言的选择和理解具有不可替代的作用。GL主要借助词汇继承结构来体现词语在语言系统中的地位,但对组合和聚合关系的表达还很不够。还需统一的元语言系统和借助语言知识本体对词语关系加以完善[11]。本文尝试利用HowNet的分类体系(语言本体的一种体现形式)等完善词语关系。

sulation)。这些形式化、模块化和封装体现了计算机的技术特点。模块化和封装可以降低计算复杂性,根据需要对特定模块中的内容进行调整,便于表征系统的完善。杰肯道夫(Jackendoff)的概念语义学、拜尔维斯(Bierwisch)发起的双层语义学和GL都采取模块化认知观。赫尔比希等对语义表征的概念封装(Conceptual Encapsulation)做了很好的示范[12]。

第六,体现认知的特点,有助于区分一词多义现象的隐喻、转喻机制。解释一词多义现象和语义的灵活性是当代LS的主要焦点[13],也是NLP的一个核心问题。

三、词语表征内容

根据上面论述,笔者认为WR应该包括语言和表象两方面内容。

1.语言内容。语言知识包括语义、语法及其各种依存关系[14]。关于语义表征,现在研究很多,不再赘述。语法方面,由于主谓、谓语、宾语等表达的只是具体句子中词语之间一种随语境变化的关系,不体现词选择和理解的限制,就不必出现在WR内容里。富于形态语言中普通名词的“性”“数”“格”等,对于语言选择和区分具有重要的作用,应该予以表征。动词和助词有“时”“体”“态”的问题。“体”可以理解为“事件类型”。对英语动词的“体”研究最经典的是莱文,她根据动态性、持续性、终止点、反复性、完成、结果五个参数将动词分为五类:状态、活动、成就、完成和非持续重复事件。莱文认为“体”的概念对于词汇语义表征是很关键的,因为它给出了词语句法特征的主要内容[15]。源自动词的名词可以与动词做类似处理。

2.表象内容。表象包括属性表象(客体表象)和空间表象(关系表象)[16]。本文WR模型中属性表象同时包括图式和GL的物性结构(QUALIA)。关系表象主要包括词语之间的关系,包括语义场、聚合聚合和词语之间正反义等关系。

与GL的WR最大差异在于本WR加入了意象图式内容。兰盖克认为CL倾向于意象(图式)的语义理解机制[17],认知语义学的六大原则之一是:认知模式主要是意象图式形式(而不是命题形式)。塔尔米所总结的人类语言意义结构的四条组织原则的第一条是:以图式结构为中心,语言形式的结构形式一般通过抽象的、理想的、其特殊关系常常几乎是几何型的描述的方式概念化[18]。而隐喻、转喻是CL中主要的语义变化和区分机制。

四、词语表征模型

根据上面论述并参考其他语义学特别是LS的理论,提出WR的模型(见图1)。

图中а为待表征词语,ET针对动词和源自动词的名词,与GL的事件结构相当,但采取莱文对事件类型的划分[19],这种划分更全面,而且有明确参数来判定事件类型,保证离散性和可操作性。“性数格”主要针对形态语言的普通名词。SemD对应GL中的论元结构[20],其概念采用Mel’Cuk[21]。CC利用HowNet分类体系中义元之间的继承关系,可以体现一些转喻机制。物性结构源自GL[22]与GL相比,本模型还多了意象图式和RI,借论可以实现隐喻操作,图式的选择推论,可以实现转喻操作。WRS中的语义场参考HowNet的资源,同义反义参考WordNet的资源。图式和WRS是词语理解的语境,也是确定词语领域的依据之一。