Friday, April 21, 2006

 

Some notes on Chinese Words Segmentation - 1

1.
From http://www.stlchina.org/twiki/bin/view.pl/Main/SESegment

中文搜索引擎技术揭密:中文分词
作者Winter
首发于:e800.com.cn
前言

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上个世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度、中搜等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

中文分词和搜索引擎

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入「和服」,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在目前最有三个中文搜索引擎上做测试。测试方法是直接在Google、百度、中搜上以「和服」为关键词进行搜索:
在Google上输入「和服」搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:

“通信信息报:瑞星以技术和服务开拓网络安全市场”

“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”

“陈慧琳《心口不一》 化妆和服装自己包办”

“::外交部:中国境外领事保护和服务指南(2003年版) ...”

“产品和服务”

等等。第一页只有三篇是真正在讲「和服」的结果。

在百度上输入「和服」搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:

“福建省晋江市恒和服装有限公司系独资企业”

“关于商品和服务实行明码标价的规定”

“青岛东和服装设备”

在中搜山输入「和服」搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。

这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

中文分词技术

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个「充分大的」机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

正向最大匹配法(由左到右的方向);
逆向最大匹配法(由右到左的方向);
最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。

基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如「这一」、「之一」、「有的」、「我的」、「许多的」等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用「复方分词法」,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

分词中的难题。

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
歧义识别。
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为「表面」和「面的」都是词,那么这个短语就可以分成「表面 的」和「表 面的」。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的「和服」的例子,其实就是因为交叉歧义引起的错误。「化妆和服装」可以分成「化妆 和 服装」或者「化妆 和服 装」。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子「这个门把手坏了」中,「把手」是个词,但在句子「请把手拿开」中,「把手」就不是一个词;在句子「将军任命了一名中将」中,「中将」是个词,但在句子「产量三年中将增长两倍」中,「中将」就不再是词。这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:「乒乓球拍卖完了」,可以切分成「乒乓 球拍 卖 完 了」、也可切分成「乒乓球 拍卖 完 了」,如果没有上下文其他的句子,恐怕谁也不知道「拍卖」在这里算不算一个词。

新词识别。
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子「王军虎去广州了」中,「王军虎」是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把「王军虎」做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子「王军虎头虎脑的」中,「王军虎」还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

中文分词的应用

目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。

2.
From http://www.microsoft.com/china/rdcenter/info/result/chinese.asp

汉语分词在中文软件中的广泛应用
李东 张湘辉
微软中国研究开发中心

摘要
中文软件需要具有对中文文本的输入、显示、编辑、输出等基本功能,而且随着计算机技术的发展,对于计算机的文本处理能力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文摘;语音合成;自然语言的理解和自动翻译;自然语言接口等。 而所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。

一、 为什么需要汉语分词
我们知道,汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。” [1], 我们还知道,“词是最小的能够独立活动的有意义的语言成分。”[2] 然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题。

以拼音输入中的同音词自动辨识为例,据我们统计,汉语单字同音现象是非常严重的。以6763个汉字为例,没有同音字的汉字只有16个。其他汉字都有同音字。其中最多的有116个同音字。而汉语词的同音现象则有很大的改善。以52505的词表为例,其中35942个词语没有同音词。因此,大多数同音字可以依靠词来确定。例如:”yi”对应的同音字“以,一,易,已,意”, 分别可以在“以为,一定,容易,已经,意义”中来确定。对于词语(包括单字词)的同音现象,则需要运用词语之间的合理搭配以及词语在句子中的合法运用来确定。比如“一枝可爱的玫瑰花”,”Zhi”的同音字有:“只,之,直,支,枝.....”等。但是这里“枝”是和“花”的合理搭配。也就是说”一+枝+可爱的玫瑰花”是合理的搭配。由此不难看出,分词对于同音词自动辨识的作用。而同音词的自动辨识也是语音自动识别所要解决的重要问题。

除了同音词的自动辨识,汉语的多音字自动辨识仍然需要分词的帮助。例如:“校、行、重、乐、率”等都是多音字。无论是拼音自动标注还是语音合成都需要识别出正确的拼音。而多音字的辨识可以利用词以及句子中前后词语境,即上下文来实现。如以上几个多音字都可以在以下几组词中得以定音:学校(xiao)/ 校(jiao)对、行(hang)列/行(xing)进、重(zhong)量/重(chong)新、快乐(le)/音乐(yue)、率(shuai)领/效率(lv)。

汉字的简体/繁体转换、信息检索和信息摘录、自然语言理解、文本分类、机器翻译、文本校对等中文信息处理系统同样都首先需要分词作为其最基本的模块。

二、 汉语分词所面临的关键问题及分词算法
汉语分词是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统的输入是连续的字符串(C1C2C3……Cn),输出是汉语的词串(W1W2W3……Wm), 这里,Wi 可以是单字词也可以是多字词。 那么,在这个过程中,我们所要解决的关键问题是什么,我们又有什么样的解决方案哪?

关键问题
通用词表和切分规范
汉语的语素和单字词,合成词和短语之间没有清晰的界限。语言学界虽然对于词在概念上有一个十分清晰的定义,即,“词是最小的能够独立活动的有意义的语言成分。”但从一些词典的编撰中,我们仍然可看出一些上述界限难以区分的问题。比如:“听见”“看见”在很多词典中都有收录,但是有类似结构的“闻见”却没有收录。在建立分词系统词表时,仍然对于收词的标准难以把握,例如:“鸡蛋”是词,那么“鸭蛋、鹌鹑蛋”是否也作为词收入词表?至今为止,分词系统仍然没有一个统一的具有权威性的分词词表作为分词依据。这不能不说是分词系统所面临的首要问题。除了分词词表,还有一个概念值得我们注意,即“分词单位”。从计算机进行分词的过程来看,其输出的词串我们称之为“切分单位”或“分词单位”。《信息处理用现代汉语分词规范》中对于“分词单位”也有一个定义:“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。包括本规范的规则限定的词和词组。”[3]由此可见,信息处理中分词单位的定义比传统意义上的词更宽泛些。这也就避开了理论上对于词的界定难以把握的困扰。分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位”。分词单位可以是同词表中词完全一致,也可以是包含未登录词识别以及一些词法分析的切分单位, 例如,一些人名、地名、机构名、外国人译名,应予以识别和切分。一些动词和形容词重叠结构,如“高高大大”、“甜甜蜜蜜”等;一些附加词,如后缀,“亲和性”、“热敏性”等;都可以作为分词单位予以识别和切分。因此,对于一个分词系统而言,制定一个一致性的分词单位切分规范无疑也是一个重要的问题。

歧义切分字段
分词系统要处理的第二个关键问题是文本中歧义切分字段的判别。汉语中歧义切分字段最基本有以下两种类型:

交集型歧义字段,据统计,这种歧义字段占全部歧义字段的85%以上。[4]所以这也是分词系统所要重点解决的问题。在字段ABC中,这里,A,B,C分别代表有一个或多个汉字组成的字串。A,AB,BC,C分别都是词表中的词,则称该字段为交集型歧义字段。如:“中国/人”,“中/国人”两种切分结果。
组合型歧义在字段ABC中, A,B,AB 分别都是词表中的词,则称该字段为交集型歧义字段。如:他/具有/非凡/的/才能/。/ 只有/他/才/能/举起/这/个/重物/。/
未登录词识别
我们知道,词表中不能囊括所有的词。一方面是因为语言在不断的发展和变化,新词会不断的出现。另一方面是因为词的衍生现象非常普遍,没有必要把所有的衍生词都收入辞典中。

特别是人名、地名等专有名词,在文本中有非常高的使用频度和比例。而且由于未录词引入的分词错误往往比单纯的词表切分歧义还要严重。这就要求分词系统具有一定的未登录词识别能力,从而提高分词的正确性。

除了人名、地名的识别,我们认为,分词系统还需要有一定的词法分析能力,从而解决衍生词和复合词等词汇平面上的问题,为进一步的中文信息处理提供坚实的基础。


分词算法
以上我们大致了解了分词系统所面临的关键问题,那么,分词系统怎样解决这些问题的哪?下面我对我们曾经试验过的几种分词算法,也是目前比较被广泛使用的方法加以简单介绍:

基于词表的分词-最大匹配(MM)
这是一种有着广泛应用的机械分词方法,该方法依据一个分词词表和一个基本的切分评估原则,即“长词优先”原则,来进行分词。这种评估原则虽然在大多数情况下是合理的,但也会引发一些切分错误。根据我们小规模测试的结果,其正确率为95.422%,速度为65,000字/分钟。

这种切分方法,需要最少的语言资源(仅需一个词表,不需要任何词法、句法、语义知识),程序实现简单,开发周期短,是一个简单实用的方法。


基于统计的分词
这种方法首先切分出与词表匹配的所有可能的词,这种切分方法称为“全切分”,运用统计语言模型和决策算法决定最优的切分结果。

这种方法的优点是可以发现所有的切分歧义,但是解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法。需要大量的标注语料,并且分词速度也因搜索空间的增大而有所缓慢。根据我们小规模测试的结果,其正确率为96.252%。分词速度为:40,000字/分钟。

基于规则和基于统计相结合
这种方法首先运用最大匹配作为一种初步切分, 再对切分的边界处进行歧义探测,发现歧义。再运用统计和规则结合的方法来判别正确的切分,运用不同的规则解决人名、地名、机构名识别,运用词法结构规则来生成复合词和衍生词。

目前这种方法可以解决汉语中最常见的歧义类型:单字交集型歧义。并对人名、地名、机构名、后缀、动词/形容词重叠、衍生词等词法结构进行识别的处理,基本解决了分词所面临的最关键的问题。而且由于优秀的辞典结构和算法设计,分词速度非常快。根据我们小规模测试的结果,其正确率为97.948%。分词速度为:200,000字/分钟。但是,目前这个分词系统对于组合歧义的处理还没有涉及。

这一分词系统我们称之为:WB2000, 它作为Office2000中文版中的一个基本模块被许多中文功能所运用。

三、 汉语分词系统WB2000以及在中文Office2000中的应用举例
这里,我们就WB2000在Office2000中文版中的具体应用实例进行简单介绍,从这些具体的应用实例中,我们可以对中文分词的广泛应用有进一步深入的了解。

WB2000的分词功能 以上已经从分词算法上初步了解了WB2000, 从分词功能的角度看,它具备以下几个功能:
1)交叉型歧义识别
2)词法分析:前后缀、重叠等
3)专有名词识别:人名、地名、机构名
4)其它:数量和时间类词组识别

此外,从程序设计的角度看,它还具备以下的特点:

词表的可扩充性, 分词用词表可以支持批量追加适合于各种应用的词汇。
功能的可组合型, 可以根据不同应用的需要,通过以上分词功能的不同组合,来调整不同的“分词单位”。
接口的可共享型, 分词系统的统一接口设计,使得不同的应用可以共享同一分词系统。
以上几个的特点,是基于分词系统是所有语言信息处理系统的基础,也就是说,是所有语言信息处理系统所不可或缺的模块这一认识来设计的。我们认为这一设计思想应该是开发通用的、实用的分词系统所必须掌握的原则。


Office2000中的应用举例
Office2000 中有诸多功能运用到分词系统,这里只挑选几个典型的应用例子加以说明。

文本自动校对
分词是文本校对中的一个基本模块,校对系统运用分词模块对文本进行分词,运用词语之间搭配的合理性来识别可能的错误。

例1:


简体/繁体自动转换
我们知道,简体/繁体之间的转换,在单字一级,会有一个简体汉字对应多个繁体汉字的情况,如:“发”对应繁体的“發”和“髮”。那么,简体/繁体转换应该将“发”转为“發”还是“髮”哪?这就引入了如何解决简/繁歧义的问题。此外,简体中文和繁体中文在一些技术术语的运用上也有不同。例如,简体中文计算机术语“物理地址”和“逻辑地址”在繁体中文中写作“邏輯位址”和“物理位址”。简体/繁体转换系统也需要解决这种术语的不同用法问题。 我们的简体/繁体转换系统运用分词模块切分词语,根据词语以及上下文来决定最可能的转换结果。

例2:

迅速发展的计算机技术。
迅速發展的電腦技術。

她有一头黑亮的头发。
她有一頭黑亮的頭髮。

聪明选词
MSWord2000中,当用户双击鼠标左键是,如果是英文文本,英文单词会被高亮选中,如果是中文文本,中文词语则也会高亮选中,用户可以对选中的词语做进一步的编辑行为。这一功能同样是运用分词系统来实现的。

例3:当用户在“计算机”文本段内任意位置双击鼠标左键时,“计算机”将作为词被选中。


拼音指南
MSWord2000中提供了对于文本自动标音的功能,我们知道,汉语存在一字多音的问题,如何决定多音字的正确拼音哪?这里,我们仍然利用分词系统作为基础模块根据上下文来判别其正确的拼音。

例4:


这里,我们看到多音字:“重”被正确标注为“zhong4”和“chong2”.

四、结语
汉语分词是中文信息处理系统的基础,有着极其广泛的实际应用。从基本的输入系统,如智能语句输入法、语音输入、手写输入;到文字处理,如文本校对、简体/繁体转换、拼音标注;以及语音合成,文本检索,文本分类,自然语言接口,自动文摘等等,无处不渗透着分词系统的应用。但是对于分词中所涉及的一些关键问题,我们仍然没有很好的解决方案。因此,中文信息处理技术的进步和中文信息处理系统的广泛应用,有待于对分词中的关键问题进行进一步的深入研究和探索,如,制定和颁布国家通用的分词词表,研究歧义切分字段类型,增强歧义判别的能力,提高专有名词的识别率,研究汉语的构词规则和词法规则等等。从系统设计方面,应考虑开发通用的多功能的汉语分词系统,如:支持多种不同应用的多词典结构、自适应不同应用的切分结果、带结构化和属性信息的切分结果等。从分词的在中文信息处理系统中的应用方面,可以说,我们已经跨出了一大步,但是我们仍在致力于拓展其新的应用,如:自动文摘、汉语文本索引和检索、汉语语音合成、汉语自然语言接口等。 我们认为,汉语分词系统作为中文信息处理系统的基石,有着极其广泛的应用前景。通过对分词技术的深入研究,开发出高质量,多功能的分词系统,必将促进中文信息处理系统的广泛应用,换言之,也就提高了中文软件对于中文的处理能力,这也将使得计算机用户的日常工作的效率得以提高。

参考文献
[1]《汉语信息处理词汇01部分;基本术语(GB12200.1-90)》,中国标准出版社,1991
[2] 朱德熙《语法讲义》,商务印书馆,1982
[3] GB/T13715-92《信息处理用现代汉语分词规范》,中国标准出版社,1993。
[4] 梁南元《书面汉语自动分词系统-CDWS》,《中文信息学报》1(2),1987。

3.
From http://lcl.cnblogs.com/archive/2006/01/27/323742.html

中文分词的简要实现

前段时间在摆弄Lucene(Lucene is a high performance, scalable Information Retrieval (IR) library. It lets you add indexing and searching capabilities to your applications.)理所当然的在 Google的带领下进入车东的《在应用中加入全文检索功能——基于Java的全文索引引擎Lucene简介》一文,在此文的引导下,了解做Lucene相关中文应用第一步即要实现中文分词——好在前人已经做了几十年的研究、好在有Google和网络。

为何要中文分词:

说到为何要中文分词有必要将中文和英文对比一下,英文中对于“词”有天然的空格区分,而中文中只有短句使用标点符号区分(远古的时候的文章连标点都无)——所以古文有断句一说。中文分词的作用即是在短语中增加人工的空格如“SAP是大型ERP软件”分为“SAP 是大型 ERP 软件”,目前我们常接触这种技术是MS Office中的Word,在一段文字上做双击操作时会选中一个词而在记事本中同样的操作对于中文只会是一个汉字;同样在金山快译、金山词霸以及各种搜索引擎我们会看到中文分词的作用。目前中文分词还是一个难题——对于需要上下文区别的词以及新词(人名、地名等)很难完美的区分。国际上将同样存在分词问题的韩国、日本和中国并称为CJK(Chinese Japanese Korean),对于CJK这个代称可能包含其他问题,分词只是其中之一。

对于分词更多资料请见:Google中文资料、Google英文资料

其中微软亚洲研究院的李东 张湘辉:汉语分词在中文软件中的广泛应用一文说的比较清晰。

中文分词的简略实现:

Lucene已有先人实现了中文分词功能,但实在是看别人的代码太痛苦,而且越难的事情总是能激起人们的好奇心和虚荣心,所以做了一个劳而无功的决定:自己来丰衣足食——同时乘机把Unicode,GB2312之类的编码弄明白。

先从简单的开始,实现的方式是基于最大匹配词典的中文分词算法,经过测试效果一如意料中的差强人意,如下所示:

来源于新华网首页的新闻(部分):

旧时的“中国通”多指维护西方利益的外交官和传教士等。

而今在商业领域出现了众多“新中国通”。以下就是四个“新中国通”在中国的经历。他们总结在中国做生意的成功经验是:耐心、乐观,对在中国发展有强烈的兴趣。

在华美国人:在中国做生意需亲临

理查德·麦考姆斯2003年开始在中国投资。如今,59岁的麦考姆斯是首席财务师,每年来中国十几次,负责广州一家中美合资的塑料回收公司。他说:“你可不能仅靠遥控管理中国公司,要事必躬亲,亲自到现场。”

分词结果(部分):*号为分词标记
旧时*的*中国通*多指*维护*西方*利益*的*外交*官*和*传教*士*等*而今*在*商业*领域*出现*了*众多*新*中国通*以下*就是*四个*新*中国通*在*中国*的*经历*他们*总结*在*中国*做生意*的*成功*经验*是*耐心*乐观*对*在*中国*发展*有*强烈*的*兴趣*在*华美*国人*在*中国*做生意*需*亲临*理查德*麦考*姆*斯*2003*年*开始*在*中国*投资*如今*59*岁*的*麦考*姆*斯*是*首席*财务*师*每年*来*中国*十几*次*负责*广州*一家*中美*合资*的*塑料*回收*公司*他*说*你*可不*能*仅*靠*遥控*管理*中国*公司*要事*必*躬亲*亲自*到*现场

但测试可以看到如*麦考*姆*斯*、要事*必*躬亲这样姓名和短语是区分错误的,目前需要改进的地方:

l 对新词的区分:新词对算法而言即是词库中没有的词,对于此类词的区分将会逆向考虑,不在词库的词排除常用字后即为专有名词,这也意味着要对常用“字”进行词性分类如“姆”“斯”只会和其他字结合不单独出现,所以“麦考姆斯”是专业名词。而对于“在”、“和”“了”之类的字可以单独出现。

l 对于基于最大匹配算法的改进:

目前采用的算法是基于左侧的最大匹配算法,即词的匹配是自左向右,如“要事必躬亲”结果先匹配了“要事”。需要结合右侧匹配,但是匹配后的词选择又是一个棘手的算法。

l 对算法速度的提高:

现有算法的瓶颈经过测试在于文章的分句和中英文区分,对于万字的分词约在280毫秒,其中前面提到的原因约占用200毫秒。预计采用的算法将是对文章进行按字符筛选中文、符号、英文。

l 远期计划:目前基于词表匹配的算法是一项基本的分词算法,说明了是对现有汉语的分类。某些文章提到过基于统计的分词,若有时间再作了解。

4.
From http://www.sqlet.com/blog/index.php?action=show&id=89

【标题】汉语自动分词研究评述
【原文出处】当代语言学
【原刊期号】200101
【标题注释】本项研究得到国家自然科学基金(项目号:69705005)和国家重点基础研究发展规划项目(项目号:G1998030507)的资助。
【作者】孙茂松/邹嘉彦
【作者简介】孙茂松,清华大学
邹嘉彦,香港城市大学
孙茂松,100084 北京.清华大学计算机系 Email:lkc-dcs@mail.tsinghua.edu.cn
邹嘉彦,香港 香港城市大学 语言资讯科学研究中心
【内容提要】本文首先阐述了汉语自动分词研究的现实性和可能性,接着围绕该研究中的三个基本问题(切分歧义消解、未登录词处理和语言资源建设)展开了重点讨论,并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些个人意见。
【关键词】中文信息处理/汉语自动分词/切分歧义消解/未登录词处理/语言资源建设
【正文】
    1.汉语自动分词的现实性与可能性
众所周知,中文文本没有类似英文空格之类的显式表标示词的边界标志。汉语自动分词的任务,通俗地说,就是要由机器在中文文本中词与词之间自动加上空格。一提到自动分词,通常会遇到两种比较典型的质疑。一种质疑是来自外行人的:这件事看上去平凡之极,好像一点儿也不“热闹”,会有什么用呢?另一种质疑则是来自内行人的:自动分词研究已经紧锣密鼓地进行了十几年了,可到现在也未见一个经得起考验的系统推出来(与此形成鲜明对照的是,日语同样也存在分词问题,但已经有了圈内人士广泛认同的日语分词系统),这几乎成了中文信息处理中一个“永恒”的话题,那么,到底还有没有希望搞出真正意义上的“门道”来?
第一种质疑关心的是自动分词的现实性问题,其答案是十分明确的。当前的大环境令人鼓舞:中国正在向信息化社会迅速前进,其突出表征是Internet上中文网页的急剧增加和中文电子出版物、中文数字图书馆的迅速普及。以非受限文本为主要对象的中文自然语言处理研究于是也水涨船高,重要性日益显著。而汉语自动分词是任何中文自然语言处理系统都难以回避的第一道基本“工序”,其作用是怎么估计都不会过分。只有逾越这个障碍,中文处理系统才称得上初步打上了“智能”的印记,构建于词平面之上的各种后续语言分析手段才有展示身手的舞台。否则,系统便只能被束缚在字平面上,成不了太大气候。具体来说,自动分词在很多现实应用领域(中文文本的自动检索、过滤、分类及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语语音识别的后处理,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁体转换等)中都扮演着极为重要的角色(Wu Z.M.and Tseng G.1993;Wu Z. M.  andTseng G.1995; Nie J.Y.and Brisebois M.et al.1996;Sun M. S. andLin F.Z.,et al.1996)。我们举两个例子直观说明一下。
[文本检索]
设文本A含句子(1a)而文本B含句子(1b):
(1)a.和服│务│于三日后裁制完毕,并呈送将军府中。
   b.王府饭店的设施│和│服务│是一流的。
显然,文本A讲的是日本“和服”,文本B则与酒店的“服务”有关,两者风马牛不相干。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。
[文语转换]
注意句子(2a)、(2b)中的“查金泰”:
(2)a.他们是来│查│金泰│撞人那件事的。
   b.行侠仗义的│查金泰│远近闻名。
句子(2a)中“查”为动词,应读cha,句子(2b)中则为姓氏,应读zha。
第二种质疑直指自动分词的可能性问题。虽然迄今为止我们尚不能下一个完全肯定的结论,但经过圈内学者十几年不懈的探索,这个答案的轮廓还是大体凸显出来了。毕竟词平面上的研究与句法平面和语义平面相比照,本身难度要小得多,并且无论是在计算语言学方面还是在普通语言学方面,所取得的成果也要成熟、扎实得多。现有的工作积累已经达到了可以厚积薄发的程度。如果说面向非受限文本的汉语句法、语义自动分析还是可望而不可即的话,那么,面对相同对象的汉语自动分词,则距凯歌初奏只有几步之遥了(当然即使达到了那个目标,也还不是功德圆满)。Sproat R. and Shih C.L.,et al.(1996)及Sun M. S.and Shen D.Y.,et al.(1997 )的汉语自动分词原型系统已初具处理非受限文本所需的种种功能,他们沿着正确方向跨了一大步。
本文的重点是第2节,将集中讨论汉语自动分词中的基本问题, 并扼要评介十几年来产生的各种方法(文后的参考文献基本囊括了这一领域比较有代表性的论文)。第3 节则就今后的研究要点发表一些个人意见。
    2.汉语自动分词中的基本问题和主要解决方法
  2.1切分歧义及其处理方法
2.1.1切分歧义的基本类型
切分歧义是汉语自动分词研究中的一个“拦路虎”。梁南元(1987)最早对这个现象进行了比较系统的考察。他定义了两种基本的切分歧义类型:
定义1 汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。
[例]交集型切分歧义:“结合成”
(3)a.结合│成
   b.结│合成
其中A=“结”,J=“合”,B=“成”。
定义2 汉字串AB被称作多义组合型切分歧义,如果满足A、B、 AB同时为词。
[例]多义组合型切分歧义:“起身”
(4)a.他站│起│身│来。
   b.他明天│起身│去北京。
对交集型切分歧义,他还定义了链长:
定义3  一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。
如,交集型切分歧义“结合成分子”、“结合”、“合成”、“成分”、“分子”均成词,交集串的集合为{“合”,“成”,“分”},链长为3。
这些定义所涉及的几个概念,基本刻画了汉语切分歧义的结构特点,因而一直沿用下来。
梁南元(1987)对一个48,092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个,多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12∶1。
有意思的是,刘挺、王开铸(1998)的调查却显示了与梁南元截然相反的结果:中文文本中交集型切分歧义与多义组合型切分歧义的出现比例约为1∶22。造成这种情形的原因在于,定义2有疏漏。Sun M. S.and Benjamin K.T.(1995)猜测, 加上一条限制才真正反映了梁的本意:
定义2'汉字串AB被称作多义组合型切分歧义,如果满足(1)A、 B、AB同时为词;(2)中文文本中至少存在一个前后语境C,在C 的约束下,A、B在语法和语义上都成立。
例如,汉字串“平淡”符合定义2,但不符合定义2' (因为“平│淡”在文本中不可能成立)。刘、王将“平淡”计入了多义组合型切分歧义,梁并未计入。由于符合定义2 的汉字串数量远远大于符合定义2'的汉字串数量,出现“乾坤颠倒”也就不足为怪了。
仔细分析一下,定义1和定义2都是完全从机器角度加以形式定义的,定义2'则增加了人的判断。孙茂松、黄昌宁等(1997)认为, 定义2中给出的名称“多义组合型切分歧义”是不太科学的(实际上,某些交集型切分歧义也是多义组合的),易引起混淆,与“交集型”这个纯形式的名称相呼应,称作“包孕型”或者“覆盖型”可能更恰当。
董振东(1997)采用了另外一套名称:称交集型切分歧义为“偶发歧义”,称多义组合型切分歧义为“固有歧义”。“两者的区别在于:造成前者歧义的前后语境是非常个性化的、偶然的、难以预测的”,“而后者是可以预测的”。这个表述相当深刻地点出了两类歧义的性质,耐人寻味。但名称的准确性仍有可斟酌之处。



        视角  真歧义类       伪歧义类
交集型切分歧义 定义       定义1
        性质      偶发歧义
        数量  少量         大量
        例子  地面积,和平等,的确定 和软件,在建设,部门对
覆盖型切分歧义 定义  定义2'        定义2扣除定义2'的外延
        性质  固有歧义       偶发歧义
        数量  少量         大量
        例子  起身,把手,一行,三角 平淡,高度,词条,结论



    表1 切分歧义类型表
孙茂松、左正平(1998)指出,切分歧义应进一步区别“真切分歧义”和“伪切分歧义”。譬如:同属交集型,“地面积”为真歧义(“这几块│地│面积│还真不小”“地面│积│了厚厚的雪”),“和软件”则为伪歧义(虽然存在两种不同的切分形式“和软│件”和“和│软件”,但在真实文本中,无一例外地应被切分为“和│软件”);同属覆盖型,“起身”为真歧义,“平淡”则为伪歧义。
归纳以上论述,本文整理出一张切分歧义类型表(见表1), 希望对澄清概念上流传已久的混乱有所帮助。
关于切分歧义,还有两点基本观察:
1)根据孙茂松、左正平(1998)对一个1亿字语料库的穷尽式统计,交集型切分歧义长度变化范围为3~14 个字(“提高人民群众生活水平息息相关”),交集串长度变化范围为1~3个字(“如箭在弦上”),链长变化范围为1~9个字(“中国人民生活水平和美化”);
2) 交集型和覆盖型常常会相互纠缠在一起,这就更增加了变数。如图1中的“提高人民生活水平”共可衍生出19 种可能的形式切分(弧线表示可成词)。
附图

图1 若干基本类型的混合
2.1.2 切分歧义的检测与消解
切分歧义处理包括两部分内容:(1)切分歧义的检测;(2)切分歧义的消解。这两部分在逻辑关系上可分成两个相对独立的步骤。
首先谈谈切分歧义的检测问题。“最大匹配法”(精确的说法应该叫“最长词优先匹配法”)是最早出现、同时也是最基本的汉语自动分词方法,1963年就在《文字改革》杂志上被介绍过(刘涌泉1988)。刘源、梁南元(1986)首次将这个方法大规模应用到汉语自动分词系统中。依扫描句子的方向,又分正向最大匹配MM(从左向右)和逆向最大匹配RMM(从右向左)两种。 最大匹配法实际上将切分歧义检测与消解这两个过程合二为一,对输入句子给出唯一的切分可能性,并以之为解。据梁南元(1987)的实验结果,在词典完备、没有任何其它知识的条件下,最大匹配法的错误切分率为1次/169字~1次/245字,并且具有简单、快速的优点。Guo J.(1997)更对最大匹配法的工作原理作了严格的形式解释。此外,揭春雨、刘源等(1989)比较完整地分析了最大匹配法的结构及其时间效率。
从最大匹配法出发导出了“双向最大匹配法”,即MM+ RMM。SunM.S. and Benjamin K.T.(1995)注意到:汉语文本中90.0%左右的句子,MM和RMM的切分完全重合且正确,9.0%左右的句子MM和RMM 切分不同,但其中必有一个是正确的(歧义检测成功),只有不到1.0 %的句子,或者MM和RMM的切分虽重合却是错的,或者MM和RMM切分不同但两个都不对(歧义检测失败)。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。
显然,双向最大匹配法存在着切分歧义检测盲区。针对切分歧义检测,另外两个有价值的工作是,王晓龙、王开铸等(1989)的“最少分词法”(歧义检测能力较双向最大匹配法要强些,产生的可能切分个数仅略有增加)和马晏(1996)的“全切分法”(穷举所有可能切分,实现了无盲区的切分歧义检测,但代价是导致大量的切分“垃圾”)。这个问题直到今天也没有完全解决——如果把双向最大匹配法视作一个极端(最简单)而全切分法视作另一个极端(最繁杂)的话,我们的目标应该是:在这两极之间寻找一个“删繁就简”的折衷方案,既(几乎)排除了检测盲区,又抑制了可能切分个数的无理膨胀。
接下来讨论切分歧义的消解问题。十几年来,研究人员几乎调动了人工智能领域所有“时髦”的计算手段来对付切分歧义,堪称“八仙过海,各显神通”。典型的手段包括:“松弛法”(Fan C.K. and Tsai W. H. 1988),“扩充转移网络”(黄祥喜1989), “短语结构文法”(梁南元1990;姚天顺、张桂平等1990;Yeh C.L. and Lee H. J. 1991;韩世欣、王开铸1992),“专家系统”(徐辉、 何克抗等1991),“神经网络”(徐秉铮、詹剑等1993 ), “有限状态自动机”(Sproat R. and Shih C.L., et al. 1996),“隐Markov 模型”(LaiB.Y. and Sun M.S., et al. 1997;沈达阳、孙茂松等1997a; 孙茂松、左正平等1999a),“Brill式转换法”(Palmer D.D.1997)等。 这些新的探索体现了切分歧义消解计算的不同侧面,在一定范围内取得了各自的效果,但从总体上看,还都嫌粗糙;或者虽然研究比较充分,但模型本身的计算能力偏弱;或者仅仅搭起了一个框架,浅尝辄止;或者实验规模太小,说服力不足。
通过不断的实践,人们越来越深刻地认识到,如果没有足够的语言知识作为支撑,再先进的计算手段也只能是“银样蜡枪头——中看不中用”。切分歧义消解经历了一个由浅及深、由简单到复杂的语言知识利用的演变过程:
1 )一些系统(尤其是早期系统)主要利用词频以及语素(自由抑或约束)、切分歧义表层结构等简单信息(Fan C.K. and Tsai W. H.1988;李国臣、刘开瑛等1988;王永成、苏海菊等1990;Chen K. J.and Liu S.H. 1992;马晏1996)。
2)Sun M.S. and Lai B.Y., et al. (1992) 揭示了音节信息在自动分词中的作用。
3)何克抗,徐辉等(1991)断言,95.0 %左右的切分歧义可以借重句法以下的知识解决,只有5.0%必须诉诸语义和语用知识。 基于规则的几个分词系统(黄祥喜1989;梁南元1990;姚天顺、张桂平等1990;Yeh C.L. and Lee H.J.1991;韩世欣、王开铸1992;徐辉、 何克抗等1991)都自觉或不自觉地受到这个结论的支配,切分歧义消解主要诉诸词法与句法规则。存在的缺陷是,规则集由人凭主观编制而成,会受到系统性、有效性、一致性、可维护性等“天然”问题困扰。
4)为克服人工句法规则集的弊端, 一些研究人员开始尝试另一种途径一句法统计。Lai B.Y. and Sun M.S., et al.(1992; 1997) 、Chang C.H. and Chen C.D.(1993)、白拴虎(1995)等将自动分词和基于Markov链的词性自动标注技术结合起来,利用从人工标注语料库中提取出的词性二元统计规律来消解切分歧义(词性标注对分词有反馈作用,两者并行)。初步实验(Lai B.Y.and Sun M.S., et al.1997)表明,同“先做最大匹配分词,再作词性自动标注”(词性标注对分词无反馈作用,两者串行)相比,这种做法的分词精度和词性标注精度分别提高了1.3%和1.4%。
(5)他俩儿谈恋爱是从头年元月开始的。
切分a.… 是 │ 从头 │  年  │ 元月 │ …
    动词   副词  时间量词  时间词
切分b.… 是 │ 从 │  头年  │ 元月 │ …
    动词   介词   时间词   时间词
虽然“从头”、“年”的词频之积大于“从”、“头年”的词频之积,但词性序列“动词+副词+时间量词+时间词”的概率远小于“动词+介词+时间词+时间词”的概率,所以选择切分b作为结果。
5)Wu A.D. and Jiang Z.X.(1998)走得更远。他们相信, 多数情况下,切分歧义可以在输入句子的局部范围内得到妥善处理,但有些比较复杂的切分歧义,必须在句中更大的范围内才能解决。当遇到这种情况时,他们的系统将对句子做完整的句法分析,如果分析失败,则拒绝相应的切分:
(6)在这些企业中国有企业有十个。
切分a.在│这些│企业│中│国有│企业│有│十│个│。
切分b.在│这些│企业│中国│有│企业│有│十│个│。
切分b得不到可信的句法树,因而被拒绝。
当然,分析的层次越深,机器对知识库质量、规模等的依赖性就越强,所需要的时间、空间代价也就越大(况且面向真实文本的汉语句法分析器在可预期的将来几乎没有实现的可能,这也是应予考虑的因素)。有时不免使人产生一种陷入因果循环般的困惑:消解切分歧义这一相对“简单”的任务似乎不得不倚仗比分词本身困难得多的句法分析才得以完成。这个“悖论”里面其实蕴涵着深刻的“潜台词”,对中文自然语言处理系统的设计很有启发,囿于篇幅,这里就不展开了。
另一个值得一提的工作是,孙茂松、左正平等(1999b)发现, 从一个1亿字真实汉语语料库中抽取出的前4,619 个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20 %(它们对另一个完全独立的语料库的覆盖率为50.85%, 说明高频交集型切分的分布相对不同的领域是比较稳定的),其中4,279个属伪歧义(如“和软件”、“充分发挥”、“情不自禁地”),覆盖率高达53.35%。 鉴于伪歧义的消解与上下文无关,于是他们提出了一个简单却很有效的策略:对伪歧义型高频交集型歧义切分,可以把它们的正确(唯一)切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。本质上,这是一个基于记忆的模型。
  2.2未登录词及其处理
未登录词大致包含两大类:1)新涌现的通用词或专业术语等;2)专有名词,如中国人名、外国译名、地名、机构名(泛指机关、团体和其它企事业单位)等。前一种未登录词理论上是可预期的,能够人工预先添加到词表中(但这也只是理想状态,在真实环境下并不易做到);后一种未登录词则完全不可预期,无论词表多么庞大,也无法囊括。
孙茂松、邹嘉彦(1995)指出,真实文本中(即便是大众通用领域),未登录词对分词精度的影响超过了歧义切分。未登录词处理在实用型分词系统中占的份量举足轻重。
对第一种未登录词的处理,一般是在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表(无监督的机器学习策略),再人工筛选出其中的新词并补充到词表中。鉴于经过精加工的千万字、甚至亿字级的汉语分词语料库目前还是水月镜花,所以这个方向上现有的研究无一不以从极大规模生语料库中提炼出的n元汉字串之分布(n≥2)为基础。Sproat R. and Shih C.L. (1993) 借用信息论中的“互信息”定量描述任意两个汉字之间的结合力。Sun M.S. and Shen D.Y.,et al. (1998)沿这个思路前进了一步,提出了汉字间t- 测试差的概念作为互信息的有益补充。黄萱菁、吴立德等(1996)则引入经典统计论中的“四分联立表”及检验联立表独立性的皮尔逊x[2]-统计量,对长度分别为2字、3字和4字的任意汉字串做内部关联性分析, 继而获得候选词表。Nie J.Y. and Jin W.Y., et al.(1994) , 刘挺、 吴岩等(1998)的工作仅利用了相对简单的字串频信息。这里提到的几个统计量(互信息、t-测试差、x[2]-统计量、字串频)都是依赖于极大规模语料库的,孙茂松、邹嘉彦(1995)故而称之为全局统计量。
处理第二种未登录词的做法通常是:首先依据从各类专有名词库中总结出的统计知识(如姓氏用字及其频度)和人工归纳出的专有名词的某些结构规则,在输入句子中猜测可能成为专有名词的汉字串并给出其置信度,之后利用对该类专有名词有标识意义的紧邻上下文信息(如称谓),以及全局统计量和局部统计量(参见下文),进行进一步的鉴定。已有的工作涉及了四种常见的专有名词:中国人名的识别(张俊盛、陈舜德等1992;宋柔、朱宏等1993;孙茂松、黄昌宁等1995)、外国译名的识别(孙茂松、张维杰1993)、 中国地名的识别(沈达阳、 孙茂松1995)及机构名的识别(Chen H.H. and Lee J.C. 1994;张小衡、 王玲玲1997)。从各家报告的实验结果来看,外国译名的识别效果最好,中国人名次之,中国地名再次之,机构名最差。而任务本身的难度实质上也是循这个顺序由小增大。
沈达阳、孙茂松等(1997b )特别强调了局部统计量在未登录词处理中的价值。局部统计量是相对全局统计量而言的,是指从当前文章得到且其有效范围一般仅限于该文章的统计量(通常为字串频)。孙茂松、邹嘉彦(1995)通过下例演示了局部统计量的功效:
(7)河南会员冯俊发愿无偿赠送百日红1000株。
切分a.河南│会员│冯俊发│愿│无偿│赠送│百日红│1000│株│。
切分b.河南│会员│冯俊│发愿│无偿│赠送│百日红│1000│株│。
孤立地看句子(7), 即使进行句法甚至语义分析也不能判断到底是切分a还是切分b(两者都具合理性)。只有跳出句子界限的束缚,在比句子更大的单位——篇章内才能定夺。譬如,若下文出现“冯俊发”如何如何,则取切分a;出现“冯俊”如何如何,则取切分b。显然,局部统计量与心理学中的“短时记忆”机制或计算机技术中的“缓冲区”机制是“心有灵犀一点通”的。
一般地,未登录词的介入会引起新的切分歧义,从而使分词系统所面临的形势更加复杂化。Sun M.S. and Shen D.Y., et al. (1997) 将切分歧义明确地细分为:1)普通词与普通词之间的切分歧义(第2.1节);2)普通词与未登录词之间的切分歧义;3)未登录词与未登录词之间的切分歧义。
观察句子(8):
(8)王林江爱踢足球。
中国人名识别模块猜出的候选者为“王林”、“王林江”、“林江”、“林江爱”、“江爱”,中国地名识别模块猜出的候选者为“林江”。其中中国人名“王林”与“王林江”、“王林”与“林江”、“王林”与“林江爱”、“王林江”与“林江”、“王林江”与“林江爱”、“王林江”与“江爱”、“林江”与“林江爱”、“林江”与“江爱”、“林江爱”与“江爱”之间以及中国人名“林江”与中国地名“林江”之间产生了未登录词与未登录词之间的切分歧义,普通词“爱”与“江爱”、“林江爱”之间则产生了普通词与未登录词之间的切分歧义。
必须说明,目前关于未登录词处理的研究,总的来说还是比较初步,在方法上特别是在局部统计量的计算模型上还要下大气力。这里不加说明地列出两组例子,读者不妨仔细体会个中滋味:
附图

  2.3 语言资源建设
一个好的自动分词系统离不开必要的语言资源的支持。涉及到的最主要的资源有三个:通用词表、经过分词和词性标注的语料库以及极大规模生语料库。一方面,它们为开采分词系统所需要的各类知识提供了“矿藏”丰富的宝山(如:切分歧义的静态分布与采用什么样的词表有关,切分歧义的动态分布及其句法消解模式,乃至隐Markov模型的统计参数,都可从分词和词性标注的语料库中习得,全局统计量则可由极大规模生语料库自动转化而来);另一方面,分词和词性标注的语料库又可作为测试材料对自动分词系统的性能进行定量评估。因此,语言资源的构造同样是自动分词研究不可或缺的一环。
这个环节上面临的主要困难其实源自汉语语言学研究中悬而未决的一些“经典”问题,如词与语素及短语的界限、词类划分体系及词的具体归类等等。受文章长度的制约,不打算多谈了。这里仅想对第一个问题(其实就是所谓的分词规范)简单讲几句。分词规范直接影响到词表和分词语料库的质量,虽然已经有了国家标准(国家技术监督局1993;刘源等1994),有的单位也制定了自己的规范(黄居仁、陈克健等1997),但这些规范的可操作性都不太强(如国家标准中多次出现的关于“什么是词”的表述:“结合紧密、使用稳定”,就无法操作),很难据之构造出一致性好的词表和分词语料库来(孙茂松1999)。针对这一点,梁南元、刘源等(1991)和孙茂松、张磊(1997)提出了“人机结合、定性与定量并举”的解决思路,并进行了一定规模的实验,但这个思路是否真的可操作,尚言之过早。
顺带提一下,在这个环节上,语言学是大有用武之地的,计算语言学正在以一种迫切、坦诚的心情张开双臂期待着与语言学的拥抱。反过来,语言计算的性质(系统必须覆盖拟处理的一切语言现象)也会逼迫语言学更多地以全面、系统的观点解释、分析语言,从中升华出来的理论可能更贴近语言的真实面貌,更经得起推敲。
    3. 今后的研究要点
1995年12月,国家科委组织了863智能机专题自动分词评测, 国内有几个系统参加。开放测试条件下的评测结果是:分词精度最高为89.4%;交集型切分歧义处理的正确率最高为78.0%,覆盖型切分歧义处理的正确率最高为59.0%;而未登录词识别的正确率,人名最高为58.0%,地名最高为65.0%(刘开瑛1997)。1998年3月, 国家科委又搞了第二次评测,结果与第一次差不多。这意味着,即使是对汉语分析最低级、最简单的任务——自动分词,距真正意义的实用还有距离,我们还须付出艰苦、细致的努力。
这个不容乐观的现状并不影响我们在第1 节中对汉语自动分词的可行性做出比较乐观的估计,因为虽然有待完成的工程量还很大,但在任务难度的性质上,自动分词毕竟不属于“挟泰山以超北海”——“非不为也,乃不能也”一类。那么,今后的研究应着重在哪几点上“有所为”,才能有助于达至我们的理想境界呢?结合自己的研究经验,笔者认为大概要抓以下一些工作:1)尽快建立一个广为接受的、 高质量的通用词表。这是保证其它一切自动分词研究是否扎实、可靠的先决条件; 2)建立一套为学界同仁认同并遵守的汉语自动分词规范和词性标注规范,研制百万字级的经分词、词性标注的平衡语料库以及千万字级的甚至亿字级经分词的通用语料库。各家的工作成果应尽量共享,避免简单重复;3)在通用词表及极大规模语料库的支持下,系统地发现那些频度高、稳定性好(指与领域基本无关)的切分歧义(或可称为通用切分歧义)并有针对性地给出解决办法;4 )对覆盖型切分歧义的研究目前十分薄弱,统计手段似乎鞭长莫及,宜探讨新的对策;5 )使已有的各种专有名词识别机制更加精细化,并增设日本人名、少数民族人名识别机制;6)研究各种专有名词之间的冲突处理机制;7)继续发掘全局统计量和局部统计量的潜力,同时注意克服其副作用;8)研究融合词法、 句法甚至部分语义信息,集经验主义(统计形式)与理性主义(规则形式)于一体的分词算法;9 )以已有工作为基础(曹焕光、 郑家恒1992 ),构造更加合理的自动分词评测模型,争取评测工作的权威化、公开化、持续化;10)在机器学习理论的指导下,研究从线性或半结构化语言单位序列中获取结构化语言知识的途径,以及有监督学习和无监督学习的互补互动策略,最大限度地提高自动分词系统对复杂开放环境的自适应能力。
【参考文献】
Chang, C.H. and Chen C.D. 1993. A study on integratingChinese  word  segmentation and part- of- speech tagging.Communications of COLIPS 3.2.69—77.
Chen, H.H. and Lee J. C.  1994.  The identification oforganization names in Chinese texts. Communications of COLIPS4.2.131—142.
Chen, K. J. and Liu S.H. 1992.  Word identification for Mandarin  Chinese sentences.  Proceedings of the  14th International Conference on Computational Linguistics,  101—107.Nantes.
Fan,  C. K.  and Tsai W. H.  1988.  Automatic wordidentification in Chinese sentences  by  the  relaxationtechnique.  Computer Processing of Chinese and  OrientalLanguages 4.1.33—56.
Guo, J. 1997. Critical tokenization and its properties. Computational Linguistics 23.4.569—59.
Lai,B.Y.,Sun M.S.,et al.1992.Tagging- based first  orderMarkov model approach to Chinese word identification.
   Proceedings of 1992 International Conference onComputer Processing of Chinese and Oriental Languages, Florida.
----.1997.Chinese word segmentation and part- of- speechtagging in one step.Proceedings of International Conference:1997 Research on Computational Linguistics,229—236.Taipei.
Nie,J.Y. , Brisebois M. , et al. 1996. On Chinese wordsegmentation and word- based text retrieval. Proceedings ofInternational Conference on Chinese Computing 1996, 405 —412.Singapore.
Nie,J.Y.,Jin W.Y.,et al.1994.A hybrid approach to unknownword detection and segmentation of Chinese.
 Proceedings of International Conference on  Chinese Computing 1994,405—412.Singapore.
Palmer,D.D.1997.A trainable rule- based Algorithm for word segmentation.Proceedings of the 35th Annual Meeting of ACL and 8th Conference of the European Chapter of ACL.Madrid.
Sproat,R.and Shih C. L. 1993. A statistical method forfinding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages 4.4.336—249.
Sproat, R.,Shih C.L.,et al.1996.A stochastic finite-stateword segmentation  algorithm  for  Chinese. ComputationalLinguistics 22.3.377—404.
Sun,M.S.and Benjamin K. T. 1995. Ambiguity resolution inChinese word segmentation. Proceedings of the 10th  AsiaConference on Language,Information and Computation, 121 —126.Hong Kong.
Sun, M.S., Lai B.Y. ,  et al.  1992.  Some issues onstatistical  approach to  Chinese  word  identification.Proceedings of the 3rd International Conference on ChineseInformation Processing, 246—253. Beijing.
Sun, M.S., Lin F.Z., et al. 1996.  Linguistic processingfor Chinese OCR & TTS. Proceedings of the  2nd InternationalConference of Virtual Systems and Multimedia,27—42.Gifu.
Sun,M.S.,Shen D.Y.,et al.1997.Cseg & Tag 1.0: A practicalword segmenter and POS tagger for Chinese texts.  Proceedingsof the 5th Conference on Applied Natural Language Processing,119—126.Washington D.C.
----.1998.Chinese word segmentation without using lexiconand hand-crafted training data.Proceedings of the 36th AnnualMeeting of Association of Computational Linguistics and the17th International Conference on Computational Linguistics,1265—1271.Montreal.
Wu,A.D.and Jiang Z.X.1998. Word segmentation in sentenceanalysis.Proceedings of the 1998 International Conference onChinese Information Processing,169—180.Beijing.
Wu,Z.M.and Tseng G. 1993. Chinese text segmentation fortext retrieval: achievements and problems. Journal of theAmerican Society for Information Science 44.9.532—542.
----.1995.ACTS: An automatic Chinese text segmentationsystem for full text retrieval. Journal of the AmericanSociety for Information Science 46.1.83—96.
Yeh,C.L.and Lee H.J.1991.Rule- based word identificationfor Mandarin Chinese sentences — a unification  approach.Computer Processing of Chinese and Oriental Languages 5.2. 97—118.
白拴虎,1995,汉语词切分及词性标注一体化方法。《计算语言学进展与应用》北京:清华大学出版社,56—61页。
曹焕光、郑家恒,1992,自动分词软件质量的评价模型。《中文信息学报》第4期,57—61页。
董振东, 1997,汉语分词研究漫谈。 《语言文字应用》第1 期,107—112页。
国家技术监督局,1993,中华人民共和国国家标准GB/T 13715 —92。《信息处理用现代汉语分词规范》北京:中国标准出版社。
黄居仁、陈克健等,1997,“资讯处理用中文分词规范”设计理念及规范内容。《语言文字应用》第1期,92—100页。
黄萱菁、吴立德等,1996,基于机器学习的无需人工编制词典的切词系统。《模式识别与人工智能》第4期,297—303页。
黄祥喜,1989,书面汉语自动分词的“生成—测试”方法。《中文信息学报》第4期,42—49页。
韩世欣、王开铸,1992,基于短语结构文法的分词研究。《中文信息学报》第3期,48—53页。
何克抗、徐辉等,1991,书面汉语自动分词专家系统设计原理。《中文信息学报》第2期,1—14页。
揭春雨、刘源等,1989,论汉语自动分词方法。《中文信息学报》第1期,1—9页。
李国臣、刘开瑛等,1988,汉语自动分词及歧义组合结构的处理。《中文信息学报》第3期,27—33页。
梁南元,1987,书面汉语自动分词系统——CDWS。《中文信息学报》第2期,44—52页。
——,1990,汉语计算机自动分词知识。《中文信息学报》第2 期,29—33页。
梁南元、刘源等,1991,制订《信息处理用现代汉语常用词词表》的原则与问题讨论。《中文信息学报》第3期,26—37页。
刘开瑛,1997,现代汉语自动分词评测技术研究。《语言文字应用》第1期,101—106页。
刘挺、吴岩等,1998,串频统计和词匹配相结合的汉语自动分词系统。《中文信息学报》第1期,17—25页。
刘挺、王开铸,1998,关于歧义字段切分的思考与实验。《中文信息学报》第2期,63—64页。
刘涌泉,1988,再谈词的问题。《中文信息学报》第2期,47 —50页。
刘源、梁南元,1986,汉语处理的基础工程——现代汉语词频统计。《中文信息学报》第1期,17—25页。
刘源等,1994,《信息处理用现代汉语分词规范及自动分词方法》北京:清华大学出版社及广西科学技术出版社。
马晏,1996,基于评价的汉语自动分词系统的研究与实现。《语言信息处理专论》北京:清华大学出版社及广西科学技术出版社,2 —36页。
沈达阳、孙茂松,1995,中国地名的自动辨识。《计算语言学进展与应用》北京:清华大学出版社,68—74页。
沈达阳、孙茂松等,1997a, 汉语分词系统中的信息集成和最佳路径搜索方法。《中文信息学报》第2期,34—47页。
——, 1997b,局部统计在汉语未登录词辨识中应用和实现方法。《语言工程》北京:清华大学出版社,127—132页。
宋柔、朱宏等,1993,基于语料库和规则库的人名识别法。《计算语言学研究与应用》北京:北京语言学院出版社,150—154页。
孙茂松,1999,谈谈汉语分词语料库的一致性问题。《语言文字应用》第2期,87—90页。
孙茂松、黄昌宁等,1995,中文姓名的自动辨识。《中文信息学报》第2期,16—27页。
——,1997,利用汉字二元语法关系解决汉语自动分词中的交集型歧义。《计算机研究与发展》第5期,332—339页。
孙茂松、张维杰,1993,英语姓名译名的自动识别。《计算语言学研究与应用》,北京:北京语言学院出版社,144—149页。
孙茂松、张磊,1997,人机共存,质量合一——谈谈制定信息处理用汉语词表的策略。《语言文字应用》第1期,79—86页。
孙茂松、邹嘉彦,1995,汉语自动分词研究中的若干理论问题。《语言文字应用》第4期,40—46页。
孙茂松、左正平,1998,汉语真实文本中的交集型切分歧义。《汉语计量与计算研究》香港:香港城市大学出版社,323—338页。
——,1999a,消解中文三字长交集型分词歧义的算法。 《清华大学学报》第5期,101—103页。
孙茂松、左正平等,1999b, 高频最大交集型歧义切分字段在汉语自动分词中的作用。《中文信息学报》第1期,27—34页。
王晓龙、王开铸等,1989,最少分词问题及其解法。《科学通报》第13期,1030—1032页。
王永成、苏海菊等,1990,中文词的自动处理。《中文信息学报》第4期,1—10页。
姚天顺、张桂平等,1990,基于规则的汉语自动分词系统。《中文信息学报》第1期,37—43页。
徐秉铮、詹剑等,1993,基于神经网络的分词方法。《中文信息学报》第2期,36—44页。
徐辉、何克抗等,1991,书面汉语自动分词专家系统的实现。《中文信息学报》第3期,38—47页。
张俊盛、陈舜德等,1992,多语料库作法之中文姓名辨识。《中文信息学报》第3期,7—15页。
张小衡、王玲玲,1997,中文机构名称的识别与分析。《中文信息学报》第4期,21—32页。



<< Home

This page is powered by Blogger. Isn't yours?