生命科学 医药健康 基础科学 工程技术 信息科学 资源环境 前沿交叉 政策管理
 
论文作者:孙栩等 期刊:《计算机科学技术学报》 发布时间:2008-8-6 14:23:22
汉语缩略语的自动处理技术
 
缩略语在自然语言中十分常见。人们在运用语言时,总是力求经济、简单。通过对词或多词缩略,较好地起到了精炼表达的效果。例如,由“奥林匹克运动会申办委员会”缩略为“奥申委”,压缩了3/4的汉字。
 
然而,缩略语的大量使用,形成了自然语言处理中未登录新词的主要词源,导致了中文信息处理在分词、词性标注、词义确定与歧义排除、命名实体识别和实体共指消解等诸多问题上的严重障碍;同时,由于原形式与缩略形式在表层上的不同,对信息检索、关键词抽取等应用也造成了影响。例如,以“欧洲经济与货币联盟”作为检索条目,对含有“欧盟”的文本可能会漏检,反之亦然。由此可见,缩略语处理是自然语言处理中一项重要的基础性工作。
 
缩略语处理包括多个方面,如,缩略语自动识别,缩略式与原形式关系的确定,缩略语歧义的消解等。北京大学信息科学技术学院计算语言学研究所的孙栩、王厚峰教授和王波于2008年7月发表于《计算机科学技术学报》(JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY)第4期:23(4)上的文章“Predicting Chinese Abbreviations from Definitions: An Empirical Learning Approach Using Support Vector Regression(缩略语预测:基于支持向量回归的统计学习方法)”报道了他们在汉语缩略语自动处理方面的最新研究成果。文章报道的内容是三位作者在缩略语识别和缩略语歧义消解等缩略语自动处理研究基础上的进一步深入,主要就缩略语自动预测进行了研究。
 
所谓缩略语预测,就是给定了一个完整的形式(如,欧洲经济与货币联盟),预测最可能的缩略语(如,欧盟)。文章提出了一个基于机器学习的缩略语预测方法,将预测看作为可信值估算和排序问题;以支持向量回归(SVR)作为估算器,得到候选缩略语和它们对应的SVR函数值,此值用于对候选缩略语排序,最后选择排序高的候选为可能的缩略语。
 
缩略语预测可以用于多个应用领域,特别在信息检索中。当加入缩略语作为关键词扩展查询时,可以大大降低漏检。作者曾在人民日报1个月的语料上,查询相关“欧盟”的文章,如果以“欧洲经济与货币联盟”作为检索词,则只能得到不到实际文章20%的检索结果,因为很多文章含有“欧盟”但不含“欧洲经济与货币联盟”。通过加入缩略语进行扩展后,则可以检索到与“欧盟”和“欧洲经济与货币联盟”相关的所有文章。(来源:人民网-科技频道)
 
(《计算机科学技术学报》(JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY),23(4): 602--611,Xu Sun,Bo Wang)
 
发E-mail给: 
    
| 打印 | 评论 | 论坛 | 博客 |
相关论文 一周论文排行

小字号

中字号

大字号

Baidu
map