中文分词和词性标注：为拓展工业场景应用夯基—新闻

作者：郑金武来源：中国科学报发布时间：2020/7/9 23:10:31

选择字号：小中大

中文分词和词性标注：为拓展工业场景应用夯基

“部分居民生活水平”这样简单的中文短语，人类理解起来没有丝毫困难。但把这一短语交给机器，是理解成“部分/居民/生活/水平”，还是“部/分居/民生/活水/平”，却着实是个问题。

在7月5日-10日举行的自然语言处理（NLP）领域顶级学术会议 ACL 2020上，来自创新工场大湾区人工智能研究院的两篇入选论文，正是针对中文自然语言处理的类似问题，各自提出了“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”，将外部知识（信息）创造性融入分词及词性标注模型，有效剔除了分词“噪音”误导，大幅度提升了分词及词性标注效果。

“中文的分词和词性标注是自然语言处理的基本任务，对于后续的应用和任务处理非常重要。”两篇论文的作者之一、创新工场大湾区人工智能研究院执行院长宋彦告诉《中国科学报》，对于文本分类、情感分析、文本摘要、机器翻译等，分词和词性标注是不可或缺的基本“元件”。

记忆神经网络刷新中文分词新高度

宋彦介绍，在工业场景中，对中文的分词和词性标注有非常直接的诉求，但当前没有比较好的一体化解决方案，而且中文分词普遍存在歧义和未登录词的难题。

中文分词目的是在中文语句的字序列中插入分隔符，将其切分为词。例如，“我喜欢音乐”，在机器中将被切分为“我/喜欢/音乐”。

然而，中文语言因其特殊性，在分词时面临着两个主要难点。一是歧义问题，一是未登录词问题。

“由于中文存在大量歧义，一般的分词工具在切分句子时可能会出错。”宋彦说。例如机器对前文“部分居民生活水平”的理解；再如“他从小学电脑”，正确的分词是“他/从小/学/电脑”，但在机器里会划分出“小学”这种歧义词。

未登录词指的是不在词表，或者是模型在训练的过程中没有遇见过的词，例如经济、医疗、科技等领域的专业术语或者社交媒体上的新词，或者是人名。“这类问题在跨领域分词任务中尤其明显。”宋彦表示。

在论文中，宋彦等人提出了“基于键-值记忆神经网络的中文分词模型”。该模型利用“n元组”提供的每个字的构词能力，通过加（降）权重实现特定语境下的歧义消解，并通过非监督方法构建词表，实现对特定领域的未标注文本的利用，进而提升对未登录词的识别。

在“部分居民生活水平”这句话中，该模型通过神经网络，学习哪些词对于最后完整表达句意的帮助更大，进而分配不同的权重。像“部分”、“居民”、“生活”、“水平”这些词都会被突出，但“分居”、“民生”这些词会被降权处理，从而预测出正确的结果。

为了检验该模型的分词效果，论文进行了严格的标准实验和跨领域实验。实验结果显示，该模型在5个数据集上均达了最好的成绩。

“双通道注意力机制”有效剔除“噪音”误导

宋彦指出，中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中，给每一个词标注其所属的词类，例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。

在词性标注中，歧义仍然是个老大难的问题。在以往的标注工作中，使用外部自动工具获取句法知识是主流方法。在这种情况下，如果模型不能识别并正确处理带有“杂音”的句法知识，很可能会被不准确的句法知识误导，做出错误的预测。

针对这一问题，宋彦等人在论文中提出了一个“基于双通道注意力机制的分词及词性标注模型”。该模型将中文分词和词性标注视作联合任务，可一体化完成。

模型分别对自动获取的上下文特征和句法知识加权，预测每个字的分词和词性标签，不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权，从而识别特定语境下不同上下文特征和句法知识的贡献。

例如对“他马上功夫很好”这句话，该模型通过识别该句话的语境和上下文特征，对“马上”二字进行分开识别成“马/上”，而不是识别成“马上”。

“这样一来，那些不准确的、对模型预测贡献小的上下文特征和句法知识就能被识别出来，并被分配小的权重，从而避免模型被这些有‘噪音’的信息误导。”宋彦说。

该模型在5个数据集的表现也都超过前人的工作，得到了较好的效果。

推动中文分词和词性标注技术开源

据了解，中文分词在中国科研领域已经有几十年的历史。最初的中文分词是基于词典构建，词典的好坏会直接影响到最后分析的效果。如果某个新词在词典里没有，那么模型是死活都分不出来的。

“这意味着，词典和分词两件事情中间始终有一条鸿沟，尽管词典可以编撰得非常全面，但在分词的时候，因为每一句话都有上下文语境，往往会产生多种不同的切分方法，从而无法有效地在当前语境下对分词结构进行恰当的指导。”宋彦说。

从2003年开始，分词方法出现了新的突破。研究人员提出了打标签的方式，通过给每一个字打词首、词尾、词中的标签，不再需要构建词典，大幅度提升了未登录词的机器理解效果。

2014年左右，深度学习和神经网络开始被广泛应用到中文分词中，打标签的模型从之前的浅层学习变成了深度学习，但算法本质没有发生变化，所以提升作用并不太大。

近两年，学界开始研究怎么在打标签的过程中加入外部知识和信息。“我们的两篇文章就是沿着这个路径，用记忆神经网络的方式记录对分词结果有影响的n元组，并引入对词性标注有影响的句法知识，将分词结果和自动获得的知识衔接起来，既发挥了神经网络的优势，也把知识的优势用上，实现了分词技术上小而有效的改进和突破。”宋彦说。

宋彦表示，做此项研究的目的是主要为了拓展其工业场景的应用，正确的分词能够平衡应用开发的效率和性能，同时方便人工干预及（预）后处理。

而这也是创新工场人工智能工程院的努力方向之一。据悉，创新工场AI工程院成立于2016年，旨在衔接科技创新和行业赋能，做嫁接科研和产业应用的桥梁，为行业改造业务流程、提升业务效率。

AI工程院下设北京总部、南京研究院和大湾区研究院。在大湾区研究院，下设信息感知和理解实验室，专注于对自然语言处理（NLP）领域的研究。宋彦本人也有超过15年的NLP领域的科研经验。

目前，这两篇论文的分词和词性标注工具都已经开源，对应的代码和模型向公众开放，以方便学者提升相关领域科研效率和场景应用。

相关论文信息：https://www.aclweb.org/anthology/2020.acl-main.734/

https://www.aclweb.org/anthology/2020.acl-main.735/

编辑部推荐博文
科学网·问答 \| 基金申请如何凝练科学问题？祝贺！科学网2024年度十佳博文评选活动结果揭晓中国古代文明中的标准化（十八）：冶金教师的寒暑假可以做些什么？ NML卷期 \| 2025年第2期免费下载权威高效！Routledge 语言学期刊推荐更多>>