刘成林
“科研院所应该集中力量从事前瞻性的基础研究和应用基础研究,与公司的技术研发形成差异性互补。”刘成林并不介意与公司分享自己的科研成果,他深知,如果自己的研究企业也能做,那么科研就丧失了意义。
■本报记者 沈春蕾
一段字迹潦草的手写文档,通过文档脱机识别指令,转瞬间就变为字迹工整的印刷体文档。
在中国科学院自动化研究所研究员刘成林的办公室里,《中国科学报》记者有幸目睹了脱机手写文档识别的演示,从文本行的分割,到文本的转换,看似简单的两个指令,却凝聚着刘成林二十多年来的辛勤付出,他像一位导师教计算机识别文档。
专攻文档分析
智能手机的手写输入就是一类简单的文字识别,应用模式基本上是单字识别。刘成林告诉记者:“单个字符的识别技术目前已经相对成熟,因此我专注的研究领域是整个文档的识别,学术上称其为文档分析。”
据刘成林介绍,文档分析可以分为联机和脱机两类。联机文档分析顾名思义就是通过实时采集书写的轨迹,并进行识别生成电子文档,前面提到的智能手机的手写输入法就是联机文档分析的简单应用。
在联机手写文档分析领域,刘成林曾提出一种笔画分类方法和一种充分利用时域和空间域信息的文本行分割方法,从而实现了正确分割任意方向的文本行。他还指出,该领域当前的主要研究集中在整行文字的切分与识别。
在脱机手写文档分析领域,还存在着一些亟须解决的技术难题。比如,对过去书籍和文献(统称为历史文档)的分析。“历史文档主要以纸张的形式,数量巨大,阅读和检索相对困难,却有着大量的应用需求。”刘成林说,“相比联机文档分析,脱机文档分析技术难点之一是文字的切分,因为识别对象是一段或一行文字,不是单个存在的。”
通过这些年的攻关,刘成林课题组在无约束中文手写文档图像上取得了90%以上的文字切分和识别正确率。而在6年前,这类文档识别的字符正确率不到50%。当然,要实现手写文档识别技术的大规模应用,还需要进一步提高识别性能。
11月25日,自动化所收到美国电子电气工程师学会(IEEE)通知,经过严格评审,刘成林因在手写文档分析领域的杰出成就而当选会士(IEEE Fellow)。IEEE Fellow是该组织授予其会员的最高荣誉,每年当选人数不超过IEEE会员总人数的0.1%。
一颗坚持的心
从1992年来到自动化所攻读博士学位到如今,刘成林已是自动化所模式识别国家重点实验室的主任。“虽然这些年有过彷徨,但我的研究领域始终没有改变。”
早在上世纪90年代,国内就出现了多个从事文字识别和文档分析的科研单位和企业,并且一些科研成果和产品还颇受好评。刘成林很庆幸自己在那个时候有机会出国,“如果留下,也许我也会放弃文档分析的研究。”当年从事文档分析的科研人员有一些后来退出了这个领域,刘成林给出了自己的分析:“可能一些企业认为那时的文字识别技术和产品已经相对成熟,没有进一步研发的必要。这种误解导致文字识别研究的前景不被看好,也难以申请到科研经费。但对一个科学技术问题来说,真正解决问题需要至少几十年的时间。”
1996年到1999年,刘成林先后在韩国和日本从事博士后工作,并于1999年加入日立中央研究所(东京),成为文档分析领域的一名研究员。“在日立,我把自己的背景和公司的技术需求、积累与资源充分结合起来,在几年时间研制了很多种有效的算法。”
刘成林向记者举了一个例子,他将自己研制的文字识别算法,应用到日本的邮政分拣机,让机器通过对邮政地址的识别去分拣邮件,这样在很大程度上减少了人工,也让刘成林进一步认识到文档分析的应用价值。
虽然在国外的几年,刘成林学产生了很多文档分析的算法和应用成果,但2005年重新回到自动化所后,他却对自己即将开展的国内科研工作产生了困惑。
“研究所和企业从事研究的性质和目的不一样,而我之前在日本的研究主要为企业服务。回国后开始几年,我对文档分析研究的学术和应用前景还是没有十足的信心。”经过很长时间的考虑,刘成林还是想清楚了,文档分析技术有巨大的应用前景,目前应用不多是因为很多技术问题没有解决。因此,他把文档分析技术和模式识别基础理论研究结合起来,坚定了长期研究的决心和信心。
做前瞻性研究
在日本、韩国、美国等国家,公司的研发力量往往强于大学。刘成林告诉记者,日本并不鼓励大学教授开公司,一方面因为大学的研究偏向基础性,不适用于公司,另一方面担心产业技术研发会影响基础研究的深入。
“科研院所应该集中力量从事前瞻性的基础研究和应用基础研究,与公司的技术研发形成差异性互补。”刘成林并不介意与公司分享自己的科研成果,他深知,如果自己的研究企业也能做,那么科研就丧失了意义。“一项技术一旦到了应用阶段,自己与公司相比就没有了优势,但自己研制的算法被公司转化为产品是很有价值的。”
为此,刘成林明确了自己的研究重心,即在联机和脱机自由书写文字与文档识别及检索、场景图像和视频中的文本定位与识别、基于图的机器学习、基于判别学习的分类器设计与自适应等方面开展基本方法和关键技术研究,推进文档分析技术的发展和产业化应用。
通过率领科研人员和研究生刻苦攻关,目前刘成林团队研发的技术已在移动设备文字输入、金融票据处理、网络图片文字识别、视频文字识别等领域获得了成功应用。
提到现在主要从事的脱机文档分析和场景图像文档识别,刘成林表示,这些研究至少还需要5年的时间才能得到广泛应用。“我们研究不仅要面向学科前沿,还要面向国家重大需求。”
《中国科学报》 (2014-12-15 第7版 学人)