作者:黄辛 来源:中国科学报 发布时间:2021/5/31 9:01:48
选择字号:
二十年磨一剑,营造3000年中国文字数字长城
华东师大用智能型数据库传承“冷门绝学”

华东师范大学中国文字研究与应用中心(以下简称文字中心)20年来坚持运用数字化、智能化手段开展“冷门绝学”专业的学科交叉研究,并致力于拓展该研究的国际合作协同创新。5月28日,该中心举行“华东师范大学‘冷门绝学’专业‘新文科’建设成果发布会”,推出包括智能型中国文字数字平台、冷门绝学专业树德育人数字化智能助学系统和冷门绝学专业“新文科”建设的国际化协同研究和世界话语体系等三个系列的成果。

这次教学中发挥大作用的各个数据库,就是文字中心近日研发成功的“智能型中国文字数字平台”数据库系列中几个种类。该“中国文字数字平台”以古文字及历代出土实物文字资料的数字化为目标,自上世纪90年代后期开始启动,其建设成果曾多次实现海内外首创性突破,如2003年,推出首个先秦古文字数据库的正式出版成果系列《商周金文数字化处理系统》和《战国楚文字数字化处理系统》;2019年正式发布古文字智能识别工具“商周金文智能镜”。在此基础上,2020年以来,文字中心又相继开发了多种出土文字智能图像识别系统,并完成图像识别工具与数据库的有效结合,创建了智能型古文字数字平台。

这一突破,对古文字图像识别而言,营造了最理想的“样本库”,为进一步研发和技术突破打造了孵化平台。出土古文字文字数据库消除了两个盲点:一是不识之字数据库检索查询盲点。去除了数据库使用者的专业知识门槛,大大提升了数据库的社会服务功能;二是图像载体材料的计算机自动识别盲点。初步实现数字平台中图片载体材料与字符集载体材料的自动数字关联,进而营造了古文字资料大数据生成和机器学习的环境,为各种研究专题的智能化手段介入创造了条件。

除了用图像识别技术将中国文字数字平台提升到“智能化”级别以外,该数字平台还具有如下创新功能。

首先是各断代各类型出土实物文字资料的全覆盖。目前某些海内外相关大学研究机构虽然也有此类网络数据库,但材料覆盖都止于某个别断代或材料类型。“智能型中国文字数字平台”所包含的文字材料覆盖了自殷商甲骨到明清文字整个汉字发展史的各种时段的各种类型;先秦部分,基本囊括目前已公布的资料;先秦以后汇集了各时段主要代表性材料。因此数字平台堪称电子版“字海”,可以提供覆盖整个汉字发展史的相关文字信息的定量性检索查询。

其次是全字符检索查询的突破。出土文字数据库建设面临字符集支持的困难:一是缺字,即存在大量集外字;二是有字不能用,9万多已编码汉字只有GBK的20902个可以用于数据库和网络。三是有字不好用, GBK的20902字中很多一字多码。目前网上的出土文字数据库普遍存在的集外字无法检索,显示 “开天窗”等问题 ,都是因为无法解决上述困难,做到全字符处理。

为应对上述难题,文字中心研发团队通过海量文献用字的逐一整理,研发了完整的出土实物文字字符集标准体系,具体包含:A.各类文字材料的楷定字、原形字、偏旁构件的有区别意义、能够精确概括实际用字的字符单位的确定;B.这些字符与标准字符集码位的唯一性对应;C.按字符集标准,通过造字生成集外字字体;D.覆盖数据库使用所有字符的有效输入检索手段。这样,就保证了数据库所用所有字符与标准码位的一字一码精确对应,保证了数据库各种资料都处于有效的数字化处理的范围内。由此,“中国文字智能检索数据库”也就成为唯一一种可全字符(集外与集内字;楷字与原形字;整字与偏旁)检索的出土文字数据库。

近年来,华东师范大学配合国家教育发展和文化建设战略,满足社会应用层次的各种需求,依托“中国出土文字数字平台”,创辟“强基计划智能助学系统”“汉字美育智能资源库”等以“树德育人”为目标专题数字系统。

同时,该校根据中国文字研究新文科建设实际需要,构建国际化的世界表意文字文化研究合作体系和中国文字文化话语有效传播体系。

版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
打印 发E-mail给:
Baidu
map