科学网—古籍数字化背后：谁为技术买单 -

作者：贾宇来源：光明日报发布时间：2011-7-18 13:26:24

选择字号：小中大

古籍数字化背后：谁为技术买单

【对话】

“每个项目就只是一个孤立的实验”

——对话国家古籍保护中心专家委员会委员、中国社科院研究员杨成凯

“古籍数字化遇到的第一个重要问题是怎样处理异体字”

记者：与普通印刷品数字化相比，对古籍进行数字化处理会遇到什么特殊问题？

杨成凯：古籍数字化遇到的第一个重要问题是怎样处理异体字。今天所谓的一个字，古书中往往有几个不同的写法，有所谓繁体字、古体字、通假字等，例如古书有时把“嫦娥”写成“常娥”，“然”写成“肰”，“法”写成“灋”，这里姑且统称为异体字。把几个异体字归为同一个字，可以叫做给字归“位”。

数字化的古籍资料库最大的优势是便于处理文字内容。在几千万乃至几亿汉字的古书资料中查找一个词语，人工翻阅很难胜任，可是数字化以后编成资料库交给电脑处理，检索结果立等可取。然而这时异体字的问题会跳出来作怪，我们必需把可以归并的异体字关联在一起，当作一个字位，否则一个字有几个异体就要检索几次，使用者不仅不胜其烦，而且还会产生检索结果的遗漏。这时哪些字形可以关联，哪些字形不能关联，就是颇费踌躇的事情。我曾建议异体字的关联应该给使用者一定的自由，以便按自己的需要对系统既有的关联方式作一些移易。

记者：这个问题确实很复杂。有没有一些现成的做法可供我们参考？

杨成凯：就以大型古籍资料库“文渊阁四库全书全文检索系统”为例吧。系统有繁简字关联、古今字关联、通假字关联等功能，如果开启繁简字关联功能，那么要它检索一个字时，无论给它的是简体还是繁体，它都会连繁带简一起检索出来，无须我们简体查一次，繁体查一次，十分方便。然而这个功能还不完善，有时给它繁体它给出的检索结果要多于简体，这时若以简体检索结果为据就将漏去一些资料。

异体字的归并和关联情况确实十分复杂，我们平常说的《花草粹编》这部书，文渊阁本有时写作“粹”，有时写作“稡”，“四库检索系统”中互不关联，如果我们从书名“花草粹编”查寻，将找不到这部书。

“投入跟产出不相应，影响建设古籍数字资料库热情”

记者：除了以上谈到的古籍数字化系统本身要解决的问题外，就我们采访的情况来看，不论是古籍数字化的研究机构还是生产企业也都面临很多现实问题，阻碍了它们内部的良性循环，有些问题甚至是致命的……

杨成凯：古籍数字化要解决的一个重要问题是版权的问题。书籍的数字化都有版权问题，但是对古籍而言，版权的归属和使用有特殊的困难。首先，要想编制多功能的数字化资料库，要对古书进行标点整理，经过标点整理的文本就涉及版权的确定。一部古书，张三出版了一个整理本，李四再出版整理本，二者有没有版权关系，这就是难以处理的问题。这个问题应该引起各方面的注意，认真研究。

其次，纸本古籍盗版较难，责任也比较容易认定。而数字化之后，资料库中的数据容易被窃取，甚至会被直接盗版，发现侵权和认定责任颇有困难。投资开发古籍数字资料库，就不能不考虑这个问题。“文渊阁四库全书全文检索系统”和“四部丛刊全文检索系统”之后，这样的大规模古籍资料库没有赓续面世，显然与此有关。

还有就是投入跟产出不相应，在很大程度上影响建设大型古籍数字资料库的热情。作为一个产业，怎样争取更多的文化投资，获得更多的回报，使古籍数字化兴旺地发展起来，这是当前需要考虑的问题。

记者：如果从整个社会角度来看古籍数字化，可以说，目前古籍数字化的研究机构和生产企业大都是各起炉灶，并处于自生自灭的状态。关于这一点您怎么看？

杨成凯：现在社会各界都有使用古籍数字资料库的需要，许多单位也在做古籍数字化工作。但是，正像你所说，古籍数字化的工作基本上是单干，各筹资金，各立项目，缺乏信息、技术、成果的共享，也就难以形成一个大规模的系统工程。没有大体统一的技术平台和设计思想，每个项目就只是一个孤立的实验，而不能相互结合构成一个可持续发展的完整的系统。

特别是，在各方面对古籍数字化的人力物力投入还很有限的情况下，怎样整合各方面的力量，用小作坊组成大生产，就显得尤为重要。因此，如果说以前所做的工作是各出机杼，通过实践做了许多探索，那么现在是不是在总结经验的基础上，要更多地关注指导思想和理论模型的研究，解决我们所遇到的困难。特别是，理论的研究、技术的发展和实用的需要等各个方面需要很好地结合起来。

“行其所当行，止于其所不得不止”

记者：一般来说，对古籍进行数字化处理之后，其准确度、可靠性往往会有所降低，这让使用者特别是专业研究人员用起来很不放心。这个问题怎么解决？

杨成凯：的确。古籍数字资料库让人不放心的地方主要是担心资料库的文本不可靠，文字讹误、底本不佳。底本的问题容易解决，现在已经出版了大量版本很好的古籍，只要编制资料库时注意择优选用就是了。消除文字讹误则需要校对人员加强责任心。清乾隆时排印的《聚珍版丛书》，每页都有校对人署名，出现错字罚俸。我也听先人说过，民国时商务印书馆出版了一部字典，谁发现一个错字酬大洋一元，我们家乡果真有人得过一块大洋。我们看上世纪五六十年代出版的书就很少看到错字，有一部三十多万字的书，我曾通校一遍，竟没有发现一个错字，令人赞叹不已。可见如果说我们现在看到的古籍数字资料库多有错字，竟至不堪使用，那肯定是校对环节没有下工夫，工作不到家。

记者：除了加强校对环节和责任心外，要提高古籍数字化的质量，传统的古籍版本学、目录学、校勘学等专业支撑也必不可少吧……

杨成凯：古籍数字化的工作，首先要确定数字化的对象是哪些古籍，每一部古籍采用哪一个版本。选哪些书要看打算编制怎样的古籍资料库，可以像《四库全书》那样泛及经史子集各个门类，也可以像《全唐诗》《十三经》《二十五史》那样限定为一部书或一类书。选哪个版本要调查每部书的版本情况，按照数字化的要求作出抉择。

像当年编纂《续修四库全书》时，就是邀请各方面的学者选定书目，确定版本，工作相当认真。尽管如此，如今看来，还是存在一些问题，可见确定书目和确定版本不是简单的事情，即使行家通人也有失手的时候。考虑到编制古籍资料库需要相当的投入，起步阶段更需要慎重，书目和版本都有必要反复“磨勘”，听取更多的意见。

记者：而另一方面，古籍数字化的优势也是不言而喻的。那么，我们该怎么看待古籍数字化工作？

杨成凯：大型古籍数字资料库的建立，对学术研究和社会方方面面利用传统文化资源有不可估量的裨益，许多依靠人力颇感棘手的工作，在电脑可以悠游为之。在我看来，大型计算机软件难免出现瑕疵，古籍数字资料库设计的程序也会出现问题，像刚才说到的异体字关联的问题就是例子。遇到这种情况可以随时修正，何况古籍数字资料库目前使用的还是较简单的计算机程序，发现错误和改正错误都比较容易。既然事实已经证明它是学术研究的有力助手，那么只要慎重将事，还是让数字化行其所当行，止于其所不得不止吧。

更多阅读

中国实现借助现代技术查询和分析世界上最大古籍目录

美尝试通过DNA测试揭秘中世纪手抄本古籍

不要让千年古籍“横尸”书架

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

上一页 1 2

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��

编辑部推荐博文
研究生学位论文初稿提交导师前的十大注意事项血红素的生物合成等方面的最新突破和进展靓丽的赤苞花、金苞花和虾衣花！富氢水提升运动表现综述还有哪些人工智能专家可以得诺贝尔物理学奖？给大学生和青年教师播撒一点科学种子更多>>