中国|用智能型数据库传承“冷门绝学” 营造3000年中国文字数字长城

央广网上海5月28日消息(采访人员唐奇云)“刺史”的“刺” , 颜正卿为什么写成“刾”?近日 , 有关“颜正卿写错了字”的消息在网上引起热议 , 华东师范大学教师抓住这个契机 , 运用该校推出的“智能检索中国文字数据库”给同学上了一课:原来 , 当时的“刺”大概率写成“刾” , 而这个“刾”中的“夹” , 就是“朿”自秦汉文字以来的变形 。 “朿”字之形 , 取象于“树木的刺芒” , 也就是先秦时代的“刺” 。
今天(28日)上午 , 华东师范大学中国文字研究与应用中心(下称“文字中心”)举行“冷门绝学”专业“新文科”建设成果发布会 。 在此次教学中发挥大作用的数据库 , 就是文字中心近日研发成功的“智能型中国文字数字平台”数据库系列之一 。

中国|用智能型数据库传承“冷门绝学” 营造3000年中国文字数字长城
文章图片

智能识别“刺”字(央广网发 华东师范大学供图)
据介绍 , 该“智能型中国文字数字平台”以古文字及历代出土实物文字资料的数字化为目标 , 自上世纪90年代后期开始启动 , 其建设成果曾多次实现海内外首创性突破 , 如2003年 , 推出首个先秦古文字数据库的正式出版成果系列《商周金文数字化处理系统》和《战国楚文字数字化处理系统》;2019年正式发布古文字智能识别工具“商周金文智能镜” 。 在此基础上 , 2020年以来 , 文字中心又相继开发了多种出土文字智能图像识别系统 , 并完成图像识别工具与数据库的有效结合 , 创建了智能型古文字数字平台 。
这一突破 , 对古文字图像识别而言 , 营造了最理想的“样本库” , 为进一步研发和技术突破打造了孵化平台 。 对出土古文字文字数据库而言 , 消除了两个盲点:一是不识之字数据库检索查询盲点 。 去除了数据库使用者的专业知识门槛 , 大大提升了数据库的社会服务功能;二是图像载体材料的计算机自动识别盲点 。 初步实现数字平台中图片载体材料与字符集载体材料的自动数字关联 , 进而营造了古文字资料大数据生成和机器学习的环境 , 为各种研究专题的智能化手段介入创造了条件 。

中国|用智能型数据库传承“冷门绝学” 营造3000年中国文字数字长城
文章图片

智能识别“刺”字关联检索(央广网发 华东师范大学供图)
除了用图像识别技术将中国文字数字平台提升到“智能化”级别以外 , 该数字平台还具有“各断代各类型出土实物文字资料全覆盖”“全字符检索查询突破”“多层次深度加工与专题性数据库系列形成”等创新功能 。
据介绍 , 目前某些海内外相关大学研究机构虽然也有此类网络数据库 , 但材料覆盖都止于某个别断代或材料类型 。 “智能型中国文字数字平台”所包含的文字材料覆盖了自殷商甲骨到明清文字整个汉字发展史的各种时段的各种类型;先秦部分 , 基本囊括目前已公布的资料;先秦以后汇集了各时段主要代表性材料 。 因此数字平台堪称电子版“字海” , 可以提供覆盖整个汉字发展史的相关文字信息的定量性检索查询 。
另一方面 , 出土文字数据库建设面临字符集支持的困难:一是缺字 , 即存在大量集外字;二是有字不能用 , 9万多已编码汉字只有GBK的20902个可以用于数据库和网络 。 三是有字不好用 ,GBK的20902字中很多一字多码 。 目前网上的出土文字数据库普遍存在的集外字无法检索 , 显示 “开天窗”等问题, 都是因为无法解决上述困难 , 做到全字符处理 。 这个问题是否解决 , 是衡量数据库是否具备数字化内功的标准 。
为应对上述难题 , 文字中心研发团队通过海量文献用字的逐一整理 , 研发了完整的出土实物文字字符集标准体系 , 保证了数据库所用所有字符与标准码位的一字一码精确对应 , 保证了数据库各种资料都处于有效的数字化处理的范围内 。 由此 , “中国文字智能检索数据库”也就成为唯一一种可全字符(集外与集内字;楷字与原形字;整字与偏旁)检索的出土文字数据库 。
【中国|用智能型数据库传承“冷门绝学” 营造3000年中国文字数字长城】此外 , 受制于出土古文字资料数字化高度的复杂性 , 迄今的出土文字网络数据库对所收材料的加工程度不高 , 检索功能比较单一 , 或者通过相关出版物编号检索古文字图像材料 , 或者通过部分的集内字检索释文的辞例 。 相对局限的功能降低了数据库对于研究和应用的支持力度 。 针对这一共性问题 , 研究团队对应各个时段中国文字的研究与应用需要 , 进行充分的数字化整理与深度加工 。 实现原始资料与考释研究信息与全面关联 , 特别是注重古文字考释 , 跟踪古文字考释最新进展 , 并以字为对象关联考释信息 。 另外 , 完成或部分完成出土文献语料在语言、文字与文化属性等方面的系统标注 , 包括:字义注释、语音标记、义类分析、偏旁标注、古今释义等 , 实现数据库内部资源全面数字系联贯通 。 进而形成前所未有的“考释”“通假”“偏旁”“字体分类”“义类分析”等专题数据库系列 , 大大提升了数字平台的专业支撑力 。

    推荐阅读