破译甲骨文,AI准备好了吗

珠江路在线   2024年7月25日  【 转载 】天龙八部sf发布网 

7月5日,上海,2024世界人工智能大会 。安阳师范学院团队宣告 寰球首个甲骨文多模态数据集正式开源 。所谓多模态,是指包含一万片甲骨拓片、摹本,以及甲骨文单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据 。探究人员可基于该数据集开发甲骨文检测、 鉴别、摹本生成、字形匹配以及释读等方向的智能算法 。

近年来,安阳师范学院甲骨文信息解决教育部重点 试验室利用计算机缀合甲骨碎片图像70余组,位列全国第一 。其中一组缀合后 构成了新的连贯文辞,假如释读无误的话,这句话可能记录了公元前1900多年的一次日偏食天象 。这引起人们的极大关注 。

近期二十年,甲骨文破译逐步进入瓶颈期 。为此,在政府 有关部门推进下,多所高校探究团队致力于探究人工智能(AI)辅助探究甲骨文的技术 。国内互联网巨头和科技公司纷纷入局,与学术界发展跨学科合作 。人工智能的 利用为甲骨文探究提供了新的思路 。玄幻的殷商甲骨文与科幻的人工智能碰撞,这是属于中华文化独有的浪漫 。

?

AI需求一个怎么的甲骨文数据库

投喂给人工智能的 标准化、多模态数据集,起点是二十年前一位数学老师开发的输入法 。

1991年,安阳殷墟花园庄东地H3坑内出土甲骨1583片,这是殷墟甲骨 发掘史上第三次重大发现 。彼时,从河南师范大学数学系毕业的刘永革 调配到安阳师范专科学校(安阳师范学院前身)任教才第三年 。在职业生涯的前十年里,他与甲骨文探究并无 交加 。

上世纪90年代末,安阳师专调度青年老师 学习考研 。刘永革等十人来到西安, 指标是考上西北工业大学计算机工程学院 。当时个人微型计算机方才 崛起,进机房之前需求穿鞋套以防静电 。刘永革是数学专业出身,考试有四门课,其中三门以前没学过,他便去书店买来专业书籍现学 。有同学新买了一台照相机,招呼大家去秦始皇陵兵马俑坑参观遨游,开玩笑说:“刘永革,别 复习了,你陪我去,你确定考不上嘛 。”刘永革应该没去看兵马俑——他在2000年 获得计算机软件与实际硕士学位,方向是数据库 利用 。

21世纪初,安阳师院有一批从事甲骨文探究的中青年学者,包含李雪山、韩江苏等,他们都曾在上世纪80年代“殷商文化探究班”受业于甲骨文专家胡厚宣 。写论文要 引用甲骨文,甲骨文怎么输入电脑? 固然有一种甲骨文编码输入法,但是学习成本很高,就像五笔字型输入法一样,需求背诵一整套编码 。老师们找到已在计算机科学系任教的刘永革,指望他开发一种 彻底不同以前的新的输入法 。首先,用软件描摹甲骨文字,将描出的图形矢量化,制成字体库 。再依据日本学者岛邦男的甲骨文部首自然分类法设计检索体系 。用Visual C++编写动态数据 交换程序 。 使用时,出现甲骨文常用部首的图形界面, 只有鼠标点选检索,再点选需求的文字即可,不用背码 。关于文字数量不多的甲骨文来说,这种输入法是十分 适合的 。

波及甲骨文探究,不 只有输入单字,还要能输入整句、要找出前人的释读 成绩进行对比,最好配上甲骨拓片或摹本的原图 。圈内学者常开玩笑说, 其余学科阅读材料 能够用文本文档或者word文档,甲骨文探究不得不看PDF文件——用它 能力阅读清楚的拓片图像 。历史与文博学院的韩江苏 传授意识到,甲骨文探究需求一个字、图、文 材料一体化、便于检索的数据库 。“甲骨文图文 材料库”2004年顺利申请国家社科基金,甲骨文输入法的顺利 教训在焉,刘永革很自然地加入了课题组 。好好一个计算机专业老师, 决然跨界投身甲骨文的世界 。他 率领计算机系的年轻人从头学习甲骨文,为课题组 平添新奇血液 。至结项验收时,收录数十种权威探究文献的 精粹和7万多张甲骨拓片 。

郭青萍是安阳师院中文系 传授,退休后自学甲骨文并从事甲骨文篆刻 。一次,他请刘永革帮忙检索几个现代汉字对应的甲骨文字形 。刘永革很快把后果给到了老先生 。“我翻书搜索可能要花一个月,你这么快就找到了?!这个电脑很好 。我也要学电脑!”那年郭青萍89岁,家里人不支撑他 。他拿出7000元偷偷交给刘永革,要他帮忙选购一台电脑 。刘永革说:“老先生好学呀 。我给他买了一台显示器很大的那种,容易他看字 。后来他用电脑又写了三本甲骨文方面的书稿交付出版 。”2008年,刘永革等申报的《基于甲骨文语料库的计算机辅助考释技术探究》获批国家自然科学基金 名目 。甲骨文材料的数字化极大地 便捷了探究者,也为马上到来的人工智能时代做好了铺垫 。

2016年3月,谷歌旗下DeepMind团队开发的AlphaGo(初级围棋)程序击败韩国九段棋手李世石,震惊世界 。这也被认为是一个人工智能进展大周期的元年 。一个月后,国家 有关部委领导在河南安阳调研时说,要利用大数据、云计算等现代技术 目标做好甲骨文的破译工作 。两年后,安阳师院甲骨文信息 解决教育部重点试验室获批,刘永革出任 试验室主任 。依照规定,教育部重点 试验室学术委员会主任应由院士 负责 。“我们安阳是小地方,哪 意识什么院士哟 。”

好在,他们“蹲”到了2015年新 当选中国工程院院士的戴琼海 。刘永革就 应聘他做学术委员会主任 。戴琼海是清华大学自动化系 传授,长工夫致力于立体视觉和计算摄像实际、 要害技术探究,现任中国人工智能学会理事长 。

2019年是甲骨文发现120周年 。安阳师院在甲骨文探究专家宋镇豪 指导下,公布“殷契文渊”甲骨文数据平台 。这是当今世界材料最齐全、最 标准、最权威的甲骨文数据平台,对国内外探究者免费开放,至今已更新4期,包含甲骨著录154种、甲骨论著34417种,收录23余万种图像 。利用上亿像素的照相机,通过高清拍摄、微距拍摄、三维建模、红外线拍摄、多光谱拍摄,对每一片甲骨拍摄150余张照片 。借助微痕 加强技术,使探究者能清楚地看到甲骨上较浅的刻痕,更精确地 综合笔画和轮廓 。部分有特别 含意的甲骨文是用丹砂“涂朱”的,对这 部分文字的探究也是甲骨文探究中的一个分支 。有些甲骨因年代久远,红色丹砂脱落殆尽,但通过光谱 综合,依然能够确定甲骨文中的涂朱 部分 。此外,依据机器学习的要求,增加图像数据标注 。

回忆过去,当初为甲骨文输入法治作的矢量字库,已经“魔改”得面目全非 。技术进展 超过人的设想 。

用计算机把破碎的甲骨拼起来

张展,2019年获中国科学院大学计算机 利用技术专业博士学位,2021年中国科学院沈阳自动化探究所博士后出站,探究方向为计算机视觉、模式鉴别和数字图像 解决 。在学校,张展和河南安阳籍郭安是室友 。找工作时,郭安回安阳师院谋求教职,张展便顺道来安阳看看机会 。这是他第一次见到刘永革 。老刘 指望张展留下,但后者还没有打定主张 。一段 工夫后,刘永革接到张展的电话 。他十分 庆幸:“不用说相应的待遇 。张展来我这里,他成家前,我发动系里的老师,要求每个人都给他介绍对象 。我得让他留在安阳 。”

刘永革一眼看中张展,由于他的探究方向十分 合适从事计算机辅助甲骨碎片缀合工作 。而甲骨碎片缀合是短期内 能够本质性推进甲骨文释读破译的目标 。

当前的甲骨文释读工作确切处在一个瓶颈期,在甲骨学再 接续进展的路径上,遇到了文字释读滞后的 阻碍,给甲骨学商史探究的再深刻造成了 困苦 。中国文字博物馆于2016年至2024年间 发展了两次甲骨文释读优异成绩征集 评比 。对破译未释读甲骨文并经专家委员会鉴定通过的探究 成绩,单字嘉奖10万元 。第一次,复旦大学蒋玉斌摘得一等奖,拿到了10万元 嘉奖 。第二次,复旦大学陈剑和吉林大学周忠兵同时 获得一等奖 。8年,3个字,这便是今日破译甲骨文的速度 。

为什么破译如此之难?当前学界公认甲骨文有4500多个单字,其中已经破译近1500字,剩下的3000多字都是较难释读的,譬如没有对应的现代汉字,或是后世不再 使用的地名、人名 。甲骨文破译是从已知推理未知 。1991年安阳殷墟花园庄东地H3坑的 发掘是距今最终一次甲骨大发现 。近三十年,新发现的甲骨增量太少,也使释读探究工作陷入巧妇难为无米之炊的境界 。

为此,众多学者将眼光投向存量甲骨挖潜, 指望从中压榨出有价格的新线索 。现存甲骨多以碎片的 状态存世 。一是由于甲骨用于占卜, 通过钻凿、火烧,沧海桑田,绳编断绝 。二是早期甲骨 珍藏者在安阳小屯村收购甲骨,按片计价 。村民便将挖出来的甲骨掰碎 销售 。所以后来就改为按甲骨上有多少字来计价收购 。甲骨一般沿龟腹甲的天然纹裂而碎,其小者比人的指甲盖大不了多少 。假如将甲骨碎片缀合起来,就能得到新的连贯的句子,学者加以句读,从而 获得崭新的解读 。

但是,甲骨整顿繁难且极费人工 。故宫博物院是世界第三大甲骨 珍藏单位,所藏2万多片殷墟甲骨,此前绝大多数从未 整顿出版 。“故宫博物院藏古文字数字平台”的阶段性 成绩,也仅仅是公布了《故宫博物院藏殷墟甲骨文》“马衡卷”“谢伯殳卷”中的300余件甲骨藏品高清影像及其拓本 。人工缀合甲骨碎片需求记忆大量的甲骨文信息,专业要求高、工作量大 。一所高校能有几个探究甲骨文的人才,他们寒窗苦读,皓首穷经,才堪堪够格 参加这项工作 。古人考释文字如同射覆,意即如猜谜普通,靠直觉,没有数学公式推导那样的 法令可循 。有学者 感慨,甲骨断痕的边缘并无定然的 法令,而人对信息的敏感是有偏好的,此处敏感别处未必敏感, 因而脱漏甚多 。

计算机没有直觉,惟独数字和概率 。与人不同,它 能够找到没有法令的边缘信息进行匹配 。

张展向我们展示如何用计算机辅助缀合甲骨碎片 。首先 预备一片待缀合的甲骨碎片拓片图像,分辩率精度400dpi(经插值运算 获得600dpi),修理甲骨轮廓 四周的毛刺,提取段痕边缘的一条曲线 。将边缘曲线旋转正负20°,得到同一条曲线不同 歪斜角度的集中 。用边缘曲线 集中与选定的一批甲骨拓片的轮廓线相拟合 。在边缘曲线上分多个小段进行采样,计算源甲骨碎片图像与 指标甲骨碎片图像边缘采样点中间的 间隔和,作为不类似度解决 。当不 类似度值小于某一设定值的时候, 象征着可能产生一构 顺利的缀合 。

解释起来有些吃力,但计算机只在瞬息间就能输出缀合后果 。

最初,张展跑完程序,得到一组缀合 后果,发朋友圈,大家喜从天降 。随即,他们 得悉这组甲骨碎片已被前人缀合过,不过至少 证实这个步骤行得通 。不久后, 试验室终于得到新的“独家”缀合后果 。不只文辞 能够连上,贯穿两片甲骨的刻痕也显而易见 能够贯穿 。随着 名目深刻,得到一组又一组缀合 后果 。一篇篇对缀合后衔接起来的甲骨文句的考释文章接踵发表 。

这种缀合步骤获得了小小的 顺利 。但要再进一步,还有难关 。当前的技术 能够让选定的一片甲骨匹配另一片或者一批甲骨 。假如要让计算机在大批量甲骨图像中一次找出可缀合的一对或多对甲骨,需求新的算法和更 壮大的算力 。除了技术因素,还有一个问题困扰着探究者 。全世界现存约16万片甲骨, 疏散在15个国家、181家馆藏机构 。相比之下, 通过整顿可供探究且公开公布的甲骨拓片 材料就很少了 。而机构与机构中间、国家与国家中间的 交换合作、资源共享并非易事 。

为此,安阳师院团队今年正式启动“ 寰球甲骨数字回归方案”,争取国家、省、市三级政府部门和社会各界的支撑,指望到国内外 保留甲骨的馆藏机构进行数据采集,让散落各地的甲骨“回家” 。这是一个雄伟而又浪漫的 方案 。但凡用浪漫来形容的事,一般都是很难的,可能需求众多年能力 实现 。刘永革对张展说:“你看,我搞了一辈子数据库 。你一辈子做好甲骨碎片缀合这件事,也就成了 。”与数千年的甲骨文相比,人生仿若沧海之一粟 。众多 事件的顺利有漫长的路要走,其待后人乎!

免责声明:凡标注转载/编译字样内容并非本站原创,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。