AI复原古文字登Nature封面？国内这家“AI老兵”合合信息也在做

时间：2022-03-11 15:18:08 来源：每日简报 编辑：星辉 发表评论无障碍通道

3月10日，DeepMind的“AI+科学”研究，再登国际学术顶刊Nature的封面。DeepMind的深度神经网络Ithaca，能从受损文物中破译古希腊文字，准确率达到62%，在识别其原始位置方面的准确率达到71%，还能将古文字年代锁定在其真实日期范围的30年内。

据悉，这是第一个能够恢复受损铭文的缺失文字、识别其原始位置并帮助确定其书写日期的深度神经网络。研究结果表明，AI能帮助历史学家更好地解读铭文，以助力对古代历史的论证与理解。当前，历史学家已经使用这个工具，来重新评估希腊历史上的重要时期。

为了让研究人员、教育工作者、博物馆工作人员和其他人能够广泛使用其研究，DeepMind与谷歌云和谷歌Arts & Culture合作，推出了Ithaca的免费互动版本，并开放了其代码、预训练的模型和一个交互式的协作实验室笔记本。

古文字遭破坏？AI能修复这个bug

文字的诞生标志着历史的开端，对人类理解过去的文明和今天生活的世界至关重要。例如，2500多年前，希腊人开始在石头、陶器和金属上书写，记录从租约、法律到日历和预言的一切，让人们对地中海地区有了详细的了解。不幸的是，这是一个不完整的记录。

许多幸存下来的铭文在几个世纪的时间里遭到了破坏，或者从原来的位置被移走了。此外，现代年代测定技术，如放射性碳年代测定法，无法在这些材料上使用，这使得解读铭文既困难又费时。

为此，DeepMind与威尼斯Ca’Foscari大学人文系、牛津大学古典系、雅典经济与商业大学信息学系合作，一起探索如何用AI帮助历史学家更好地解读这些铭文。

深度神经网络Ithaca即是他们的最新成果，它以荷马史诗《奥德赛》中的希腊岛屿命名，在DeepMind此前专注于文本修复的系统Pythia基础上扩展而成。从实验结果来看，这个新算法展示了AI方法能克服现有恢复铭文方法的约束，辅助古语言研究，并帮助对古代历史有更丰富的理解。

大幅提升修复受损古文字的准确率

Ithaca采用了古希腊语言和整个古代地中海世界的铭文进行训练，训练数据来自帕卡德人文学院提供的最大的希腊铭文数字数据集。

这一选择有两个主要原因。首先，希腊铭文记录的内容和背景的变异性使其成为语言处理的巨大挑战;其次是因为古希腊语数字化语料库的可用性，这是训练机器学习模型的基本资源。

自然语言处理(NLP)模型通常用单词(word)进行训练，因为它们在句子中出现的顺序和它们之间的关系提供了额外的上下文和含义。然而，许多历史学家有兴趣让Ithaca进行分析的铭文都已损坏，而且经常缺失文本块。

DeepMind使用单词和单个字符作为输入来训练模型，以确保Ithaca用这类文本时能正常工作。模型核心的稀疏自我注意机制并行地评估这两个输入，允许Ithaca根据需要评估铭文。

实验结果表明，Ithaca的设计决策和可视化辅助使研究人员更容易解释结果。单独工作时，Ithaca在修复受损文字方面达到了62%的准确率;与DeepMind合作的历史学家在单独修复古代文献时，准确率为25%;而当历史学家与Ithaca合作时，修复受损文字的准确率提高至72%。

Ithaca还可以确定铭文书写的原始地理位置，准确率达到71%，并能将铭文的书写年代缩小至与历史学家提出的日期相差30年以内。研究人员认为，AI和历史学家之间的这种合作，可能有助于改变对古代世界的研究，比如帮助推进历史解释，建立历史事件的相对日期，乃至为当前的方法论争鸣做贡献。

例如，目前历史学家对雅典颁布的一系列重要法令的日期存在分歧，这些法令是在苏格拉底和伯里克利等著名人物在世的时期颁布的。这些法令一直被认为是在公元前446/445年之前写的，尽管有新的证据表明日期是公元前420年。虽然看起来差别不大，但这些法令对于理解古典雅典的政治史至关重要。

DeepMind采用的训练数据集包含公元前446/445年的早期图像。为了测试Ithaca的预测，研究人员在一个不包含日期铭文的数据集上对它进行了重新训练，然后提交这些没被包含在数据集中的文字进行分析。结果，Ithaca对这些法令的平均预测日期是公元前421年，这与新证据推测的日期一致。

由此可见，机器学习能帮助围绕希腊历史上最重要时刻之一的辩论提供支撑。

提供可视化辅助工具，直观呈现AI分析的结果

为了将Ithaca作为研究工具的价值最大化，研究团队还创造了一些可视化辅助工具，来确保历史学家能够轻松地解释Ithaca输出的结果。

(1)修复假设：Ithaca为文本修复任务生成了几个预测假设，供历史学家利用专业知识进行选择。

(2)地理属性：Ithaca向历史学家展示了它的不确定性，它给出了所有可能预测的概率分布，而不是单一的输出。它提供了84个不同古代地区的概率，代表其确定性水平，并将这些结果可视化显示在地图上，以阐明古代世界潜在的地理联系。

(3)时间归属：当确定文本的创作日期时，Ithaca会产生一个从公元前800年到公元800年所有几十年的预测日期分布。历史学家能看到模型对特定日期范围的可信度，这可能提供有价值的历史见解。

(4)显著性图：为了将结果传达给历史学家，Ithaca使用了计算机视觉中常用的一种技术，它可以识别哪些输入序列对预测的贡献最大。该输出对影响Ithaca关于缺失文本、位置和日期预测的单词用不同的颜色加以突出。

这主要是受到人工智能（AI）开发需求激增的推动，Python 还被广泛应用于数据科学和开源项目的开发。报告指出，与生成式 AI相关的项目贡献量在过去一年中增长了 59%，AI 相关的公共项目的贡献量几乎比…

在大会上，声网发布了他们的RTE+AI能力全景图，在全景图中，声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AIAgent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度，清…

在X100S、X200系列上，vivo通过AI大模型对超过十亿的物体数据学习，再结合AI多帧高像素算法，实现了远景画面的高清拍摄；OPPOFind X8系列更是直接宣传搭载了AI千里长焦，在20倍-120倍…

恰好，雷科技手上这台小米15是首批搭载HyperOS2.0的产品，在这几天的体验中，小雷也感受到了小米对于手机操作系统的一些新构思和小心机，以及对于手机未来的探索和思考。曾在操作UI上吃过亏的小米显然明…

这不仅极大提升了小笨智能SLAM &机器人领域的智能化水平和服务效率，还将助力我们快速拓展市场边界，为客户提供更加高效、灵活、可靠的智慧服务解决方案，引领行业迈向新的发展阶段。未来，小笨智能将继续在工业智…

为深入贯彻党中央、国务院关于推进新型工业化、支持制造业企业及中小企业数字化转型的系列决策部署，落实《上海市制造业数字化转型实施方案》的任务要求，加快推进企业数字化转型，上海市经信委开展了2024年度上海市重点…

财报提及，三季度Meta元宇宙业务营业亏损44亿美元，而Meta还计划加大在AI上的投资，预计2025年资本支出将显著增加。Meta CFO表示，现实实验室在2024年运营亏损还将显著增长，原因是公司持续的产…

他认为，人工智能赋能科研工作有三个台阶，一是借助科研文献助手和代码助手提升基础工作效率，二是基于深度神经网络对科学任务进行精准建模，三是借助认知大模型学习领域知识并辅助设计科研实验方案。在今年的科大讯飞全球…

2024年10月30日，豆神教育在北京举行豆神辞源大模型“名师超拟人，AI新时代”产品发布会，推出自主研发的端模一体教育产品——豆神AI，将客户端与大语言模型深度结合。与之类似，智谱华章有优秀的大模型开发及…

该合作将以联合研究阿拉伯语模型以及沙特特定的人工智能应用为特色，目前有待获得监管机构的批准。新的投资建立在谷歌云在沙特阿拉伯的现有业务基础上，其中包括去年启动的达曼云区域，该区域是谷歌云目前全球40个区域…

微软在周三提交给美国证券交易委员会的文件中写道：我们对 OpenAI Global,LLC（简称OpenAI）进行了投资，并已承诺投资总额为 130 亿美元。在之前提交给美国证券交易委员会的文件中，微…

10 月 31日消息，据《科创板日报》今日消息，荣耀股改引入新一轮投资者，中国电信、中金资本旗下基金、基石旗下基金、特发基金，以及新一轮代理商投资平台（金石星耀）等机构加入。对于此轮融资，荣耀称…

只有形成智算云产业的自循环，中国云谷的建设才有意义。在《机器中的达尔文》一文中，塞缪尔·巴特勒提出了“机械王国”的理论：技术进化与生物进化的过程将多方面重合，但不会像生物进化漫长而平静，而是带有激烈且革命性的色彩。他不吝词藻描绘道：“如今机器被用来生

近日，腾讯音乐娱乐集团（Tencent Music Entertainment Group，简称 “TME”）与中兴通讯近日达成了一项具有重大意义的战略合作，这次的战略合作不仅包含音乐产品合作，也将在音乐AI…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.