被AI‘读出’的千年卷轴:计算机视觉如何复活古代知识

被AI“读出”的千年卷轴:计算机视觉如何复活古代知识

当一卷在公元79年维苏威火山喷发中被高温碳化的纸莎草卷轴,在沉睡近两千年后重新“开口说话”,这不仅是考古学的重大突破,也是计算机视觉、机器学习和数字成像共同创造的一次技术奇迹。

近期 Hacker News 上关于“赫库兰尼姆古卷首次被完整读取”的讨论迅速登上热门,获得超过1600分和数百条评论。[1] 对许多开发者而言,这并不是又一个“AI 战胜人类”的故事,而是一个更值得关注的方向:AI 正在成为连接现实世界与历史知识的重要工具,而不仅仅是生成文本和图片的生产力助手。

从“无法展开”到“无需展开”

火山保存,也火山封印

赫库兰尼姆(Herculaneum)古卷发现于18世纪,来自被维苏威火山掩埋的古罗马遗址。

这些纸莎草卷轴并非普通意义上的“旧书”。高温使它们整体碳化,任何尝试物理展开都会导致不可逆损坏。因此,几十年来,学术界一直知道这些卷轴可能保存着大量古代文献,却始终无法真正阅读。

真正改变局面的,并不是新的考古工具,而是数字技术的发展。

研究团队首先利用高分辨率X射线断层扫描(CT)获取卷轴内部的三维体数据,然后通过算法完成多个关键步骤:

  • 三维结构重建(Segmentation)
  • 数字展开(Virtual Unwrapping)
  • 墨迹检测(Ink Detection)
  • 文本恢复与识别(OCR)

整个流程完全发生在数字空间,卷轴本身无需被真正展开。[1]

这也是为什么很多评论认为,这项成果本质上属于计算机视觉(Computer Vision),而不仅仅属于考古学。


AI真正解决的问题是什么?

很多媒体喜欢强调“AI读懂了古卷”,但技术社区讨论更多的是:AI到底解决了哪个最困难的问题?

不是OCR,而是找到文字在哪里

现代OCR面对的是已经平整展开的纸张。

而赫库兰尼姆古卷的问题复杂得多:

  • 页面严重卷曲
  • 多层纸张彼此紧贴
  • 墨迹极其微弱
  • 碳化后的纸张与墨水密度非常接近

因此,最大的挑战不是识别字符,而是先回答:

哪里才是真正的文字表面?

团队成员在 Hacker News 评论中介绍,他们负责的正是:

  • segmentation(分层)
  • unwrapping(数字展开)
  • ink detection(墨迹检测)

随后才能进入文本恢复阶段。[1]

这意味着,AI承担的是一种更加底层、更接近感知层(Perception Layer)的工作,而不是传统意义上的语言理解。

多学科算法的协同

整个流程几乎涵盖了现代计算机视觉的重要方向:

三维重建

CT扫描生成的是体素(Voxel)数据,而不是图片。

算法需要恢复:

  • 卷轴每一层的位置
  • 每层之间的边界
  • 纸张的连续曲面

这更接近医学影像处理,而不是普通图像识别。

曲面展开

得到三维结构后,还要把弯曲表面映射成二维平面。

这涉及:

  • 几何优化
  • 曲面参数化
  • 非线性变形校正

本质上属于计算几何问题。

墨迹检测

由于碳墨与纸莎草材质非常接近,仅靠传统阈值分割几乎无法完成。

这里引入了机器学习模型,通过大量样本学习那些肉眼几乎不可见的细微纹理差异。

最终,OCR才有机会发挥作用。


为什么 Hacker News 如此关注?

技术社区的热烈讨论,并不仅仅因为考古发现本身。

真正吸引开发者的是它体现出的几个趋势。

趋势一:AI开始进入科学发现

过去几年,大模型几乎成为AI讨论的全部中心。

但这个项目提醒大家:

AI最大的价值之一,并不是生成内容,而是帮助人类获得此前无法获得的数据。

它属于近年来越来越受关注的一类应用:

  • AI for Science
  • AI for Discovery
  • AI for Research

相比聊天机器人,这类项目往往直接推动科学研究本身。

正如一位评论者所说:

当你因为互联网充满广告、推荐算法和流量竞争而感到沮丧时,请记住,还有很多聪明人在做这样真正令人惊叹的事情,只是他们没有那么高调。[1]

这条评论获得了大量共鸣,也反映了技术社区长期以来的一种期待:希望AI更多用于创造公共价值,而非单纯提升商业转化率。

趋势二:开源正在推动科研

项目同时公开了论文和 GitHub 仓库。[1]

这意味着:

  • 数据格式公开
  • 算法流程公开
  • 社区可以持续改进

近年来,无论是 AlphaFold 之后的生物计算,还是数字考古,都越来越依赖开放社区共同推进。

开发者已经不仅是软件工程师,也开始成为科研生态的重要组成部分。

趋势三:跨学科成为竞争力

整个项目涉及:

  • 考古学
  • 古典语言学
  • 计算机视觉
  • 医学影像
  • 几何计算
  • 深度学习
  • 高性能计算

任何单一学科都无法独立完成。

这种融合也越来越符合今天AI项目的发展模式:

真正困难的问题,通常不是模型,而是整个系统。


对开发者意味着什么?

AI的边界正在扩大

很多开发者仍把机器学习理解为:

  • 推荐系统
  • 广告排序
  • ChatBot
  • 图像生成

但赫库兰尼姆项目展示的是另一种路线:

AI正在成为新的科学仪器。

它不只是生成信息,而是帮助人类观测过去无法观测的世界。

类似方向其实越来越多:

  • 医学影像诊断
  • 天文观测
  • 材料科学
  • 遥感分析
  • 文物修复

未来几年,计算机视觉与科学研究的结合可能比消费级AI更具长期影响力。

数据工程的重要性远超模型

从公开流程来看,大量工作集中在:

  • 数据采集
  • 图像配准
  • 三维重建
  • 后处理
  • 可视化

真正训练模型只是其中一部分。

这也再次说明:

在真实世界项目中,数据工程、算法工程和领域知识往往比单纯追求更大的模型更重要。


更大的想象空间

讨论区另一条广受欢迎的评论提出了一个令人着迷的观点:

两千多年前,一位作者写下自己的思想时,也许能够想象作品会在图书馆保存数百年,却几乎不可能想象,一场火山喷发会毁灭又保存它,更无法想象未来的人类会利用由“沙子与闪电”演化而来的机器重新读取这些文字,并瞬间传播到全球。[1]

这种时间尺度上的震撼,也解释了为什么这则新闻能够超越技术圈,引发如此广泛的共鸣。

还有评论指出,目前发掘的赫库兰尼姆遗址仅占整体的一小部分,而现有卷轴也主要来自私人藏书。如果未来发现规模更大的图书馆,那么借助如今的数字解卷技术,或许还有成千上万卷古代文献等待重新进入人类知识体系。[1]

这意味着,今天看到的成果,很可能只是开始。

总结

赫库兰尼姆古卷首次实现完整读取,并非某一种AI模型的胜利,而是计算机视觉、三维成像、机器学习、几何计算和开放科研协同发展的成果。

对于开发者而言,这个项目最大的启发并不是学习某一种新模型,而是重新理解AI的价值:它不仅能够生成内容,也能够帮助人类突破物理限制,恢复那些沉睡数千年的信息。

当算法开始成为显微镜、望远镜之外的新型科学工具时,软件工程也正在从服务互联网,逐渐走向服务整个知识文明。这或许正是 Hacker News 社区对这一成果如此兴奋的真正原因。


参考资料

[1] Hacker News:An entire Herculaneum scroll has been read for the first time(story_id: 48675179),包含 Scroll Prize 公布的预印本、项目仓库及社区讨论。
[2] Scroll Prize 项目公开的预印本《First Scroll》及配套技术资料(见项目页面与 GitHub 仓库)。