AI 如何读懂两千年前的卷轴?揭秘 Herculaneum 古卷数字复原技术

AI 如何读懂两千年前的卷轴?揭秘 Herculaneum 古卷数字复原技术

ComputerVision · MachineLearning · DigitalHumanities · 3DImaging · OpenSource

一份被维苏威火山埋葬近两千年的古卷,从“碳化纸团”变成可读文本,这件事听起来更像科幻小说,而不是计算机视觉论文。但就在最近,一支开源团队真正做到了这一点,并在技术社区引发了广泛讨论。[1]


被火山封存的“时间胶囊”

Herculaneum(赫库兰尼姆)是与庞贝同时被维苏威火山掩埋的古罗马城市。不同于庞贝的建筑遗迹,这里最珍贵的发现之一,是一批被高温瞬间碳化的纸莎草卷轴。

这些卷轴的问题在于:
它们不能被打开

物理展开会直接粉碎成灰,传统考古方法几乎无解。几十年来,学者只能依靠X射线断层扫描(CT)看到内部结构,却无法分辨墨迹与纸张的微弱差异。

直到“Vesuvius Challenge”项目出现,问题被重新定义为一个计算机视觉任务:

不是“打开卷轴”,而是“在三维空间中读懂卷轴”。


从CT扫描到“数字解卷”

三维成像:把古卷变成可计算对象

第一步是获取高分辨率的三维数据。

研究人员使用同步辐射X射线CT扫描,将卷轴切成极其细密的体素(voxel)结构。这个过程类似医学CT,但分辨率更高,目标不是人体器官,而是:

  • 碳化后的纸纤维结构
  • 微弱的墨迹密度变化
  • 因高温形成的层状压缩结构

问题是:扫描结果只是“灰度体积数据”,没有任何文本结构。


关键突破:卷轴“分割与展开”

第二步是最困难的部分:虚拟展开(unwrapping)

卷轴在三维空间中是高度扭曲、压缩甚至粘连的结构,传统图像处理方法完全不适用。

开源团队提出了多阶段流水线:

1. 表面分割(Segmentation)

利用深度学习模型识别“纸张层”和“空隙”,类似医学图像分割,但难度更高,因为:

  • 材质密度差异极低
  • 层间粘连严重
  • 没有标准标注数据

2. 曲面重建(Surface Reconstruction)

将每一层纸片建模为可展开的三维曲面。

3. 参数化展开(Flattening)

把复杂曲面映射到二维平面,类似“数字揭页”。

这一过程本质上是一个融合:

  • 几何计算(geometry processing)
  • 优化算法(optimization)
  • 物理建模(deformation modeling)

墨迹识别:AI 在“看不见的对比度”中找文字

最令人震撼的部分并不是“展开”,而是“读”。

为什么墨迹几乎不可见?

这些卷轴的墨水与纸张材料极其接近:

  • 都是碳基结构
  • 对X射线吸收差异极小
  • 人眼和传统图像处理几乎无法区分

AI 如何识别?

团队训练模型从微弱信号中寻找统计差异:

  • 局部纹理变化
  • 微小密度梯度
  • 3D结构扰动

可以理解为:

不是“看见文字”,而是“推断哪里可能是文字”。

在 Hacker News 评论中,一位开发者将其形容为:

“不是在读取像素,而是在读取物质的历史残留。”[1]


为什么 Hacker News 社区如此兴奋?

这条帖子在短时间内获得超过 1200 points 和大量讨论[1],原因不仅仅是“考古成功”,而是它击中了几个技术社区的核心兴奋点。


1. AI 不再只是生成内容,而是“恢复现实”

过去几年 AI 热点集中在:

  • 大语言模型
  • 图像生成
  • 自动代码

但 Herculaneum 项目展示的是另一种能力:

AI 可以从物理噪声中恢复信息结构

这意味着 AI 不只是“创造内容”,还可以:

  • 修复损坏信息
  • 重建不可逆数据
  • 从物理世界提取隐藏语义

2. 多学科融合成为新常态

这个项目本质上不是“纯 AI 项目”,而是:

  • 计算机视觉
  • 物理建模
  • 考古学
  • 材料科学
  • 开源协作

Hacker News 上一条高赞评论指出:

这类项目提醒我们,还有很多聪明人在做“非广告型技术”,只是我们平时看不到他们。[1]

这反映了技术社区的一个情绪:

对“商业化互联网”的疲劳,与对“科学驱动项目”的渴望。


3. 开源科学正在接管“不可解问题”

Vesuvius Challenge 的代码与数据部分开源在 GitHub 上[1],意味着:

  • 不再依赖单一实验室
  • 全球研究者共同优化算法
  • 类似 Kaggle,但目标是历史文本

这种模式与传统学术论文体系不同,更接近:

“开放式科学工程竞赛”


对开发者意味着什么?

1. CV(计算机视觉)的边界正在扩展

过去 CV 任务包括:

  • 图像分类
  • 目标检测
  • OCR

现在开始进入:

  • 三维结构推理
  • 物理信号解释
  • 跨尺度重建

这意味着未来 CV 工程师可能需要:

  • 几何建模能力
  • 数值优化基础
  • 多模态融合理解

2. 数据不再是“标准图像”

这个项目最难的部分之一是:

没有 ground truth

没有标签、没有标准答案,只能依赖:

  • 弱监督
  • 物理先验
  • 人机协同验证

这与大多数工业 AI 完全不同,更接近科研。


3. AI + 科学计算正在融合

这个项目实际上是一个典型趋势:

  • AI 不只是模型层
  • 而是嵌入科学计算流程

未来类似问题可能包括:

  • 地质结构重建
  • 医学微观组织恢复
  • 天文数据修复
  • 文物数字孪生

一个被评论反复提及的问题:我们还能想象更远吗?

最受欢迎的一条评论写道:

古罗马人无法想象火山与 AI 能共同“复活”他们的文字。那我们今天能否想象,未来的人会用怎样的技术理解我们?

这其实不是感叹,而是一个技术问题:

当前的计算系统,是否已经足够“通用”到处理跨越物理与时间的信息?

Herculaneum 项目给出的答案是:还不够,但已经开始了。


结语:从“解读古卷”到“重建世界”

Herculaneum 古卷复原的意义,远不止考古学突破。

它更像是一个信号:

  • AI 正在从“生成工具”走向“信息修复工具”
  • 计算机视觉正在进入 3D 物理世界
  • 开源科学正在成为复杂问题的主流解法

当一份被火山封存两千年的文字重新出现时,我们看到的不只是古罗马的思想碎片,更是一个未来趋势的雏形:

信息不会真正消失,它只是等待被重新计算。


参考来源

[1] https://scrollprize.org/firstscroll
Hacker News 讨论:https://news.ycombinator.com/item?id=48675179