被AI“读出”的千年卷轴：计算机视觉如何复活古代知识

当一卷在公元79年维苏威火山喷发中被高温碳化的纸莎草卷轴，在沉睡近两千年后重新“开口说话”，这不仅是考古学的重大突破，也是计算机视觉、机器学习和数字成像共同创造的一次技术奇迹。

近期 Hacker News 上关于“赫库兰尼姆古卷首次被完整读取”的讨论迅速登上热门，获得超过1600分和数百条评论。[1] 对许多开发者而言，这并不是又一个“AI 战胜人类”的故事，而是一个更值得关注的方向：AI 正在成为连接现实世界与历史知识的重要工具，而不仅仅是生成文本和图片的生产力助手。

从“无法展开”到“无需展开”

火山保存，也火山封印

赫库兰尼姆（Herculaneum）古卷发现于18世纪，来自被维苏威火山掩埋的古罗马遗址。

这些纸莎草卷轴并非普通意义上的“旧书”。高温使它们整体碳化，任何尝试物理展开都会导致不可逆损坏。因此，几十年来，学术界一直知道这些卷轴可能保存着大量古代文献，却始终无法真正阅读。

真正改变局面的，并不是新的考古工具，而是数字技术的发展。

研究团队首先利用高分辨率X射线断层扫描（CT）获取卷轴内部的三维体数据，然后通过算法完成多个关键步骤：

三维结构重建（Segmentation）
数字展开（Virtual Unwrapping）
墨迹检测（Ink Detection）
文本恢复与识别（OCR）

整个流程完全发生在数字空间，卷轴本身无需被真正展开。[1]

这也是为什么很多评论认为，这项成果本质上属于计算机视觉（Computer Vision），而不仅仅属于考古学。

AI真正解决的问题是什么？

很多媒体喜欢强调“AI读懂了古卷”，但技术社区讨论更多的是：AI到底解决了哪个最困难的问题？

不是OCR，而是找到文字在哪里

现代OCR面对的是已经平整展开的纸张。

而赫库兰尼姆古卷的问题复杂得多：

页面严重卷曲
多层纸张彼此紧贴
墨迹极其微弱
碳化后的纸张与墨水密度非常接近

因此，最大的挑战不是识别字符，而是先回答：

哪里才是真正的文字表面？

团队成员在 Hacker News 评论中介绍，他们负责的正是：

segmentation（分层）
unwrapping（数字展开）
ink detection（墨迹检测）

随后才能进入文本恢复阶段。[1]

这意味着，AI承担的是一种更加底层、更接近感知层（Perception Layer）的工作，而不是传统意义上的语言理解。

多学科算法的协同

整个流程几乎涵盖了现代计算机视觉的重要方向：

三维重建

CT扫描生成的是体素（Voxel）数据，而不是图片。

算法需要恢复：

卷轴每一层的位置
每层之间的边界
纸张的连续曲面

这更接近医学影像处理，而不是普通图像识别。

曲面展开

得到三维结构后，还要把弯曲表面映射成二维平面。

这涉及：

几何优化
曲面参数化
非线性变形校正

本质上属于计算几何问题。

墨迹检测

由于碳墨与纸莎草材质非常接近，仅靠传统阈值分割几乎无法完成。

这里引入了机器学习模型，通过大量样本学习那些肉眼几乎不可见的细微纹理差异。

最终，OCR才有机会发挥作用。

为什么 Hacker News 如此关注？

技术社区的热烈讨论，并不仅仅因为考古发现本身。

真正吸引开发者的是它体现出的几个趋势。

趋势一：AI开始进入科学发现

过去几年，大模型几乎成为AI讨论的全部中心。

但这个项目提醒大家：

AI最大的价值之一，并不是生成内容，而是帮助人类获得此前无法获得的数据。

它属于近年来越来越受关注的一类应用：

AI for Science
AI for Discovery
AI for Research

相比聊天机器人，这类项目往往直接推动科学研究本身。

正如一位评论者所说：

当你因为互联网充满广告、推荐算法和流量竞争而感到沮丧时，请记住，还有很多聪明人在做这样真正令人惊叹的事情，只是他们没有那么高调。[1]

这条评论获得了大量共鸣，也反映了技术社区长期以来的一种期待：希望AI更多用于创造公共价值，而非单纯提升商业转化率。

趋势二：开源正在推动科研

项目同时公开了论文和 GitHub 仓库。[1]

这意味着：

数据格式公开
算法流程公开
社区可以持续改进

近年来，无论是 AlphaFold 之后的生物计算，还是数字考古，都越来越依赖开放社区共同推进。

开发者已经不仅是软件工程师，也开始成为科研生态的重要组成部分。

趋势三：跨学科成为竞争力

整个项目涉及：

考古学
古典语言学
计算机视觉
医学影像
几何计算
深度学习
高性能计算

任何单一学科都无法独立完成。

这种融合也越来越符合今天AI项目的发展模式：

真正困难的问题，通常不是模型，而是整个系统。

对开发者意味着什么？

AI的边界正在扩大

很多开发者仍把机器学习理解为：

推荐系统
广告排序
ChatBot
图像生成

但赫库兰尼姆项目展示的是另一种路线：

AI正在成为新的科学仪器。

它不只是生成信息，而是帮助人类观测过去无法观测的世界。

类似方向其实越来越多：

医学影像诊断
天文观测
材料科学
遥感分析
文物修复

未来几年，计算机视觉与科学研究的结合可能比消费级AI更具长期影响力。

数据工程的重要性远超模型

从公开流程来看，大量工作集中在：

数据采集
图像配准
三维重建
后处理
可视化

真正训练模型只是其中一部分。

这也再次说明：

在真实世界项目中，数据工程、算法工程和领域知识往往比单纯追求更大的模型更重要。

更大的想象空间

讨论区另一条广受欢迎的评论提出了一个令人着迷的观点：

两千多年前，一位作者写下自己的思想时，也许能够想象作品会在图书馆保存数百年，却几乎不可能想象，一场火山喷发会毁灭又保存它，更无法想象未来的人类会利用由“沙子与闪电”演化而来的机器重新读取这些文字，并瞬间传播到全球。[1]

这种时间尺度上的震撼，也解释了为什么这则新闻能够超越技术圈，引发如此广泛的共鸣。

还有评论指出，目前发掘的赫库兰尼姆遗址仅占整体的一小部分，而现有卷轴也主要来自私人藏书。如果未来发现规模更大的图书馆，那么借助如今的数字解卷技术，或许还有成千上万卷古代文献等待重新进入人类知识体系。[1]

这意味着，今天看到的成果，很可能只是开始。

总结

赫库兰尼姆古卷首次实现完整读取，并非某一种AI模型的胜利，而是计算机视觉、三维成像、机器学习、几何计算和开放科研协同发展的成果。

对于开发者而言，这个项目最大的启发并不是学习某一种新模型，而是重新理解AI的价值：它不仅能够生成内容，也能够帮助人类突破物理限制，恢复那些沉睡数千年的信息。

当算法开始成为显微镜、望远镜之外的新型科学工具时，软件工程也正在从服务互联网，逐渐走向服务整个知识文明。这或许正是 Hacker News 社区对这一成果如此兴奋的真正原因。

参考资料

[1] Hacker News：An entire Herculaneum scroll has been read for the first time（story_id: 48675179），包含 Scroll Prize 公布的预印本、项目仓库及社区讨论。
[2] Scroll Prize 项目公开的预印本《First Scroll》及配套技术资料（见项目页面与 GitHub 仓库）。