被AI‘读出’的千年卷轴:计算机视觉如何复活古代知识
被AI“读出”的千年卷轴:计算机视觉如何复活古代知识
当一卷在公元79年维苏威火山喷发中被高温碳化的纸莎草卷轴,在沉睡近两千年后重新“开口说话”,这不仅是考古学的重大突破,也是计算机视觉、机器学习和数字成像共同创造的一次技术奇迹。
近期 Hacker News 上关于“赫库兰尼姆古卷首次被完整读取”的讨论迅速登上热门,获得超过1600分和数百条评论。[1] 对许多开发者而言,这并不是又一个“AI 战胜人类”的故事,而是一个更值得关注的方向:AI 正在成为连接现实世界与历史知识的重要工具,而不仅仅是生成文本和图片的生产力助手。
从“无法展开”到“无需展开”
火山保存,也火山封印
赫库兰尼姆(Herculaneum)古卷发现于18世纪,来自被维苏威火山掩埋的古罗马遗址。
这些纸莎草卷轴并非普通意义上的“旧书”。高温使它们整体碳化,任何尝试物理展开都会导致不可逆损坏。因此,几十年来,学术界一直知道这些卷轴可能保存着大量古代文献,却始终无法真正阅读。
真正改变局面的,并不是新的考古工具,而是数字技术的发展。
研究团队首先利用高分辨率X射线断层扫描(CT)获取卷轴内部的三维体数据,然后通过算法完成多个关键步骤:
- 三维结构重建(Segmentation)
- 数字展开(Virtual Unwrapping)
- 墨迹检测(Ink Detection)
- 文本恢复与识别(OCR)
整个流程完全发生在数字空间,卷轴本身无需被真正展开。[1]
这也是为什么很多评论认为,这项成果本质上属于计算机视觉(Computer Vision),而不仅仅属于考古学。
AI真正解决的问题是什么?
很多媒体喜欢强调“AI读懂了古卷”,但技术社区讨论更多的是:AI到底解决了哪个最困难的问题?
不是OCR,而是找到文字在哪里
现代OCR面对的是已经平整展开的纸张。
而赫库兰尼姆古卷的问题复杂得多:
- 页面严重卷曲
- 多层纸张彼此紧贴
- 墨迹极其微弱
- 碳化后的纸张与墨水密度非常接近
因此,最大的挑战不是识别字符,而是先回答:
哪里才是真正的文字表面?
团队成员在 Hacker News 评论中介绍,他们负责的正是:
- segmentation(分层)
- unwrapping(数字展开)
- ink detection(墨迹检测)
随后才能进入文本恢复阶段。[1]
这意味着,AI承担的是一种更加底层、更接近感知层(Perception Layer)的工作,而不是传统意义上的语言理解。
多学科算法的协同
整个流程几乎涵盖了现代计算机视觉的重要方向:
三维重建
CT扫描生成的是体素(Voxel)数据,而不是图片。
算法需要恢复:
- 卷轴每一层的位置
- 每层之间的边界
- 纸张的连续曲面
这更接近医学影像处理,而不是普通图像识别。
曲面展开
得到三维结构后,还要把弯曲表面映射成二维平面。
这涉及:
- 几何优化
- 曲面参数化
- 非线性变形校正
本质上属于计算几何问题。
墨迹检测
由于碳墨与纸莎草材质非常接近,仅靠传统阈值分割几乎无法完成。
这里引入了机器学习模型,通过大量样本学习那些肉眼几乎不可见的细微纹理差异。
最终,OCR才有机会发挥作用。
为什么 Hacker News 如此关注?
技术社区的热烈讨论,并不仅仅因为考古发现本身。
真正吸引开发者的是它体现出的几个趋势。
趋势一:AI开始进入科学发现
过去几年,大模型几乎成为AI讨论的全部中心。
但这个项目提醒大家:
AI最大的价值之一,并不是生成内容,而是帮助人类获得此前无法获得的数据。
它属于近年来越来越受关注的一类应用:
- AI for Science
- AI for Discovery
- AI for Research
相比聊天机器人,这类项目往往直接推动科学研究本身。
正如一位评论者所说:
当你因为互联网充满广告、推荐算法和流量竞争而感到沮丧时,请记住,还有很多聪明人在做这样真正令人惊叹的事情,只是他们没有那么高调。[1]
这条评论获得了大量共鸣,也反映了技术社区长期以来的一种期待:希望AI更多用于创造公共价值,而非单纯提升商业转化率。
趋势二:开源正在推动科研
项目同时公开了论文和 GitHub 仓库。[1]
这意味着:
- 数据格式公开
- 算法流程公开
- 社区可以持续改进
近年来,无论是 AlphaFold 之后的生物计算,还是数字考古,都越来越依赖开放社区共同推进。
开发者已经不仅是软件工程师,也开始成为科研生态的重要组成部分。
趋势三:跨学科成为竞争力
整个项目涉及:
- 考古学
- 古典语言学
- 计算机视觉
- 医学影像
- 几何计算
- 深度学习
- 高性能计算
任何单一学科都无法独立完成。
这种融合也越来越符合今天AI项目的发展模式:
真正困难的问题,通常不是模型,而是整个系统。
对开发者意味着什么?
AI的边界正在扩大
很多开发者仍把机器学习理解为:
- 推荐系统
- 广告排序
- ChatBot
- 图像生成
但赫库兰尼姆项目展示的是另一种路线:
AI正在成为新的科学仪器。
它不只是生成信息,而是帮助人类观测过去无法观测的世界。
类似方向其实越来越多:
- 医学影像诊断
- 天文观测
- 材料科学
- 遥感分析
- 文物修复
未来几年,计算机视觉与科学研究的结合可能比消费级AI更具长期影响力。
数据工程的重要性远超模型
从公开流程来看,大量工作集中在:
- 数据采集
- 图像配准
- 三维重建
- 后处理
- 可视化
真正训练模型只是其中一部分。
这也再次说明:
在真实世界项目中,数据工程、算法工程和领域知识往往比单纯追求更大的模型更重要。
更大的想象空间
讨论区另一条广受欢迎的评论提出了一个令人着迷的观点:
两千多年前,一位作者写下自己的思想时,也许能够想象作品会在图书馆保存数百年,却几乎不可能想象,一场火山喷发会毁灭又保存它,更无法想象未来的人类会利用由“沙子与闪电”演化而来的机器重新读取这些文字,并瞬间传播到全球。[1]
这种时间尺度上的震撼,也解释了为什么这则新闻能够超越技术圈,引发如此广泛的共鸣。
还有评论指出,目前发掘的赫库兰尼姆遗址仅占整体的一小部分,而现有卷轴也主要来自私人藏书。如果未来发现规模更大的图书馆,那么借助如今的数字解卷技术,或许还有成千上万卷古代文献等待重新进入人类知识体系。[1]
这意味着,今天看到的成果,很可能只是开始。
总结
赫库兰尼姆古卷首次实现完整读取,并非某一种AI模型的胜利,而是计算机视觉、三维成像、机器学习、几何计算和开放科研协同发展的成果。
对于开发者而言,这个项目最大的启发并不是学习某一种新模型,而是重新理解AI的价值:它不仅能够生成内容,也能够帮助人类突破物理限制,恢复那些沉睡数千年的信息。
当算法开始成为显微镜、望远镜之外的新型科学工具时,软件工程也正在从服务互联网,逐渐走向服务整个知识文明。这或许正是 Hacker News 社区对这一成果如此兴奋的真正原因。
参考资料
[1] Hacker News:An entire Herculaneum scroll has been read for the first time(story_id: 48675179),包含 Scroll Prize 公布的预印本、项目仓库及社区讨论。
[2] Scroll Prize 项目公开的预印本《First Scroll》及配套技术资料(见项目页面与 GitHub 仓库)。