DeepSeek的终极野心：把大语言模型的基本语言都改造成图像-

当我们谈论DeepSeek时，很少会提及多模态。

然而，10月20日，DeepSeek突然开源了DeepSeek-OCR。看起来，它是一个OCR（光学字符识别）模型，并且在OmniDocBench等权威基准上取得了SOTA（业界顶尖）的成绩。

那它为什么要突然涉足OCR领域？答案藏在当前大语言模型面临的最大挑战中：长上下文处理的算力瓶颈。

这篇论文的核心论点是：文本信息可以通过光学2D映射（即渲染成图像）被高效压缩，然后让VLM（视觉语言模型）从图像中解压出原始信息。

简单来说，就是将文本内容转换为图像形式，用比等效数字文本少得多的视觉token来表示相同的信息。

对此，大神AndrejKarpathy也表示深受该论文启发，感觉可能像素（pixels）是比文本（text）更好的LLM输入。

还列举了这么做的四大好处：

信息压缩：他明确引用了DeepSeek-OCR论文的观点，这将带来“更短的上下文窗口和更高的效率”。

更通用的信息流：输入不再局限于纯文本，还可以包含“粗体、彩色文本、任意图像”。

更强的处理方式：图像可以被“双向注意力”（bidirectional attention）轻松处理，这比文本常用的自回归注意力“强大得多”。

删除（输入端的）Tokenizer”：这是他最激动的一点。他借此强烈抨击了现有的分词器这个老大难问题。

本文将深度解析这一构想，探讨DeepSeek为何要用视觉这把锤子来敲文本这颗钉子。这一论文，很有可能会用一图胜千言的模式，改变以后LLM的整个输入范式。

01 名为OCR，实为长上下文

在LLM的世界里，一切竞争的尽头，似乎都是对“更长上下文”的追求。从几千token到几万，再到今天的百万、千万token窗口，这场军备竞赛从未停歇。

其背后的根本制约，源于Transformer架构的灵魂，注意力机制。

标准的全局注意力，允许序列中的每一个token都看到所有其它token，这赋予了模型强大的上下文理解能力。但在当前主流的自回归模型中，这种能力的代价是高昂的：因为每个token都要和前面所有token建立起乘积关系去预测下一个token，因此其计算复杂度和内存占用随序列长度成二次方增长。

尽管业界已经提出了分组注意力、多查询注意力、RoPE位置编码等优化技术来减少查询头的数量，但这些方法本质上都是试图优化中的那个token计算的平方复杂性，却从未真正减少token数量本身。

DeepSeek-AI团队的工程师们显然注意到了这个房间里的大象。他们跳出了优化注意力计算的内卷，提出了一个更根本的问题：我们能不能把token数量本身给“压缩”掉？

这就是光学压缩（Contexts Optical Compression）的逻辑起点。

想理解这个，我们得先弄明白视觉token和文本token的不同。

视觉token是视觉模型处理图像时所使用的基本信息单元。文本模型（LLM）阅读的是文本token（单词或子词），而视觉模型（VLM）观看的就是视觉token。

在DeepSeek-OCR 论文中，视觉token是先将高分辨率图像切割成小的图像块，在编码过程中，每个小图像块本身都会被转换成一个数字向量（即一个token），而这个向量就代表了该图像块的全部信息。因此一张1024*1024的图像就可以被划归成4096个视觉token。

而大小为其一半的图像能容纳的文字量大概是10000个文本token。

因此，一张包含10000个单词的文档图像，经过视觉化后的token量就少了一半，再经过图像压缩，则可能只需要几百个视觉token，而如果以文本形式输入则需要10000多个文本token。这种“视觉模态天然就是文本信息的高效压缩媒介”的认知，催生了DeepSeek-OCR这个项目。

DeepSeek-OCR本质上是一个“光学压缩-解压”系统的概念验证。它试图回答一个根本性问题：用多少个视觉token，能够解压出多少倍的文本token？

这个问题的答案，将直接决定“视觉压缩”作为长上下文解决方案的可行性。DeepSeek目前的方案，实现了10倍压缩，几乎无损，20倍压缩，基本可用。

02 DeepEncoder，压缩的艺术

要实现光学压缩，团队需要一个前所未有的视觉编码器。它必须能处理高分辨率输入（因为文本图像包含海量细节），产生尽可能少的视觉token。同时，这个过程中，激活内存要够低（否则就失去了优化的意义）。

论文明确指出，当时所有的主流VLM架构（如Vary、InternVL2、Qwen2-VL）都无法同时满足这三点。

为此，DeepSeek-AI设计了这篇论文的第一个核心技术创新：DeepEncoder。

DeepEncoder 是一个约3.8亿参数的串联架构，它的工作流很像个情报处理团队，形成一个三级串联的架构。

第一级是一个80M参数的SAM-base感知器。它就像个搜集情报的特工，专门负责处理高分辨率输入的局部细节。当面对1024×1024的图像时，它会将其分解为4096个图像块，但通过窗口注意力机制，将计算严格限制在小窗口内部，从而在处理海量局部token时保持极低的激活内存。

第二级是整个架构的关键，是一个16倍压缩器(Conv 16x) 。它的角色像一个信息汇总员，是一个2层的卷积模块。它接收来自第一阶段的4096份“原始情报”，并通过一个可学习的16倍下采样，将其“压缩提炼”成一份仅有256条视觉token的“摘要简报”。它在训练中被教会了如何保留对“解压文本”最重要的特征。

第三级是一个300M参数的CLIP-large知识层，它就像个总指挥官。这一部分不看那4096份原始情报，他只看这份256条的摘要简报。因为简报足够短，他可以奢侈地使用昂贵的全局注意力（Global Attention），对这256条精华信息进行全面的交叉对比和精细观察，从而理解这些压缩token之间的长距离关系和全局语义结构。

编码器（DeepEncoder）输出的256个token，只是一个全局视觉摘要。真正负责按顺序复述出完整上下文的，是后续的解码器 DeepSeek-3B-MoE 。DeepSeek-3B-MoE 接收到这个视觉token的摘要，生成文本。它会参考DeepEncoder给出的全局摘要中的“中间部分”的视觉证据，同时用自己的语言模型来确保上下文的连贯。

DeepEncoder 这种先局部、再压缩、后全局的串联设计，完美地规避了所有之前解决方案的问题。

Vary像两个独立专家，一个看细节一个看轮廓，LLM最后自己去猜。DeepEncoder 则是单路串联，信息逐级提炼，架构更优。

InternVL2则是把大图切成海量碎片，产生几千个token，也不具备全局性和压缩能力。DeepEncoder通过内部压缩，只产生几百个token。

Qwen2-VL试图对几千个token直接用全局注意力，很容易导致显存爆炸。DeepEncoder 则只对压缩后的256个token用全局注意力，成本可控。

这种“先局部感知，再压缩提炼，后全局理解”的设计哲学，完美解决了高分辨率处理和低计算成本之间的矛盾。

实验结果证明了这一设计的有效性：

10倍压缩率： 当使用64个视觉token（Tiny模式）解码600-700个文本token时，压缩率达到 10.5倍，OCR精度高达 96.5%。

20倍压缩率： 当压缩率飙升到近 20倍时（如用64token解码1200+token），模型精度会下降，但依然保持在 ~60% 的可用水平。

Deepseek OCR所需的tokens数量会随文档类型而变化：简单演示文稿约需64tokens；书籍和报告约需100tokens；复杂的报纸内容则需启用所谓的“高达模式”（Gundam Mode），最高使用800tokens。

在实际的OCR基准OmniDocBench上，它更是实现了降维打击：

DeepSeek-OCR（Small模式）仅用100个视觉token，性能就超过了使用256个token的GOT-OCR2.0。

DeepSeek-OCR（Gundam模式）使用不到800个视觉token，性能全面超越了需要近7000个token的MinerU2.0。

这意味着，用这种方法，实际上可以做到当下上下文极限长度的十倍，而不降低其准确率。而且因此其压缩效率，单颗英伟达A100 GPU即可每日处理超过20万页文档；若配备20台服务器（每台搭载8颗A100 GPU），系统的日处理能力可提升至约3300万页。

DeepSeek-OCR还可识别并处理多种文档类型，包括纯文本、图表、化学式与几何图形。它支持约100种语言，既能保持原始版式，又能输出纯文本或生成图像内容描述。

更重要的是，这种方法不需要任何额外的基础设施成本，因为多模态系统本身就需要视觉编码器。

DeepSeek-OCR实际上是在现有的VLM基础设施上，实现了一种全新的文本压缩范式。

03 窗口注意力的回响

其实DeepSeek所用的方法会多少让人有点眼熟。因为在Transformer统治一切之前，在BERT和早期RNN的时代，窗口是最主流的妥协方案。

无论是RNN的BPTT（随时间反向传播）截断，还是BERT为代表的模型所采用的滑动窗口（Sliding Window），其逻辑都是：模型无法一次性处理全部上下文，那就只看一个固定大小的窗口。

这其实和DeepSeek-OCR有点像，它也是把上下文截成一个个压缩后的图像信息去处理。

但过去的方法无法处理信息孤岛效应。当注意力被严格限制在局部窗口内时，模型失去了理解长距离依赖关系的能力。一个文档的标题可能无法与其对应的图表产生有效的关联，因为它们被困在不同的“注意力窗口”中。这种局限性使得传统窗口方法在需要全局理解的任务中表现不佳。

但在Transformer时代，这个方法的内在机制已经发生了质变。它继承了窗口注意力计算高效的优点，同时通过混合架构设计巧妙地解决了信息孤岛问题。

这里面，先验知识 (Prior Knowledge)是最关键的区别。BERT的窗口是缺乏先验知识的，它对处理的内容一无所知。而DeepSeek-OCR的编码器和解码器都是经过大规模预训练的模型，它们对视觉结构、文本布局、语言规律都有深刻的理解。这种丰富的先验知识使得模型即使在高度压缩的情况下，也能通过“智能推理”重建出原始信息。

因此，DeepSeek-OCR的方案不是对窗口注意力的简单复刻，而是一次彻底的范式革新。

它用基于先验的感知压缩取代了基于邻近性的无知截断，在保留全局视野的同时，实现了比传统窗口高效得多的信息保真度。

04 终极愿景，用光学遗忘模拟人类记忆

如果说10倍的上下文压缩率是DeepSeek-OCR的里子，那么它在论文第五章讨论和结论中展露的野心，就是它真正的灵魂。

团队提出了一个极具想象力的宏伟目标：模拟人类的遗忘机制。

人类的记忆系统具有天然的分层和衰减特性。刚刚发生的事件在我们的记忆中晶莹剔透，几个月前的经历变得模糊不清，而多年前的记忆可能几乎消失。这种遗忘不是系统的缺陷，而是一种高效的信息管理机制。

它确保大脑将有限的认知资源分配给最相关、最重要的信息，同时通过压缩和模糊化来保留远期记忆的要点。

有趣的是，人类的视觉感知也表现出类似的距离衰减特性。我们对10厘米处的物体看得晶莹剔透，对20米外的景象则几乎看不清。

DeepSeek-OCR的多分辨率设计，恰好提供了模拟这种衰减机制的技术基础。

AI系统可以采用以下策略来管理其记忆：对于近期的上下文（比如最近几轮对话），系统可以保留为高精度的文本token，或者渲染成高分辨率图像用Gundam模式（高token数）处理，确保信息的完整保真；对于中期上下文（比如10轮前的对话），可以渲染成图像并用Base模式（256token）处理，信息开始变得模糊但仍然可用；对于远期上下文（比如100轮前的对话），可以进一步降低渲染分辨率，用Tiny模式（64token）处理，信息高度压缩但仍保留核心要点。

在实际应用中，把过去的上下文作为模糊记忆，利用OCR去使用的流程会更像这样：

1. 模型完成今天的对话后，将“昨天的对话”渲染成一张或几张图片。

2. 模型将这张历史图片喂给 DeepEncoder。DeepEncoder 对其进行全局感知和压缩，最后输出一套极少数的视觉上下文token（比如用Base模式，输出256token）。

3. 当您今天输入新的问题时（比如有50个token），模型会在内部将您今天的token（50个）和那256个代表昨天的视觉token拼接在一起。

4. 模型的解码器（如 DeepSeek-3B-MoE）现在只需要处理 $50 + 256 = 306token，它会对这两组token（一组是文本，一组是视觉）同时进行注意力计算，然后生成对您今天问题的回答。

这种分层记忆机制的最大价值在于，它提供了一条通往“理论上无限上下文”的可能路径。传统的长上下文技术要么通过滑动窗口彻底丢弃历史信息，要么试图保留所有细节而导致计算成本爆炸。

而“光学遗忘”机制通过渐进式的信息压缩，在保留历史要点和控制计算成本之间实现了动态平衡。

然而，这个优雅的机制是否完美？它目前还不是。

DeepSeek-OCR当前所展示的压缩，是一种无选择性的均匀压缩。它就像我们调整图像分辨率，图像上的所有内容，都会被同等程度地模糊掉。

这显然不符合人类的记忆机制。我们人类的遗忘是有选择性的，它与注意力和重要性高度相关。我们会牢牢记住婚礼上的誓言，却会迅速忘记早餐吃了什么。

DeepSeek-OCR目前还做不到这一点。它用Tiny模式压缩的1天前的对话，很可能把关键信息和垃圾信息一起忘掉了。

但这个范式，指明了下一座要攀登的高峰。

DeepSeek-OCR只是第一步，它验证了光学压缩这个机制的可行性。第二步，就是让压缩变得有选择性。它为AI的记忆、遗忘和输入机制提供了一个全新的技术框架。

有时候忘记和压缩，比记住和保留更加重要。

这篇文章更重要的范式意义，可能是输入上统一的可能，因为图像这个模态其实更合乎人类认知。

当我们人类阅读时，我们并不是在处理抽象的文本token，而是在用视觉系统处理屏幕或纸张上的像素、形状和布局。我们的大脑首先是一个强大的视觉处理器，然后才是语言解码器。

因此Karpathy提出了那个激进的设想：所有给LLM的输入都应该先被渲染成图像。并非毫无道理，因为这可能才是更自然、更高效的信息流。

这也许才是一条真正模拟了人类认知和遗忘的、通向无限上下文的，AGI记忆和输入系统的新路径。

本文来自微信公众号“腾讯科技”，作者：博阳。

1 如果您喜欢本站， 开通会员 赞助下本站，感谢支持！
2 可能会帮助到你： 用户协议 | 免责声明 隐私政策 |
3 如若转载，请注明文章出处：新思维资源网
4 本站内容观点不代表本站立场，并不代表本站赞同其观点和对其真实性负责
5 若作商业用途，请联系原作者授权，若本站侵犯了您的权益请 联系站长 进行删除处理
6 本站所有内容均来源于网络，仅供学习与参考，请勿商业运营，严禁从事违法、侵权等任何非法活动，否则后果自负

THE END