Will DeepSeek’s new model break the ‘long-context’ bottleneck holding back LLMs? | DeepSeek新模型能否突破限制大型语言模型的“长文本”瓶颈？DeepSeek最新推出的人工智能模型DeepSeek-OCR不仅仅是一个文档解析工具，更可能预示着其下一代大型语言模型（LLMs）的发展方向

Will DeepSeek’s new model break the ‘long-context’ bottleneck holding back LLMs? | DeepSeek新模型能否突破限制大型语言模型的“长文本”瓶颈？

DeepSeek最新推出的人工智能模型DeepSeek-OCR不仅仅是一个文档解析工具，更可能预示着其下一代大型语言模型（LLMs）的发展方向。该模型是一种光学字符识别（OCR）系统，利用计算机视觉将图像转换为可机器读取的文本，广泛应用于智能车辆和文档扫描等领域。尽管其在行业标准OmniDocBench中的表现优异，但专家认为其真正的价值在于提升深Seek旗舰系列LLMs的效率，而非单纯的OCR功能。

德国特里尔大学的Florian Brand指出，这款模型的研究论文主要关注“压缩”技术，旨在解决LLMs在处理长文本时的计算成本问题。近年来，LLMs如OpenAI的ChatGPT推动了生成式AI的快速发展，但在处理大量数据时，模型的“注意力”机制变得越发复杂和耗费资源。DeepSeek通过改进压缩技术，或许可以有效解决这一难题，推动未来更高效的AI模型发展。

via SCMP Full Text Feed