Will DeepSeek’s new model break the ‘long-context’ bottleneck holding back LLMs? | DeepSeek新模型能否突破限制大型语言模型的“长文本”瓶颈?
DeepSeek最新推出的人工智能模型DeepSeek-OCR不仅仅是一个文档解析工具,更可能预示着其下一代大型语言模型(LLMs)的发展方向。该模型是一种光学字符识别(OCR)系统,利用计算机视觉将图像转换为可机器读取的文本,广泛应用于智能车辆和文档扫描等领域。尽管其在行业标准OmniDocBench中的表现优异,但专家认为其真正的价值在于提升深Seek旗舰系列LLMs的效率,而非单纯的OCR功能。
德国特里尔大学的Florian Brand指出,这款模型的研究论文主要关注“压缩”技术,旨在解决LLMs在处理长文本时的计算成本问题。近年来,LLMs如OpenAI的ChatGPT推动了生成式AI的快速发展,但在处理大量数据时,模型的“注意力”机制变得越发复杂和耗费资源。DeepSeek通过改进压缩技术,或许可以有效解决这一难题,推动未来更高效的AI模型发展。
via SCMP Full Text Feed
DeepSeek最新推出的人工智能模型DeepSeek-OCR不仅仅是一个文档解析工具,更可能预示着其下一代大型语言模型(LLMs)的发展方向。该模型是一种光学字符识别(OCR)系统,利用计算机视觉将图像转换为可机器读取的文本,广泛应用于智能车辆和文档扫描等领域。尽管其在行业标准OmniDocBench中的表现优异,但专家认为其真正的价值在于提升深Seek旗舰系列LLMs的效率,而非单纯的OCR功能。
德国特里尔大学的Florian Brand指出,这款模型的研究论文主要关注“压缩”技术,旨在解决LLMs在处理长文本时的计算成本问题。近年来,LLMs如OpenAI的ChatGPT推动了生成式AI的快速发展,但在处理大量数据时,模型的“注意力”机制变得越发复杂和耗费资源。DeepSeek通过改进压缩技术,或许可以有效解决这一难题,推动未来更高效的AI模型发展。
via SCMP Full Text Feed