DeepSeek提出新途径扩展AI规模,但研究人员呼吁更多测试 | DeepSeek提出新路径扩展AI规模,但研究人员呼吁进一步测试

DeepSeek公司提出的“mHC”架构可能会改变大型语言模型(LLMs)的训练方式,这项技术为开发者提供了在不依赖大量计算资源的情况下扩展模型的可能性。然而,专家们警告称,尽管该方法具有潜在的广泛应用前景,但实际实施仍面临困难。

在上周发布的一份技术论文中,DeepSeek的创始人兼CEO梁文峰共同撰写,提出了“多面限制超连接(Manifold-Constrained Hyper-Connections,mHC)”方法,旨在解决由中国科技巨头字节跳动于2024年引入的超连接(HC)网络结构的训练不稳定问题。HC旨在克服残差网络(ResNet)的局限性,ResNet是支撑许多现代深度学习模型的重要架构,最初由微软亚洲研究院的研究人员提出。此举标志着这家中国AI创业公司在提升模型训练效率方面的最新努力,也引发了外界对其未来模型可能采用新架构的猜测。

via SCMP Full Text Feed
 
 
Back to Top