DeepSeek proposes shift in AI model development with ‘mHC’ architecture to upgrade ResNet | DeepSeek提出采用‘mHC’架构升级ResNet的AI模型开发新策略
DeepSeek最新发布的一篇技术论文由公司创始人兼CEO梁文峰共同撰写,被认为可能在人工智能模型的开发中带来重大变革。论文主题为“流形约束超连接(mHC)”,对传统残差网络(ResNet)中的超连接机制进行了改进,这一机制是大型语言模型(LLMs)的基础。研究显示,mHC在参数为3亿、9亿和27亿的模型中均能实现良好扩展,且不会显著增加计算负担,展现了该中国AI初创公司在有限计算资源下训练强大模型的持续努力。
这篇论文于1月1日发表后,立即引起开发者的广泛关注和讨论。香港科技大学的龙权教授表示,mHC的创新对于为LLMs设计的变换器架构具有“非常重要的意义”,并对DeepSeek在提升LLM效率方面取得的突破表示“非常激动”。
值得注意的是,尽管大多数AI初创公司目前专注于将LLMs的能力转化为智能代理及其他应用,DeepSeek作为梁文峰量化交易公司的副项目,仍在致力于改进机器从数据中学习的基础技术机制,寻求在技术层面实现突破。
via SCMP Full Text Feed
DeepSeek最新发布的一篇技术论文由公司创始人兼CEO梁文峰共同撰写,被认为可能在人工智能模型的开发中带来重大变革。论文主题为“流形约束超连接(mHC)”,对传统残差网络(ResNet)中的超连接机制进行了改进,这一机制是大型语言模型(LLMs)的基础。研究显示,mHC在参数为3亿、9亿和27亿的模型中均能实现良好扩展,且不会显著增加计算负担,展现了该中国AI初创公司在有限计算资源下训练强大模型的持续努力。
这篇论文于1月1日发表后,立即引起开发者的广泛关注和讨论。香港科技大学的龙权教授表示,mHC的创新对于为LLMs设计的变换器架构具有“非常重要的意义”,并对DeepSeek在提升LLM效率方面取得的突破表示“非常激动”。
值得注意的是,尽管大多数AI初创公司目前专注于将LLMs的能力转化为智能代理及其他应用,DeepSeek作为梁文峰量化交易公司的副项目,仍在致力于改进机器从数据中学习的基础技术机制,寻求在技术层面实现突破。
via SCMP Full Text Feed