DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
最新 1 月 21 日消息,The Information 月初爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 ——DeepSeek V4,将具备更强的写代码能力。
1 月 20 日,正值 DeepSeek-R1 发布一周年之际,有开发者发现 DeepSeek 在 GitHub 中更新了一系列 FlashMLA 代码,横跨 114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。

该标识符与已知的现有模型“V32”(即 DeepSeek-V3.2)被并列或区别提及。根据代码上下文分析,“MODEL1”很可能代表一个不同于现有架构的新模型。
开发者分析认为,“MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。
此前,DeepSeek 研究团队还陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI 记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。敬请期待。
相关阅读:
《微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%》
《DeepSeek 开源大模型记忆模块:梁文锋署名新论文,下一代稀疏模型提前剧透》
《DeepSeek V4 大模型被曝春节前后发布:AI 编程能力超越 OpenAI GPT 及 Anthropic Claude》
《DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
中国铁路再创世界纪录!3.5万吨重载群组列车挑战自动编队驾驶
快科技1月21日消息,据央视新闻报道,包神铁路即将展开一场引人注目的技术试验。我国自主研发的3.5万吨重载群组列车将在此挑战世界首次重载列车的自动编队驾驶。此次试验的核心创新在于,七列... -
年发电量70亿千瓦时!我国单机容量最大效率最高燃气电厂投产
快科技1月21日消息,据央视新闻报道,浙江安吉电厂已实现全容量正式投产,标志着目前我国单机容量最大、运行效率最高的燃气电厂全面投入运行。该电厂将为华东区域冬季用电高峰提供可靠的电力支撑... -
今年春运老年人可以电话订票!仅受理满60周岁及以上旅客
快科技1月21日消息,据媒体报道,2026年春运售票已启动。考虑到部分老年旅客不熟悉手机购票,铁路部门自昨日起推出一项新服务:今年春运期间,老年人可通过拨打12306客服电话订购火车票。铁路... -
澳大利亚48小时内发生4起鲨鱼袭人事件:有人双腿截肢
快科技1月21日消息,澳大利亚广播公司报道称,当地新南威尔士州在48小时内接连发生4起鲨鱼袭人事件,造成3人受伤,其中两人伤势较重。18日下午,一名12岁男孩在新州首府悉尼东郊一处海滩遭到鲨... -
我国首个海上液体火箭发射回收试验平台将投用!年后首发
快科技1月21日消息,据央视新闻报道,最近几天,我国首个海上液体火箭发射回收试验平台正在加紧建设,项目位于我国目前唯一的商业航天海上发射母港,山东烟台海阳市。该平台计划于2026年2月5日...














