中国人工智能初创公司DeepSeek悄然发布了一款新的大型语言模型,该模型已在人工智能行业引起轰动 — 不仅是因为它的功能,还因为它的部署方式。这款 641 GB 的模型被称为DeepSeek-V3-0324,今天在几乎没有任何公告的情况下出现在 AI 存储库Hugging Face上,延续了该公司低调但影响深远的发布模式。
这次发布尤其引人注目的是该型号的MIT 许可证——使其可以自由用于商业用途——并且早期报道称它可以直接在消费级硬件上运行,特别是搭载M3 Ultra 芯片的 Apple Mac Studio。
AI 研究员Awni Hannun在社交媒体上写道:“新的 4 位 DeepSeek-V3-0324 在配备 mlx-lm 的 512GB M3 Ultra 上以每秒 20 个令牌的速度运行!”虽然 9,499 美元的 Mac Studio 可能扩大了“消费硬件”的定义,但能够在本地运行如此庞大的模型的能力与通常与最先进 AI 相关的数据中心要求大不相同。
DeepSeek 的隐身发布策略颠覆了 AI 市场的预期
这个拥有 6850 亿个参数的模型没有附带白皮书、博客文章或营销宣传,只有一个空的README 文件和模型权重本身。这种方法与西方 AI 公司典型的精心策划的产品发布形成了鲜明对比,西方 AI 公司的产品发布通常会在实际发布之前进行数月的宣传。
早期测试人员报告称,新版本较上一版本有显著改进。人工智能研究员Xeophon在 X.com 的一篇文章中宣称:“我在内部工作台上测试了新版 DeepSeek V3,发现它在所有测试的所有指标上都有了巨大飞跃。它现在是最好的非推理模型,超越了 Sonnet 3.5。”
如果这一说法得到更广泛的测试验证,DeepSeek 的新模型将超越Anthropic 的Claude Sonnet 3.5,后者是最受尊敬的商业 AI 系统之一。与需要订阅的 Sonnet 不同,DeepSeek-V3-0324的权重可供任何人免费下载和使用。
DeepSeek V3-0324 的突破性架构如何实现无与伦比的效率
DeepSeek-V3-0324采用混合专家(MoE) 架构,从根本上重新构想了大型语言模型的运作方式。传统模型会针对每项任务激活其全部参数数量,但 DeepSeek 的方法在特定任务期间仅激活其 6850 亿个参数中的约 370 亿个。
这种选择性激活代表了模型效率的范式转变。通过仅激活每个特定任务最相关的“专家”参数,DeepSeek 实现了与更大的完全激活模型相当的性能,同时大大降低了计算需求。
该模型还采用了另外两项突破性技术:多头潜在注意力(MLA) 和多标记预测(MTP)。MLA 增强了模型在长篇文本中保持上下文的能力,而 MTP 每一步生成多个标记,而不是通常的一次生成一个标记的方法。这些创新共同将输出速度提高了近 80%。
开发工具创建者Simon Willison在一篇博客文章中指出,4 位量化版本将存储占用空间减少到 352GB,从而可以在搭载M3 Ultra 芯片的Mac Studio等高端消费硬件上运行。
这代表着人工智能部署的潜在重大转变。虽然传统的人工智能基础设施通常依赖于多个Nvidia GPU,消耗几千瓦的电力,但 Mac Studio 在推理过程中的功耗不到 200 瓦。这种效率差距表明,人工智能行业可能需要重新考虑对顶级模型性能的基础设施要求的假设。
中国的开源人工智能革命挑战硅谷的封闭花园模式
DeepSeek 的发布策略体现了中国和西方公司在人工智能商业理念上的根本分歧。虽然OpenAI和Anthropic等美国领军企业将他们的模型置于付费墙之下,但中国人工智能公司越来越多地接受宽松的开源许可。
这种方法正在迅速改变中国的人工智能生态系统。尖端模型的开放性产生了乘数效应,使初创企业、研究人员和开发人员无需大量资本投入即可在复杂的人工智能技术上进行开发。这加速了中国人工智能能力的发展,其速度令西方观察家感到震惊。
这一战略背后的商业逻辑反映了中国的市场现实。面对多个资金雄厚的竞争对手,当竞争对手免费提供类似功能时,维持专有方法变得越来越困难。开源通过生态系统领导力、API 服务和建立在免费基础模型之上的企业解决方案创造了替代的价值途径。
即使是中国知名科技巨头也意识到了这一转变。百度宣布计划在 6 月份之前将其Ernie 4.5 系列模型开源,而阿里巴巴和腾讯则发布了具有专门功能的开源 AI 模型。这一举措与西方领导者采用的以 API 为中心的战略形成了鲜明对比。
开源方法还解决了中国人工智能公司面临的独特挑战。由于对尖端Nvidia 芯片的使用受到限制,中国公司强调效率和优化,以利用更有限的计算资源实现竞争性能。这种由需求驱动的创新现在已成为一种潜在的竞争优势。
DeepSeek V3-0324:人工智能推理革命的基础
DeepSeek-V3-0324的推出时机和特点强烈表明,它将成为DeepSeek-R2的基础,后者是一款改进的推理模型,预计在未来两个月内推出。这遵循了 DeepSeek 的既定模式,即其基础模型比专门的推理模型早几周推出。
Reddit 用户mxforest指出:“这与他们在圣诞节前后发布 V3 并随后在几周后发布 R1 的方式一致。据传 R2 将于 4 月发布,所以可能是这个版本。”
先进的开源推理模型的意义不容小觑。OpenAI的 o1和DeepSeek 的 R1等当前推理模型代表了人工智能能力的前沿,展示了从数学到编码领域前所未有的解决问题的能力。免费提供这项技术将使目前只有预算充足的人才能够使用人工智能系统。
潜在的 R2 模型问世之际,推理模型的计算需求得到了重大披露。Nvidia 首席执行官黄仁勋最近指出,DeepSeek 的 R1 模型“比非推理 AI 消耗的计算量多 100 倍”,这与之前业界对效率的假设相矛盾。这揭示了 DeepSeek 模型背后的非凡成就,这些模型在资源限制比西方同行更严格的情况下,仍能提供具有竞争力的性能。
如果 DeepSeek-R2 遵循 R1 设定的轨迹,它可能会直接挑战GPT-5,据传 OpenAI 的下一个旗舰模型将在未来几个月发布。OpenAI 的封闭、资金雄厚的方法与 DeepSeek 的开放、资源高效的战略之间的对比代表了对 AI 未来的两种相互竞争的愿景。
如何体验 DeepSeek V3-0324:面向开发人员和用户的完整指南
对于那些渴望尝试DeepSeek-V3-0324的人来说,根据技术需求和资源,有几种途径可供选择。完整的模型权重可从Hugging Face获得,但 641GB 的大小使得直接下载只对那些拥有大量存储空间和计算资源的人实用。
对于大多数用户来说,基于云的选项提供了最方便的切入点。OpenRouter提供对模型的免费 API 访问,并具有用户友好的聊天界面。只需选择DeepSeek V3 0324 作为模型即可开始实验。
DeepSeek 自己的聊天界面chat.deepseek.com可能也已更新到新版本,尽管该公司尚未明确证实这一点。早期用户报告称,该模型可通过此平台访问,且性能比以前的版本有所提高。
希望将模型集成到应用程序中的开发人员可以通过各种推理提供商访问它。Hyperbolic Labs宣布立即可用,成为“第一个在 Hugging Face 上提供此模型的推理提供商”,而 OpenRouter 提供与OpenAI SDK兼容的 API 访问。
DeepSeek 的新模型优先考虑技术精度而不是对话热情
早期用户报告称,该模型的沟通风格发生了明显变化。虽然之前的 DeepSeek 模型因其对话式、类似人类的语气而受到称赞,但“ V3-0324 ”呈现出更正式、更注重技术的形象。
“是不是只有我一个人觉得这个版本不太像人类?”Reddit 用户nother_level问道。“对我来说,deepseek v3 与其他版本的区别在于它更像人类。比如语气、单词等,它听起来不像其他 llm 那样像机器人,但现在这个版本听起来像其他 llm 那样像机器人。”
另一位用户AppearanceHeavy6724补充道:“是的,它确实失去了冷漠的魅力,感觉太过理智了。”
这种性格转变可能反映了 DeepSeek 工程师的深思熟虑的设计选择。向更精确、更分析的沟通方式的转变表明,该模型的战略性重新定位是为了专业和技术应用,而不是随意的交谈。这符合更广泛的行业趋势,因为人工智能开发人员越来越认识到,不同的用例受益于不同的交互方式。
对于开发专业应用程序的开发人员来说,这种更精确的沟通方式实际上可能是一种优势,可以提供更清晰、更一致的输出,以便集成到专业工作流程中。然而,这可能会限制该模式对面向客户的应用程序的吸引力,因为这些应用程序重视热情和平易近人。
DeepSeek 的开源战略如何重塑全球 AI 格局
DeepSeek 的 AI 开发和分发方法不仅代表了一项技术成就,还体现了对先进技术应如何在社会中传播的根本不同愿景。通过在宽松的许可下免费提供尖端 AI,DeepSeek 实现了指数级创新,而封闭模型本身会限制创新。
这种理念正在迅速缩小中国和美国在人工智能方面的差距。就在几个月前,大多数分析师估计中国在人工智能方面落后美国 1-2 年。如今,这一差距已大幅缩小至 3-6 个月,一些领域已接近中国水平,甚至领先中国。
这与 Android 对移动生态系统的影响有着惊人的相似之处。谷歌决定免费提供 Android,从而打造了一个最终占据全球市场份额的平台。同样,开源 AI 模型可能凭借其普遍性和数千名贡献者的集体创新,胜过封闭系统。
其影响不仅限于市场竞争,还涉及技术获取的基本问题。西方人工智能领导者因将先进能力集中在资源丰富的公司和个人手中而受到越来越多的批评。DeepSeek 的方法将这些能力分布得更广泛,有可能加速全球人工智能的采用。
随着DeepSeek-V3-0324进入全球研究实验室和开发者工作站,竞争不再只是打造最强大的人工智能,而是让最多的人能够利用人工智能进行构建。在这场竞赛中,DeepSeek 的悄然发布充分说明了人工智能的未来。最自由地分享技术的公司最终可能会对人工智能如何重塑我们的世界产生最大的影响。