文化随行-【好书共赏】丨一起走入Deep Seek

【好书共赏】丨一起走入Deep Seek

动态 | 2025-02-22 收藏 0

一起走入

Deep Seek

在人工智能的浪潮中，大模型已经成为科技竞争的焦点。然而，高昂的训练成本和巨大的算力需求，让许多企业和研究者望而却步。但就在最近，一家来自中国的公司——DeepSeek，凭借其最新推出的大模型DeepSeek-V3，成功打破了这一“怪圈”，不仅在国内引起轰动，更是在国际上赢得了广泛关注。

它为何能如此火爆？又为何能得到国内行业大佬的支持？今天，就让我们一起深入了解DeepSeek的奥秘。

PART

何为DeepSeek

DeepSeek，中文名“深度求索”，是量化巨头幻方量化的子公司。幻方量化在量化投资领域早已声名显赫，而DeepSeek则是其在人工智能领域的一次大胆探索。

作为一家隐形的AI巨头，幻方拥有1万枚英伟达A100芯片，强大的硬件基础为DeepSeek的发展提供了坚实支撑。2023年4月，幻方宣布成立新组织，集中资源探索AGI（通用人工智能）的本质。短短一年多时间，DeepSeek就取得了令人瞩目的成就，被硅谷称为“来自东方的神秘力量”。

PART

DeepSeek-V3的惊艳之处

DeepSeek-V3的出现，无疑是AI行业的一颗重磅炸弹。这个参数量高达671B的大模型，在预训练阶段仅使用2048块GPU训练了2个月，花费557.6万美元。相比Meta的Llama-3.1，其训练投资超过5亿美元，DeepSeek-V3的成本优势不言而喻。

而更令人震惊的是，其性能却足以比肩乃至超越世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet。

PART.01

性价比的极致追求

2024年5月，DeepSeek发布了DeepSeek V2的开源模型，推理成本被降到每百万token仅1块钱，这一惊人的性价比让其在AI界一跃成名。随后，字节跳动、阿里巴巴、腾讯、百度等纷纷跟进，打响了中国大模型的价格战。

而DeepSeek-V3的发布，更是将性价比提升到了新的高度。幻方量化和DeepSeek创始人梁文锋表示：“我们降价一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一方面也觉得无论API，还是AI，都应该是普惠的、人人可以用得起的东西。”这种对普惠的追求，让DeepSeek在行业中树立了良好的口碑。

PART.02

性能的卓越表现

尽管预训练成本极低，但DeepSeek-V3的表现却非常突出。国外评测机构Artificial Analysis测试后认为，DeepSeek-V3超越了迄今为止所有开源模型。

例如，在密文解码任务中，DeepSeek-V3是唯一给出正确答案的大模型；而在代码生成的任务中，其给出的代码注释、算法原理解释以及开发流程的指引最为全面。这些都充分证明了DeepSeek-V3在性能上的卓越表现。

PART.03

技术突破与创新

DeepSeek-V3之所以能够以如此低的成本达到如此好的效果，离不开其在技术上的突破与创新。

DeepSeek采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构，实现了高效的推理和经济高效的训练。同时，引入了辅助损失自由负载平衡策略和多token预测训练目标，进一步提升了模型性能。在14.8万亿个高质量token上进行预训练时，通过监督微调和强化学习阶段充分挖掘了其潜力。这些技术手段，让DeepSeek在有限的硬件资源下，依然能够高效利用算力，实现较好的模型效果。

PART

重塑AI行业格局

DeepSeek-V3的成功引发了关于算力、大模型训练方式的大讨论。一些业内人士甚至担心，行业对算力的需求可能会大幅下降。但也有观点认为，DeepSeek的成功反而会进一步加大投入，推动更多的中小型企业入局。科技媒体Maginative的创始人兼主编Chris McKay评论称，DeepSeek-V3代表了一种潜在的范式转变，表明通过巧妙的工程和高效的训练方法，可能无须以前认为必需的庞大计算资源，就能实现人工智能的前沿能力。

随着大模型应用场景的不断拓展，对推理算力的需求也在不断攀升。以豆包大模型为例，其将带来巨大的推理端算力需求。海外科技巨头也在大手笔加大资本开支，预计2025年的资本开支可能高达3000亿美元。随着端侧AI放量，豆包、ChatGPT等AI应用的快速发展，算力需求将加速从预训练向推理侧倾斜，推理有望接力训练，成为下一阶段算力需求的主要驱动力。

DeepSeek的成功，不仅为国内其他企业带来了启发，也推动了整个行业的技术进步。梁文锋表示：“过去很多年，中国公司习惯了别人做技术创新，我们拿过来做应用变现，但这并非一种理所当然。这一波浪潮里，我们的出发点，就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。”

DeepSeek的出现，让我们看到了中国在人工智能领域的巨大潜力和创新能力。

AI技术改变世界

DeepSeek-V3的出现，无疑是AI行业的一次重大突破。它以极低的成本实现了卓越的性能，为行业树立了新的标杆。DeepSeek的成功，不仅在于其技术上的创新，更在于其对普惠的追求。它让我们看到了人工智能的未来，不仅仅是少数巨头的游戏，而是可以通过技术创新，让更多的人受益。

DeepSeek的故事还在继续，我们期待它在未来能够带来更多惊喜，推动人工智能行业走向更加美好的明天。

期刊推荐

《科学》2025年01期

国内历史最悠久的综合性科学刊物。面向受过一定科学训练的人群，全视野综合性地介绍现代科学技术的前沿发展，关注科学热点及其相关的最新科学观念和科学－技术－社会问题。