动态   |   2025-02-22 收藏 0 2

APP.gif


一起走入

Deep Seek




在人工智能的浪潮中,大模型已经成为科技竞争的焦点。然而,高昂的训练成本和巨大的算力需求,让许多企业和研究者望而却步。但就在最近,一家来自中国的公司——DeepSeek,凭借其最新推出的大模型DeepSeek-V3,成功打破了这一“怪圈”,不仅在国内引起轰动,更是在国际上赢得了广泛关注。

它为何能如此火爆?又为何能得到国内行业大佬的支持?今天,就让我们一起深入了解DeepSeek的奥秘。




PART

01

何为DeepSeek




DeepSeek,中文名“深度求索”,是量化巨头幻方量化的子公司。幻方量化在量化投资领域早已声名显赫,而DeepSeek则是其在人工智能领域的一次大胆探索。


作为一家隐形的AI巨头,幻方拥有1万枚英伟达A100芯片,强大的硬件基础为DeepSeek的发展提供了坚实支撑。2023年4月,幻方宣布成立新组织,集中资源探索AGI(通用人工智能)的本质。短短一年多时间,DeepSeek就取得了令人瞩目的成就,被硅谷称为“来自东方的神秘力量”。


PART

02

DeepSeek-V3的惊艳之处


DeepSeek-V3的出现,无疑是AI行业的一颗重磅炸弹。这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,花费557.6万美元。相比Meta的Llama-3.1,其训练投资超过5亿美元,DeepSeek-V3的成本优势不言而喻。


而更令人震惊的是,其性能却足以比肩乃至超越世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet。


PART.01

性价比的极致追求

2024年5月,DeepSeek发布了DeepSeek V2的开源模型,推理成本被降到每百万token仅1块钱,这一惊人的性价比让其在AI界一跃成名。随后,字节跳动、阿里巴巴、腾讯、百度等纷纷跟进,打响了中国大模型的价格战。


而DeepSeek-V3的发布,更是将性价比提升到了新的高度。幻方量化和DeepSeek创始人梁文锋表示:“我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”这种对普惠的追求,让DeepSeek在行业中树立了良好的口碑。



PART.02

性能的卓越表现

尽管预训练成本极低,但DeepSeek-V3的表现却非常突出。国外评测机构Artificial Analysis测试后认为,DeepSeek-V3超越了迄今为止所有开源模型。


例如,在密文解码任务中,DeepSeek-V3是唯一给出正确答案的大模型;而在代码生成的任务中,其给出的代码注释、算法原理解释以及开发流程的指引最为全面。这些都充分证明了DeepSeek-V3在性能上的卓越表现。

PART.03

技术突破与创新

DeepSeek-V3之所以能够以如此低的成本达到如此好的效果,离不开其在技术上的突破与创新。


DeepSeek采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。同时,引入了辅助损失自由负载平衡策略和多token预测训练目标,进一步提升了模型性能。在14.8万亿个高质量token上进行预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。这些技术手段,让DeepSeek在有限的硬件资源下,依然能够高效利用算力,实现较好的模型效果。


PART

03

重塑AI行业格局


DeepSeek-V3的成功引发了关于算力、大模型训练方式的大讨论。一些业内人士甚至担心,行业对算力的需求可能会大幅下降。但也有观点认为,DeepSeek的成功反而会进一步加大投入,推动更多的中小型企业入局。科技媒体Maginative的创始人兼主编Chris McKay评论称,DeepSeek-V3代表了一种潜在的范式转变,表明通过巧妙的工程和高效的训练方法,可能无须以前认为必需的庞大计算资源,就能实现人工智能的前沿能力。


随着大模型应用场景的不断拓展,对推理算力的需求也在不断攀升。以豆包大模型为例,其将带来巨大的推理端算力需求。海外科技巨头也在大手笔加大资本开支,预计2025年的资本开支可能高达3000亿美元。随着端侧AI放量,豆包、ChatGPT等AI应用的快速发展,算力需求将加速从预训练向推理侧倾斜,推理有望接力训练,成为下一阶段算力需求的主要驱动力。


DeepSeek的成功,不仅为国内其他企业带来了启发,也推动了整个行业的技术进步。梁文锋表示:“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”


DeepSeek的出现,让我们看到了中国在人工智能领域的巨大潜力和创新能力。



AI技术改变世界



DeepSeek-V3的出现,无疑是AI行业的一次重大突破。它以极低的成本实现了卓越的性能,为行业树立了新的标杆。DeepSeek的成功,不仅在于其技术上的创新,更在于其对普惠的追求。它让我们看到了人工智能的未来,不仅仅是少数巨头的游戏,而是可以通过技术创新,让更多的人受益。


DeepSeek的故事还在继续,我们期待它在未来能够带来更多惊喜,推动人工智能行业走向更加美好的明天。



期刊推荐


《科学》2025年01期

国内历史最悠久的综合性科学刊物。面向受过一定科学训练的人群,全视野综合性地介绍现代科学技术的前沿发展,关注科学热点及其相关的最新科学观念和科学-技术-社会问题。


扫码阅读


精彩内容


AI赋能消化道疾病诊疗

激扬求是之心,引发致用之理

人工智能在生物多样性领域的应用及其挑战

……


《科学24小时》2025年01期

强调科学趣味性,每期聚焦一个重大科学话题,设立“视点”、“科学探秘”、“评述”和“拓展阅读”等栏目,深度挖掘科学题材,拓展知识点,让您对全年发生的重大科学事件有一个广度和深度的了解。

扫码阅读


精彩内容


改变世界从一条小线虫开始

空天之间的“潜伏者”

未来的气象工作者

……


《科普天地》2024年12期

科普天地杂志紧跟学术前沿,紧贴读者。坚持指导性与实用性相结合的原则,创办于2005年。

扫码阅读


精彩内容


AI时代,“智”有乾坤

人工智能让瑰丽想象生动可见

铁球落地实验中的玄机

……


消息来源:中新天津生态城图书档案馆


投票专题
滨海新区文化艺术普及民众需求调查问卷
热门活动
微信订阅号