关于DeepSeek的误读与幻觉
过去几周,深度求索(DeepSeek)在全球范围掀起风暴。
最明显的反映在美股:1月27日,美股AI、芯片股重挫,英伟达收盘大跌超过17%,单日市值蒸发5890亿美元,创下美国股市历史上最高纪录。
在一些自媒体和公众的视角里,DeepSeek是“2025年最燃爽文主角”,有四大“爽点”:
一是“神秘力量弯道超车”。DeepSeek是一家成立于2023年的“年轻”大模型公司,此前的讨论度不及海内外任何一家大厂或者明星初创公司,其母公司幻方量化的主业为量化投资。很多人不解,中国领先的AI公司竟然出自一家私募,可谓“乱拳打死老师傅”。
二是“小力出奇迹”。DeepSeek-V3模型的训练成本约为558万美元,不到OpenAIGPT-4o模型的十分之一,性能却已接近。这被解读为DeepSeek颠覆了AI行业信奉的“圣经”——规模定律(ScalingLaw)。该定律是指通过增加训练参数量及算力来提升模型性能,通常意味着花更多钱标注高质量数据以及购买算力芯片,又被形象地称为“大力出奇迹”。
三是“英伟达护城河消失”。DeepSeek在论文中提到,采用定制的PTX(并行线程执行)语言编程,更好释放底层硬件的性能。这被解读为DeepSeek“绕开英伟达CUDA运算平台”。
四是“老外被打服了”。1月31日,一夜之间英伟达、微软、亚马逊等海外AI巨头都接入了DeepSeek。一时间,“中国AI反超美国”“OpenAI的时代结束了”“AI算力需求就此消失”等论断层出不穷,几乎一边倒地夸赞DeepSeek,嘲讽硅谷的AI巨头们。
不过,资本市场的恐慌情绪并未持续。2月6日,英伟达市值重回3万亿美元,美股芯片股普遍上涨。此时再看前述四大“爽点”也多半是误读。
其一,到2017年底,幻方量化几乎所有的量化策略都已经采用AI模型计算。当时AI领域正在经历最重要的深度学习浪潮,可以说,幻方量化紧跟前沿。
2019年,幻方量化的深度学习训练平台“萤火二号”已经搭载了约1万张英伟达A100显卡。1万卡是自训大模型的算力门槛,尽管这不能等同于DeepSeek的资源,但幻方量化比许多互联网大厂更早拿到了大模型团战的入场券。
其二,DeepSeek在V3模型技术报告中提到“558万美元不包括与架构、算法或数据相关的前期研究和消融实验的成本”。这意味着,DeepSeek的实际成本更大。
评论功能已恢复开放,请理性发表高见!