DeepSeek需要感恩美国吗?

2025-03-06 1117 0
作者: 北方朔风 来源: 新潮沉思录

  在上周,DeepSeek开源了五个代码库,这些代码库不是大模型本身,而是大模型运行所需要的构架内容——这是之前预告过的内容,五天分别开源五个用来优化大模型效率的库。不过到了上周六,来了个意外惊喜,他们公布了V3/R1模型运行的成本利润率,理论上可以高达545%,这给业界惊讶的同时,也难免让人联想,为什么会额外公布这方面的信息呢?

  因为在公布这篇内容的时候,DeepSeek专门注册了一个官方知乎账号,而就在之前,国内一家从事大模型云服务的公司潞晨科技,这家公司的老板尤洋公开在知乎发布长文炮轰maas(模型即服务)在中国市场跑不通,DeepSeek的模式一个月要亏几个亿。

  DeepSeek公布成本利润率是否是对炮轰言论的一种回复,我们不得而知。但是面对这篇内容,这位来自于伯克利的高材生显然有些破大防,不仅攻击其他友商,而且还说出了一些非常匪夷所思的话,比如说指责DeepSeek没有感恩之心之类的话,随后还宣布停止DeepSeek的模型服务,虽然后续也有一贯的删文道歉,但是观感上实在是很糟糕。并且这家公司还被扒出之前曾经涉嫌盗用代码等问题。

  其实这个事情背景并不复杂,V3/R1模型爆火之后,各家云服务厂商都在自家平台上线了模型,国内各路大模型云服务的使用率飙升,这当然是好事,可是定价却有点麻烦了。一下子爆发出的蓝海市场竞争激烈,家大业大的云服务巨头可以短时间免费,哪怕是较小的云服务厂商,也选择了和DeepSeek官方一样的定价,因为V3/R1模型的复杂性,以这个价格运行是否能赚钱,确实是个很看技术水平的事情。

  至于尤洋的伯克利身份,这个倒是不必过多纠结,毕竟DeepSeek在MOE(专家混合模型)领域的优化设计,大概率是世界第一,美国人的高等学府比不上倒也正常。

  简单的介绍一下,MOE模型和普通的大模型的区别在于,当遇到一个token的时候,MOE模型只会激活其中的一部分参数,也就是其中的一个小模型,这类模型模型虽然可能会占据更多的内存,但是优势在于,进行大规模并行推理服务的时候MOE的并行能力更加优秀,所以大厂为外界提供服务的模型往往是这类模型,而单纯的密集模型,更适合部署在本地。

  比起目前世界上公开的其他同类模型,DeepSeek的模型更加复杂,类似的模型往往是几个类似的小模型堆在一起,而V3/R1有大量大小不一的模型,是目前开源模型之中最复杂的MOE,考虑成本上的优势,美国大厂闭源的那些模型里也很难有超过它的,在这方面的设计,确实可以说是世界第一。

查看余下77%

「 支持红色网站!」

红歌会网

感谢您的支持与鼓励!
您的打赏将用于红歌会网日常运行与维护。
帮助我们办好网站,宣传红色文化。
传播正能量,促进公平正义!

赞赏备注

长按二维码打赏

评论(我来首评..)

大家都在看

热评文章
热点文章
热赞文章
0
在『红歌会App』中阅读 ..