DeepSeek创始人梁文锋的60条思考
DeepSeek热度持续攀升,超预期的产品体验带来了口碑裂变。
DeepSeek创始人梁文锋的公开报道并不多,但在DeepSeek火爆之前,他曾于2023和2024年两次接受36氪旗下《暗涌》专访,从这两篇专访中,可以清晰看出无论是在技术洞见,还是理想主义的思维模式上,梁文锋许多与众不同之处。
本文汇总了他最核心的60条思考,一定程度上也可以帮助我们更加直观地理解DeepSeek这家企业脱颖而出的底层逻辑,希望对您有所帮助。
1.我们做大模型,跟量化和金融都没有直接关系。我们要做的是通用人工智能,也就是AGI。
2.语言大模型是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们从这里开始。
3.我们不会过早设计基于模型的一些应用,会专注在大模型上。从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。我们的目标很明确,就是不做垂类和应用,而是做研究,做探索。
4.我们理解人类智能的本质就是语言,人的思维就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。
5.只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。
6.我们希望更多人,哪怕一个小App都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。
7.从商业角度来讲,基础研究是投入回报比很低的。我们比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。
8.从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到10000张,这个过程是逐步发生的。很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动,对AI能力边界的好奇。
9.对很多行外人来说,ChatGPT这波浪潮冲击特别大;但对行内人来说,2012年AlexNet带来的冲击已经引领一个新的时代。AlexNet的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当2020年OpenAI发布GPT3后,方向很清楚,需要大量算力。那之后,我们有意识地去部署尽可能多的算力。
评论功能已恢复开放,请理性发表高见!