訂閱
糾錯
加入自媒體

浙江私募大佬,一夜震驚硅谷!

圖片

  中國不可能永遠(yuǎn)跟隨!

  文 | 華商韜略 張靜波

  2024年冬天,杭州。

  當(dāng)西方還沉浸在圣誕節(jié)的狂歡中時,一位中國碼農(nóng),站在巨大的落地窗前,遠(yuǎn)眺著窗外的京杭大運河。

  幾分鐘后,他做了一件令硅谷震驚的事。

  【來自東方的神秘力量】

  “一種新的模式,讓整個山谷都嗡嗡作響!”

  美國CNBC電視臺在報道這件事對硅谷的影響時,這樣評價道。

  12月26日,杭州一家名為“深度求索”的中國初創(chuàng)公司,發(fā)布了全新一代大模型:

  DeepSeek-V3。

  在多個基準(zhǔn)測試中,DeepSeek-V3的性能均超越了其他開源模型,甚至與頂尖的閉源大模型GPT-4o不相上下。

圖片

  尤其在數(shù)學(xué)推理上,DeepSeek-V3更是遙遙領(lǐng)先。

  令人驚訝的是,DeepSeek-V3在性能比肩GPT-4o的同時,研發(fā)卻只花了558萬美元,訓(xùn)練成本不到后者的二十分之一。

  這讓美國人徹底坐不住了。

  在此之前,谷歌和Open AI花了幾年時間,耗資數(shù)億甚至數(shù)十億美元,調(diào)用了幾萬塊最先進(jìn)的GPU,才干成同樣的事情。

  強(qiáng)烈的對比,讓美國人反思:大模型和算力,是否還值得投資?

  很多硅谷大佬在紛紛點贊的同時,也體驗到中國科技帶來的苦澀:當(dāng)美國人休息時,他們在奮力追上我們!

  有意思的是,這件事與中國空軍六代機(jī)現(xiàn)身,幾乎前后腳發(fā)生。

  不少美國人認(rèn)為,這比六代機(jī)更像上世紀(jì)50年代,蘇聯(lián)搶先發(fā)射第一顆人造衛(wèi)星的斯普特尼克時刻。

  然而,真正讓美國硅谷感到震撼的,還不是DeepSeek-V3的高性能、低成本,而是中國人展現(xiàn)出的首創(chuàng)精神。

  中國AI公司過去幾乎都在照搬硅谷,以致人們普遍認(rèn)為:美國擅長從0到1的技術(shù)突破,而中國只擅長從1到100的應(yīng)用落地。

  DeepSeek-V3打破了這種成見,它以MLA、DeepSeekMoE等多項開創(chuàng)性技術(shù),大幅提升了模型的性能和訓(xùn)練效率。

  美國人驚訝地發(fā)現(xiàn),原來中國公司也可以作為創(chuàng)新貢獻(xiàn)者,在他們的游戲之外,自定游戲規(guī)則。這在過去是極其罕見的。

  因為表現(xiàn)太過優(yōu)越,DeepSeek在硅谷被譽為來自東方的神秘力量。

  這股神秘的東方力量,令人稱奇的地方在于,它幕后的資方并不是騰訊、阿里這樣的互聯(lián)網(wǎng)巨頭,而是一家低調(diào)的私募基金——幻方量化。

  目前,國內(nèi)擁有萬卡GPU的企業(yè)不超過5家,幻方就是其中之一。

  它在2023年成立子公司“深度求索”,開始DeepSeek大模型的研發(fā),整個團(tuán)隊只有139名成員,遠(yuǎn)少于OpenAI的1200人。

  執(zhí)掌這支戰(zhàn)隊的,是一個叫梁文峰的80后,也是幻方量化的創(chuàng)始人。

  【當(dāng)好奇心驅(qū)動了瘋狂】

  梁文峰和幻方的故事,始于2008年。

  那一年,從浙大畢業(yè)、主修軟件工程的他,沒有像同齡人一樣,進(jìn)入大廠當(dāng)碼農(nóng),而是一個人跑到成都,蝸居在出租屋里。

  在那里,梁文峰開始研究用計算機(jī)賺錢的各種路子。

  幾番折騰下來,他決定下場做量化投資。但這個決定并不容易,畢竟當(dāng)時量化在國內(nèi)還是個新事物。

  很多人并不相信,量化可以賺錢。

  每當(dāng)困難時,梁文峰總會想起量化投資之父西蒙斯的一句話:一定有辦法對價格建模。

  在這個信念支撐下,梁文峰苦苦熬了兩年,終于柳暗花明。2010年,滬深300股指期貨推出,量化投資迎來了春天。

  乘著這股東風(fēng),梁文峰和他的團(tuán)隊大賺一筆,自營資金超過5億元。

  也就是同一時期,隨著深度學(xué)習(xí)算法的突破,人工智能大爆發(fā)。早年在浙大就研究人工智能的梁文峰,燃起雄雄斗志。

  2015年,他和浙大校友,共同創(chuàng)立了幻方量化。

  幾個意氣風(fēng)發(fā)的年輕人,試圖用數(shù)學(xué)和人工智能,在中國打造一個像文藝復(fù)興那樣世界頂級的量化對沖基金。

  僅僅一年后,他們就上線了第一筆由AI驅(qū)動的實盤交易,并在隨后,將所有交易策略都AI化。

  新技術(shù)的加持,讓幻方量化旗下基金回報率,遠(yuǎn)超同期滬深300指數(shù)。

圖片

  這推動幻方量化基金規(guī)模持續(xù)攀升,2021年一度超千億元大關(guān),位列國內(nèi)量化四大天王之一。

  然而,基金規(guī)模膨脹的同時,梁文峰卻面臨一個棘手問題。

  AI交易策略需要算力支持,尤其是,隨著模型參數(shù)的激增,對GPU算力的需求也在不斷增長。

  如何破解這一難題?梁文峰的選擇是:堆算力!

  從2019年開始,幻方量化大規(guī)模布局AI算力。

  當(dāng)年就投資2億元,建成“螢火一號”AI算力集群,搭載1100塊GPU算卡。而彼時的特斯拉,才剛剛提出Dojo超算概念。

  幾個月后,當(dāng)英偉達(dá)發(fā)布最新A100芯片時,梁文峰再次搶跑,成為亞太地區(qū)第一批拿到此卡的人。

  緊接著2021年,他又投資10億元,建成“螢火二號”,搭載1萬A100算卡,算力相當(dāng)于76萬臺個人電腦。

  其占地面積,比10個籃球場還要大。

  在AI大模型還沒有爆發(fā)的年代,梁文峰的舉動,讓很多人感到瘋狂。

  一家私募基金囤這么多算力,究竟意欲何為?甚至有媒體抱怨:幻方量化把A股散戶嚇壞了。

  外界對幻方量化的想象,還停留在資本市場上。

  但梁文峰的目光,早已望向星辰大海。

  2017年,谷歌研究團(tuán)隊在一篇開創(chuàng)性的論文中,首次提出Transformer架構(gòu)。這是一種完全基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),它顛覆了過去的傳統(tǒng)算法。

  一家叫OpenAI的美國初創(chuàng)公司,基于新架構(gòu)不斷訓(xùn)練自己的大模型。最終在2022年以ChatGPT引爆AI大模型時代。

  此后,全球互聯(lián)網(wǎng)巨頭,沿著OpenAI的路線推進(jìn),很少有人質(zhì)疑。

  但一群初生牛犢的年輕人,在梁文峰的帶領(lǐng)下,干了一件極其瘋狂的事:他們試圖改進(jìn)Transformer架構(gòu)。

  事實上,從2023年創(chuàng)立深度求索,進(jìn)軍大模型的第一天起,梁文峰及其團(tuán)隊對算法框架的反思就開始了。

  當(dāng)別人陷入簡單模仿OpenAI的慣性中時,這群年輕人不走尋常路。

  他們冒著失敗的風(fēng)險,大膽嘗試了MLA(多頭潛在注意力機(jī)制)、DeepSeekMoE(混合專家模型)等多種開創(chuàng)性技術(shù)。

  幾年前囤下的海量算力芯片,為他們的夢想,插上了翅膀。

  最終,這群年輕人創(chuàng)造了歷史:DeepSeek-V3橫空出世,一夜震驚了硅谷。

  【“中國不可能永遠(yuǎn)跟隨!”】

  對比中美科技產(chǎn)業(yè),我們常常感嘆:

  中國為什么出不了像喬布斯、馬斯克、黃仁勛一樣偉大的企業(yè)家?

  喬布斯生前只有一個目標(biāo):活著,就是為了改變世界。

  黃仁勛早在青年時,就立下雄心壯志:要做不一樣的事,要徹底改變計算。

  馬斯克更是瘋狂地喊出:要殖民火星,為人類尋找第二家園。

  相比之下,中國企業(yè)家似乎把更多的目光,放在了賺錢和生存上,很少抬頭仰望星空,對創(chuàng)新的重視也不夠。

  事實上,過去30年,我們已經(jīng)習(xí)慣摩爾定律從天而降,躺在家里18個月就會出來更好的硬件和軟件。

  這使得我們在一輪又一輪的IT浪潮中,基本沒有參與到真正的技術(shù)創(chuàng)新里。

  但這種局面,在近幾年悄然改變,中國新生代企業(yè)家正以突破性創(chuàng)新,在西方的游戲之外另起爐灶。

  “中國也要逐步成為創(chuàng)新貢獻(xiàn)者,而不是一直搭便車!梁文峰表示。

  早在上大學(xué)時,梁文峰就篤定:AI一定會改變世界。畢業(yè)后,他在量化投資上,賺了足夠多的錢。

  這使得他,有足夠的資本,聽從內(nèi)心的聲音,去做自己喜歡的事情,而不是首先權(quán)衡利弊得失。

  DeepSeek創(chuàng)立之初,就確立了核心使命:探索通用人工智能的本質(zhì)!

  在中國AI界,還很少有企業(yè)敢提出如此瘋狂的目標(biāo)。

  于是,過去幾年,當(dāng)很多大模型廠商忙著搶用戶,做商業(yè)化變現(xiàn)時,梁文峰卻苦哈哈搞起了看似不賺錢的基礎(chǔ)研究。

  “創(chuàng)新不完全是商業(yè)驅(qū)動的,還需要好奇心和創(chuàng)造欲!他說。

  在梁文峰看來,中國企業(yè)在過去被商業(yè)驅(qū)動的慣性束縛了。他希望DeepSeek能擺脫這種束縛。

  這樣的經(jīng)營理念,在當(dāng)下的中國企業(yè)界,顯得有點離經(jīng)叛道。

  曾經(jīng)有不止一位業(yè)內(nèi)人士表示:

  梁文峰是中國AI界非常罕見的人,他擁有恐怖的學(xué)習(xí)能力,兼具強(qiáng)大的infra工程和模型研究能力,又能調(diào)動資源。

  在內(nèi)部員工看來,梁文峰則完全不像老板,更像一個極客。

  時至今日,他依舊延續(xù)著低調(diào)的作風(fēng),和公司其他研究員一樣,每天看論文,寫代碼,參與小組討論。

  這個低調(diào)的大佬,就連選人、用人的方式也跟主流格格不入。

  當(dāng)很多大模型公司熱衷于去海外挖人時,梁文峰卻反其道而行之,堅持從本土招人,并放出豪言:

  “世界前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人!

  不僅沒有海外人才,也沒有行業(yè)大佬。梁文峰更喜歡沒有經(jīng)驗的年輕人,因為他們不受條條框框的束縛。

  在DeepSeek,選人的標(biāo)準(zhǔn)一直都是熱愛和好奇心。

  事實上,這家初創(chuàng)公司并非外界傳言的,有一批高深莫測的奇才,而都是一些畢業(yè)才幾年的年輕人。

  甚至,很多是北大、清華等Top高校還沒畢業(yè)的博四、博五實習(xí)生。

  因為工作太前沿,這些年輕人在開展工作時,幾乎沒有參考資料。但也正是這種空白,讓他們敢于突破傳統(tǒng)。

  比如,DeepSeek-V3最重要的創(chuàng)新之一MLA架構(gòu),就來自一個年輕人的突發(fā)奇想。

  DeepSeek內(nèi)部,也沒有上下級分工。

  研究過程中,如果有想法,每個人都可以拉人討論,并隨時調(diào)用公司訓(xùn)練集群的卡,無需審批,不設(shè)上限。

  這種看似松散的管理方式,極大地調(diào)動了所有人的好奇心和創(chuàng)造欲,讓DeepSeek-V3得以橫空出世。

  在梁文峰身上,我們依稀看到了喬布斯、馬斯克、黃仁勛的影子。

  “中國AI不可能永遠(yuǎn)處在跟隨的位置!”

  “真正的差距不是一年或兩年,而是原創(chuàng)與模仿之差。”

  這兩句從梁文峰口中喊出的話,不僅事關(guān)AI產(chǎn)業(yè),也是中國企業(yè)在跟隨、模仿了西方幾十年后,不得不面對的突破方向。

  低垂的果子都被摘完了,只有敢于突破,才能找到新的出路。

  梁文峰并不孤單。

  今天,從大疆無人機(jī)汪滔,到宇樹機(jī)器人王興興……一大批新生代企業(yè)家,正將中國科技產(chǎn)業(yè)帶向無人區(qū)。

  【參考資料】

  [1]《揭秘DeepSeek:一個更極致的中國技術(shù)理想主義故事》暗涌Waves

  [2]《瘋狂的幻方:一家隱形AI巨頭的大模型之路》暗涌Waves

  ——END——

  歡迎關(guān)注【華商韜略】,識風(fēng)云人物,讀韜略傳奇。

  版權(quán)所有,禁止私自轉(zhuǎn)載

  部分圖片來源于網(wǎng)絡(luò)

  如涉及侵權(quán),請聯(lián)系刪除

       原文標(biāo)題 : 浙江私募大佬,一夜震驚硅谷!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號