亚洲乱妇亚洲乱妇xinglu44,亚洲精品国品乱码久久久久 ,911嫩草亚洲精品永久

踢開AGI大門！Sora會(huì)讓世界成為“太虛幻境”嗎？

2024-02-20 10:10

假作真時(shí)真亦假，如夢如幻。

就在前幾天，OpenAI發(fā)布了文生視頻工具Sora，盡管這并非行業(yè)首創(chuàng)，但作為AGI的“開宗立派”者的旗艦產(chǎn)品，Sora依然震撼了科技產(chǎn)業(yè)。除了引爆科技圈熱議外，媒體、文娛等等相關(guān)產(chǎn)業(yè)均對Sora高度關(guān)注，更有消息稱“開工第一天，所有VC都在開會(huì)討論Sora”。

Sora從技術(shù)上迎來了全面革新，比如說，它能實(shí)現(xiàn)長達(dá)1分鐘的視頻內(nèi)容創(chuàng)作，也能根據(jù)需要制作長鏡頭內(nèi)容，還能根據(jù)不同角色的情感給出不同的鏡頭語言。如果最終發(fā)布的產(chǎn)品的能力，真如視頻Demo這般強(qiáng)大，Sora將對流水線制作模式的影視團(tuán)隊(duì)帶來一些沖擊。

馬斯克也在個(gè)人社交平臺(tái)當(dāng)中銳評道：“gg humans（人類愿賭服輸）”。

（圖源：X）

不過，Sora仍在測試階段，距離其真正投入使用還有一段時(shí)間。鑒于AIGC行業(yè)存在“Demo過度”的情況（比如Google Gemini發(fā)布會(huì)的演示就被揭露造假了），因此Sora發(fā)布版到底表現(xiàn)如何還有待體驗(yàn)。至于Sora能否真正引發(fā)行業(yè)變革甚至像一些媒體危言聳聽宣稱的“顛覆世界，消滅XX”，其實(shí)也還是未知數(shù)。

史上最強(qiáng)AI視頻工具，到底有何突破？

Sora的最大突破在于能夠根據(jù)文本描述生成一段長達(dá)60秒的視頻內(nèi)容，此前，世界記錄的保持者為Runway的Gen-2，最高能創(chuàng)作時(shí)長為16秒的視頻。但Sora并不是一個(gè)純粹的視頻生成工具。

（圖源：Sora）

在OpenAI公開的技術(shù)性報(bào)告中，Sora的真實(shí)身份被揭曉：底層是一個(gè)擴(kuò)散Transformer模型，相較于傳統(tǒng)的基于二維模型的文生視頻產(chǎn)品而言，Sora具有對現(xiàn)實(shí)世界物理規(guī)律的感知，對于如何生成一段「逼真」的視頻，有深刻的自主意識。

OpenAI在Sora的官方網(wǎng)站中放出了多條演示視頻，其中一段兩只海盜船在咖啡杯中翻涌的視頻，展現(xiàn)出Sora對液體的狀態(tài)、船只的物理形態(tài)、運(yùn)動(dòng)軌跡的判斷多維度的理解。

截屏2024-02-18 23.05.45.png

（圖源：Sora）

此外，Sora還能產(chǎn)生多個(gè)角色、特定類型運(yùn)動(dòng)以及主體背景豐富細(xì)節(jié)等多種復(fù)雜場景的視頻，即便用戶沒有描述這些特定場景的細(xì)節(jié)，Sora依然能夠理解并準(zhǔn)確生成。比如說，當(dāng)你需要一個(gè)描述為「晚宴」的視頻內(nèi)容時(shí)，Sora并不會(huì)止步于饕客們將美食一掃而光的過程與結(jié)果，而是會(huì)將每一個(gè)動(dòng)作所留下來的痕跡得以保留：咬了一口的漢堡，就會(huì)有咬過的痕跡。

事實(shí)上，Sora的成功離不開OpenAI公司前兩款產(chǎn)品的經(jīng)驗(yàn)積累，那就是2021年初、2022年末分別推出的圖像生成工具DALL.E與自然語言大模型工具ChatGPT，通過它們，Sora獲得了對文字描述的理解與圖像數(shù)據(jù)處理的能力。

（圖源：Sora）

更重要的是，OpenAI為Sora引入了視覺塊嵌入式代碼，即pathces，你也可以將其理解為LLM里的tokens，這些pathces就像是一個(gè)又一個(gè)包含了時(shí)間、空間信息的積木塊，Sora能夠更快速地從中找到所需的素材，為創(chuàng)作者生成視頻。此外，這些pathces也能幫助Sora完成高速的自主學(xué)習(xí)。

Sora還能接受圖片和視頻輸入，生成新的創(chuàng)意視頻，又或是根據(jù)描述生成多達(dá)五個(gè)分鏡頭，包含人物表情特寫、動(dòng)作特寫、場景等。這只是目前為止我們能看到的Sora具備的能力，正如前面所提到，Sora是一個(gè)擴(kuò)散Transformer模型，其與生俱來的學(xué)習(xí)能力才是讓人敬畏的關(guān)鍵所在。

很可惜，現(xiàn)階段的Sora也存在一些問題，例如空間、方位的細(xì)節(jié)。在官方演示視頻里，展示了反向跑步的運(yùn)動(dòng)者、憑空出現(xiàn)的狼崽以及從杯底流出果汁的水杯等。

截屏2024-02-19 10.39.48.png

（圖源：Sora）

截屏2024-02-19 10.56.36.png

（圖源：Sora）

盡管仍有美中不足的地方，但Sora絕對稱得上是AI視頻的一大革命性突破——是真的革命性，而不是夸大其詞那種。

過于聰明的Sora，確實(shí)會(huì)讓人后背發(fā)涼？

在所有演示視頻中，最令人感到震撼的還是那段一對情侶漫步東京的短片。

（圖源：Sora）

Sora通過對現(xiàn)實(shí)空間的精確識別，創(chuàng)作出帶有動(dòng)態(tài)視角變化的視頻內(nèi)容，視頻中，人物、背景都在立體三維空間內(nèi)移動(dòng)，就像真實(shí)的影片創(chuàng)作一樣。

作為一個(gè)文本視頻生成工具，Sora似乎有些過于「聰明」了，它的到來，也不禁讓人對AI在未來的發(fā)展產(chǎn)生更多思考。

全球化人工智能企業(yè)APUS董事長兼CEO李濤先生認(rèn)為，Sora的橫空出世，帶來了三個(gè)問題：

1、打造無限逼近真實(shí)的場景。

正如我們前面提到，Sora擁有現(xiàn)實(shí)世界的「意識」，這意味著它構(gòu)建的內(nèi)容基本都會(huì)遵循真實(shí)存在的物理規(guī)律，而這種「虛擬」在未來只會(huì)更加「逼真」，這也讓我們不禁思考：在AI時(shí)代，我們應(yīng)該如何定義和理解真實(shí)與虛擬。

這讓雷科技想到了曹雪芹《紅樓夢》第一回的這樣一段：

士隱接了看時(shí)，原來是塊鮮明美玉，上面字跡分明，鐫著“通靈寶玉”四字，后面還有幾行小字。正欲細(xì)看時(shí)，那僧便說“已到幻境”，便強(qiáng)從手中奪了去，與道人竟過一大石牌坊，上書四個(gè)大字，乃是“太虛幻境”。兩邊又有一幅對聯(lián)，道是：

假作真時(shí)真亦假，無為有處有還無。

Sora的出現(xiàn)，讓真實(shí)世界與虛擬世界的邊界一下變得模糊，在如夢如幻的“太虛幻境”，真假難辨，將給人類帶來許多困惑。對此，人類必須要想法來應(yīng)對。

2、學(xué)習(xí)能力高度類人。

Sora與之前問世的文本視頻生成工具不太一樣，它具備高度模擬能力與學(xué)習(xí)能力，而作為一個(gè)有自主學(xué)習(xí)能力的「模擬器」，參考ChatGPT從3.5到4.0的進(jìn)化速度，是否可以大膽預(yù)測，Sora很快就會(huì)成為類人的智能，不光學(xué)習(xí)速度快，反應(yīng)能力與反應(yīng)速度甚至可以超越人類。

3、算力之上芯片落后。

每一個(gè)深度學(xué)習(xí)的人工智能模型，都離不開背后強(qiáng)大算力的支持，Sora亦是如此。如今，中國人工智能所擁有的能力遠(yuǎn)遠(yuǎn)落后于此，算力的局限無疑是制約我國AI發(fā)展的重要因素之一。因此，加強(qiáng)芯片研發(fā)、提升算力水平，是我國人工智能發(fā)展的當(dāng)務(wù)之急。

Sora仍在測試階段，我們?nèi)杂袝r(shí)間在短期時(shí)間內(nèi)嘗試駕馭它、了解它，同時(shí)繼續(xù)在芯片端鞏固地位，為AI提供更強(qiáng)大的底層硬件支持。

AI時(shí)代落幕，Sora叩開了AGI世界的大門

在Sora問世之后，馬斯克急得像熱鍋上的螞蟻，只因Sora是當(dāng)下最接近AGI概念的產(chǎn)品，而AGI又是馬斯克心心念念的藍(lán)海市場。

AGI，即Artificial General Intelligence，又稱人工通用智能，是指能夠完全模仿人類情感、行為，實(shí)現(xiàn)自我學(xué)習(xí)、自我改進(jìn)、自我修正的智能計(jì)算機(jī)系統(tǒng)。盡管Sora當(dāng)前只展示了其在視頻，又或是內(nèi)容創(chuàng)作上的能力，但其對于真實(shí)世界的理解，已經(jīng)展現(xiàn)出強(qiáng)悍的實(shí)力。

（圖源：Sora）

為什么三六零周鴻祎說Sora讓AGI時(shí)代到來的時(shí)間從十年縮短至一年？歸根結(jié)底就是對現(xiàn)實(shí)世界的理解能力。AGI最大的特點(diǎn)在于對真實(shí)世界的規(guī)則，尤其是物理狀態(tài)、自然規(guī)律、化學(xué)變化等等因素的反饋。Sora雖然只在內(nèi)容創(chuàng)作上帶來幫助，但誰能確保經(jīng)過足夠的訓(xùn)練，OpenAI不會(huì)基于此推出真正意義上的AGI產(chǎn)品呢？

周鴻祎在見證Sora誕生后表示，Sora有別于其他文本視頻生成工具，它能理解坦克是有巨大沖擊力的，坦克能夠沖毀汽車，而不會(huì)出現(xiàn)汽車撞毀坦克這樣的事情發(fā)生。同時(shí)，他還認(rèn)為，Sora只是OpenAI小試牛刀的產(chǎn)品，真正的好戲還在后頭。

（圖源：微博）

這并非空穴來風(fēng)，早在去年10月，路透社就曾報(bào)道OpenAI已經(jīng)參與投資至少三家半導(dǎo)體設(shè)計(jì)公司，其中Cerebras更是一家初創(chuàng)型企業(yè)。OpenAI CEO Altman曾公開表示，其工作與產(chǎn)品仍需更多算力提供幫助，目前公司所使用的還遠(yuǎn)遠(yuǎn)不夠。除去已經(jīng)投入運(yùn)營的DALL.E和ChatGPT，以及測試中的Sora，或許還有真正屬于AGI時(shí)代的產(chǎn)品蓄勢待發(fā)。

2016年，Google旗下的AlphaGo戰(zhàn)勝李世石讓深度學(xué)習(xí)被全世界關(guān)注，我們進(jìn)入了深度學(xué)習(xí)驅(qū)動(dòng)的AI時(shí)代，許多科技產(chǎn)品和傳統(tǒng)行業(yè)均被深度學(xué)習(xí)技術(shù)改變，這一階段也迎來了抖音、小紅書這樣的AI驅(qū)動(dòng)的世界級產(chǎn)品的崛起。

2023年兔年開工，全世界沉浸在 ChatGPT 帶來的 AGI（通用型人工智能）的震撼之中，一年之后的今天，Sora再度震撼人類，且是更大的震撼，見過大世面的人類就像原始人發(fā)現(xiàn)火種一般激動(dòng)不已。

毫無疑問，一個(gè)嶄新的AGI時(shí)代的序幕已經(jīng)緩緩拉開，一個(gè)新的智能時(shí)代已然到來。或許Sora不一定取代影像工作者，但Sora背后的AGI技術(shù)，一定會(huì)重構(gòu)科技產(chǎn)業(yè)的秩序，催生抖音這樣的世界級產(chǎn)品，賦予人類全新的工具和力量，這一切，都是如此振奮人心。

正在上傳...