訂閱
糾錯
加入自媒體

像素取代文本?DeepSeek-OCR引發(fā)AI底層范式之思

近日,DeepSeek宣布開源最新大模型DeepSeek-OCR。所謂的OCR,據(jù)DeepSeek在論文中解釋稱,是通過光學(xué)2D映射壓縮長上下文可行性的初步研究。DeepSeek-OCR由兩部分組成:DeepEncoder和作為解碼器的DeepSeek3B-MoE-A570M。DeepEncoder作為核心引擎,設(shè)計為在高分辨率輸入下保持低激活,同時實現(xiàn)高壓縮比,以確保視覺tokens數(shù)量優(yōu)化且可管理。

通俗而言,這是一種視覺-文本壓縮范式,通過用少量的視覺token來表示原本需要大量文本token的內(nèi)容,以此降低大模型的計算開銷。

01. 讓AI長出“眼睛”和學(xué)會“遺忘”

這一創(chuàng)新不僅解決了長文本處理的技術(shù)難題,更讓我們重新審視大模型的認知方式。傳統(tǒng)以大模型始終通過文本token這一抽象符號來理解世界,而DeepSeek-OCR的革命性在于,它讓模型首次真正擁有了“視覺感知”的能力。通過將文本轉(zhuǎn)化為圖像再進行壓縮處理,模型得以繞過語言的抽象過濾層,直接從更豐富的視覺信息中提取特征,這類似于人類通過眼睛直接觀察世界而非僅依靠他人描述。

過去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、還是 DeepSeek 過去的自己,在讀取數(shù)據(jù)的用的都是一種方式:文字,也就是平時常說的 token。

但目前的大模型普遍面臨一個超長文本的效率處理問題。當(dāng)下主流大模型的上下文窗口大多在 128k-200k tokens,可財報、科研論文、書籍等動輒上千頁,還混著表格、公式,傳統(tǒng)辦法只能 “切片段、多輪傳”,不僅邏輯斷檔,還會有延時等問題。而 DeepSeek-OCR 用了個反常規(guī)思路:把文本轉(zhuǎn)成圖像再壓縮,需要用到文本時候再解壓縮。不但 Tokens 消耗直接降一個數(shù)量級,精度還沒怎么丟。

為此DeepSeek-OCR模型,首次提出了“上下文光學(xué)壓縮(Contexts Optical Compression)”的概念,通過文本轉(zhuǎn)圖像實現(xiàn)信息的高效壓縮。

這一方法的可行性已經(jīng)得到驗證,在10倍壓縮比下,DeepSeek-OCR的解碼精度可達97%,近乎實現(xiàn)無損壓縮;在20倍壓縮比下,精度仍保持約60%。

在論文中DeepSeek團隊還提出用光學(xué)壓縮模擬人類的遺忘機制。

例如近期記憶就像近處的物體,清晰可見。所以可以將其渲染成高分辨率圖像,用較多的視覺token來保留高保真信息。

遠期記憶 就像遠處的物體,逐漸模糊。所以可以將其漸進式地縮放成更小、更模糊的圖像,用更少的視覺token來表示,從而實現(xiàn)信息的自然遺忘和壓縮。

這樣一來,理論上模型就可以在處理超長對話或文檔時,動態(tài)地為不同時期的上下文分配不同數(shù)量的計算資源,從而可能構(gòu)建出一種無限長上下文的架構(gòu)。

團隊表示,雖然這還是個早期研究方向,但不失為模型處理超長上下文的一種新思路。

這樣的創(chuàng)新無疑引發(fā)了AI社區(qū)對視覺路線的深入思考。OpenAI聯(lián)合創(chuàng)始成員、前特斯拉自動駕駛總監(jiān)Andrej Karpathy表示,它是一個很好的OCR模型,但更值得關(guān)注的是它可能帶來的范式轉(zhuǎn)變。

Karpathy提出一個大膽設(shè)想:對于大語言模型來說,像素是否比文本更適合作為輸入?

02. 像素對于文本的優(yōu)勢和目前的問題

從信息密度的角度看,像素作為原始視覺信號,其承載的信息遠超經(jīng)過高度抽象和壓縮的文本。一段文字描述“夕陽下的金色麥田”,雖能傳達概念,但丟失了光影的漸變、麥穗的紋理和空間的層次感。而這些細節(jié),恰恰蘊含在像素矩陣之中。大模型直接處理像素,等于繞過了人類語言的“過濾層”,能從更本源、更豐富的感官數(shù)據(jù)中學(xué)習(xí)世界的復(fù)雜模式。

DeepSeek-OCR的團隊認為:“一張包含文檔文本(document text)的圖像,可以用比等效數(shù)字文本(digital text)少得多的token,來表示豐富信息。這表明,通過視覺token進行光學(xué)壓縮可以實現(xiàn)更高的壓縮比。”

其次,像素具有跨文化的通用性。文本受限于特定語言體系和文化背景,存在理解壁壘。而一幅圖像或一段視頻的像素,其所呈現(xiàn)的物理世界規(guī)律(如重力、光影)是普適的,這為模型構(gòu)建一個更統(tǒng)一、更底層的世界模型奠定了基礎(chǔ)。模型無需先掌握英語或中文的語法,就能理解“球體滾動”這一物理現(xiàn)象。

最終,這種以像素為起點的學(xué)習(xí)路徑,更接近人類“眼見為實”的認知過程。它迫使模型從混沌的感官輸入中主動抽象出對象、屬性和關(guān)系,從而可能催生出更魯棒、更具泛化能力的智能。當(dāng)模型能夠理解并生成連貫的像素序列(如視頻),它便掌握了模擬和創(chuàng)造視覺世界的能力,這無疑是邁向通用人工智能更為堅實的一步。因此,像素作為信息載體,為大模型提供了更接近現(xiàn)實、更本真的學(xué)習(xí)素材。

那么DeepSeek-OCR模型是不是完美無缺的呢?那也不是。論文里也坦誠提到問題。

例如超高壓縮比有風(fēng)險。壓縮比超過 30 倍,關(guān)鍵信息保留率會跌破 45%,法律、醫(yī)療這種對精度要求極高的場景不太適用。其次是復(fù)雜圖形識別還不夠強,三維圖表、手寫藝術(shù)字的識別準(zhǔn)確率比印刷體低 12-18 個百分點。

03. 結(jié)語:DeepSeek-OCR提供了新的解題思路

DeepSeek-OCR的推出,標(biāo)志著AI發(fā)展進入了一個新的探索階段。它不僅僅是一個技術(shù)工具的升級,更是一次認知框架的重構(gòu)——當(dāng)大模型開始通過像素而非純文本來理解世界時,我們正在見證一場從“符號處理”到“感知理解”的范式轉(zhuǎn)移。這種轉(zhuǎn)變的意義遠超出解決長文本處理這一具體問題,它暗示著未來AI可能建立起更接近人類感官體驗的認知體系,從多模態(tài)的原始數(shù)據(jù)中直接構(gòu)建對世界的理解。

然而,正如研究團隊所提示的,這仍是一個早期研究方向。技術(shù)突破往往伴隨著新的挑戰(zhàn):如何在壓縮效率與信息保真度之間找到最佳平衡?如何讓模型在“學(xué)會遺忘”的同時不丟失關(guān)鍵信息?這些問題都需要學(xué)術(shù)界和產(chǎn)業(yè)界的共同探索。更重要的是,這種技術(shù)路徑的轉(zhuǎn)變將如何重塑人機交互的方式,又將催生哪些全新的應(yīng)用場景,都值得我們持續(xù)關(guān)注。

從更廣闊的視角看,DeepSeek-OCR所代表的視覺路線,與當(dāng)前主流的文本路線并非替代關(guān)系,而是互補共生的兩種認知維度。未來的通用人工智能,或許正是需要融合文本的抽象推理與視覺的具象感知,才能構(gòu)建出真正全面、魯棒的智能體系。這條探索之路剛剛開始,但其指向的未來已足夠令人期待。

- End -

       原文標(biāo)題 : 像素取代文本?DeepSeek-OCR引發(fā)AI底層范式之思

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號