四虎最新网址在线观看,久热爱这里子有精品视频

復(fù)旦NLP團隊開源MOSS，此為國內(nèi)首個公開亮相的類ChatGPT模型

2023-04-25 13:45

來源： OFweek人工智能網(wǎng)

復(fù)旦大學(xué)自然語言處理實驗室邱錫鵬教授團隊上線 MOSS 兩個月后，把 MOSS 開源了。

目前開源的版本是 MOSS 003，二月份公開邀請內(nèi)測的版本為 MOSS 002，一月份有一個內(nèi)部測試版本叫做 OpenChat 001。

在 MOSS 003 中，復(fù)旦團隊采用不同的技術(shù)路線，通過讓Moss和人類以及其他對話模型都進行交互，顯著提升了學(xué)習(xí)效率和研發(fā)效率，短時間內(nèi)就高效完成了對話能力訓(xùn)練。

MOSS 成為國內(nèi)首個公開亮相的類ChatGPT語言模型，也是國內(nèi)首個搭載插件系統(tǒng)的開源對話語言模型， “端到端”走通了大語言模型的開發(fā)全程。

MOSS 的成長過程

復(fù)旦 NLP 團隊成員孫天祥公布了 MOSS成長過程。

ChatGPT 問世后，國內(nèi) NLP 從業(yè)者受到?jīng)_擊很大，當(dāng)時沒有 llama 也沒有 alpaca，團隊普遍認為國內(nèi)技術(shù)距離 ChatGPT 有一到兩年的技術(shù)差距。

要做 ChatGPT 有兩個部分是很昂貴的，一個是數(shù)據(jù)標注，一個是預(yù)訓(xùn)練算力。團隊沒有算力，便去構(gòu)造數(shù)據(jù)——從 OpenAI 的論文附錄里扒了一些它們API收集到的user prompt，然后用類似Self－Instruct的思路擴展出大約 40 萬對話數(shù)據(jù)。

一月份的時候，團隊研制出了 OpenChat 001，雖然 OpenChat 001 不具備中文能力，不知道關(guān)于自己的信息（比如名字、能力等），且安全性較低，但此時模型已經(jīng)具備了指令遵循能力、多輪能力、跨語言對齊能力，可以理解中文并用英文回答。

這給了團隊很大的信心，于是加緊了 MOSS 002 的部署，增加到了116萬條中英文對話數(shù)據(jù)。截至MOSS 002訓(xùn)練完成時，gpt－3．5－turbo、LLaMA、Alpaca均未出現(xiàn)，但卻收到很多類似“MOSS是蒸餾ChatGPT” ／ “基于LLaMA微調(diào)”等質(zhì)疑。

目前開源的最新版本 MOSS 003 的基座語言模型已經(jīng)在 100B 中文 token 上進行了訓(xùn)練，總訓(xùn)練 token 數(shù)量達到 700B，還構(gòu)造了約 30 萬插件增強的對話數(shù)據(jù)，目前已包含搜索引擎、文生圖、計算器、方程求解等。還給 MOSS 增加了I nner Thoughts 作為輸出，即在 MOSS 決定調(diào)用 API 以及回復(fù)之前首先輸出其“內(nèi)心想法”。

研發(fā)團隊稱本次開源只是個開始，后續(xù)團隊還將開源完整版 MOSS 003 微調(diào)數(shù)據(jù)、偏好數(shù)據(jù)、偏好模型以及經(jīng)過偏好訓(xùn)練過的最終模型。

MOSS 發(fā)布時掀起驚濤駭浪

2 月份，國內(nèi)各大廠紛紛開始拼大模型，但在國內(nèi)賽道上首個拿出大模型的不是大廠，而是學(xué)界——復(fù)旦大學(xué)自然語言處理實驗室邱錫鵬教授團隊。

2 月 20 日晚，復(fù)旦大學(xué)自然語言處理實驗室發(fā)布類 ChatGPT 模型 MOSS 的消息一經(jīng)公開，很快就登頂了知乎熱榜。由于瞬時訪問壓力過大，MOSS服務(wù)器還被網(wǎng)友擠崩潰了。

針對服務(wù)器崩潰一事，MOSS 官網(wǎng)發(fā)公告回應(yīng)：“我們最初的想法只是想將 MOSS 進行內(nèi)測，以便進一步優(yōu)化，沒有想到會引起這么大的關(guān)注，我們的計算資源不足以支持如此大的訪問量，并且作為學(xué)術(shù)團隊我們也沒有相關(guān)的工程經(jīng)驗，給大家造成非常不好的體驗和第一印象，在此向大家致以真誠的歉意。

團隊稱，MOSS 還是一個非常不成熟的模型，距離 ChatGPT 還有很長的路需要走。作為一個學(xué)術(shù)研究的實驗室無法做出和 ChatGPT 能力相近的模型，MOSS 只是想在百億規(guī)模參數(shù)上探索和驗證 ChatGPT 的技術(shù)路線，并且實現(xiàn)各種對話能力。

MOSS 可執(zhí)行對話生成、編程、事實問答等一系列任務(wù)，打通了讓生成式語言模型理解人類意圖并具有對話能力的全部技術(shù)路徑。這條路徑的走通，為國內(nèi)學(xué)術(shù)界和產(chǎn)業(yè)界提供了重要經(jīng)驗，將助力大語言模型的進一步探索和應(yīng)用。

企查查 APP 顯示，目前 MOSS 商標申請信息共 74 條，已有 32 枚商標被成功注冊，申請人包括進出口、電子商務(wù)、高新技術(shù)等領(lǐng)域的多家公司及多個自然人，商標國際分類包括科學(xué)儀器、珠寶鐘表、教育娛樂等，此外，目前仍有 3 枚 MOSS 商標正在注冊申請中。

團隊核心人物邱錫鵬

根據(jù)復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院官網(wǎng)的介紹，邱錫鵬教授于復(fù)旦大學(xué)獲得理學(xué)學(xué)士和博士學(xué)位。研究方向為自然語言處理、深度學(xué)習(xí)，發(fā)表CCF－A／B類論文70余篇。主持開發(fā)了開源自然語言處理工具FudanNLP、FastNLP，獲得了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛使用。

邱錫鵬的研究方向是，圍繞自然語言處理的機器學(xué)習(xí)模型構(gòu)建、學(xué)習(xí)算法和下游任務(wù)應(yīng)用，包括：自然語言表示學(xué)習(xí)、預(yù)訓(xùn)練模型、信息抽取、中文NLP、開源NLP系統(tǒng)、可信NLP技術(shù)、對話系統(tǒng)等。

邱錫鵬表示：“盡管MOSS還有很大改善空間，但它的問世證明了在開發(fā)類ChatGPT產(chǎn)品的路上，國內(nèi)科研團隊有能力克服技術(shù)上的重要挑戰(zhàn)�！盡OSS研發(fā)項目得到了上海人工智能實驗室的有力支持。后期，這項工作將通過開源方式和業(yè)界社區(qū)分享。