DeepTalk深言堂 | 清華劉永進:多模態(tài)情感計算
深蘭科學院打造的學習平臺“DeepTalk深言堂”,于2020年1月9日首次開講。我們有幸邀請到清華大學計算機科學與技術系的孫富春、鄧志東、劉永進三位學術界知名的專家教授,特別帶來三場基于最新科研動態(tài)的精彩報告。
前期已分享了孫富春教授《面向靈巧操作的機器人主動感知與認知學習》,今天將特別呈現(xiàn)劉永進教授的精彩報告。
DeepTalk深言堂
《多模態(tài)情感計算》
清華大學 劉永進教授
報告摘要
情緒是指認知和意識過程中產(chǎn)生的心理和生理狀態(tài),對人類的行為和心理健康有重要的影響。情緒在機器人智能交互領域有許多應用場景,例如陪伴機器人、看護機器人、送餐機器人中的虛擬客服對話與個性化圖形內(nèi)容生成等。多模態(tài)情感包括行為信號和生理信號的情緒識別。與行為信號相比,生理信號具有普適、自發(fā)性強、難于偽裝的優(yōu)點,更能反映大多數(shù)人群的真實情緒。在識別問題中,需要使用高效的機器學習算法進行情緒分類。傳統(tǒng)方法將各電極通道的EEG信號獨立處理。此次報告介紹了清華在這方面最近在考慮通道之間關聯(lián)的、基于多通道腦電信號的情緒識別研究,包括稀疏圖卷積神經(jīng)網(wǎng)絡和基于注意力機制+域判別器的LSTM網(wǎng)絡。
AI中的情感計算
AI中的情感計算我們把它定位成人工智能中比較重要的體現(xiàn),現(xiàn)在很多人說不清人工智能是什么,只能說有算法可以做到人能做的事情,能節(jié)省一些人力,這是早期算法能模擬人做的事情。但人工智能再往后發(fā)展,它的一些高層的功能跟情感就有關系了。
這里我們就要講到情緒。情緒有一個定義,它是認知和意識過程中對心理和生理狀態(tài)的測量,它是一個模糊、不精確的概念。為什么說研究高級人工智能,它很重要呢?因為情緒對于人類的行為和心理健康,包括一些產(chǎn)品的用戶體驗有非常重要的影響。
我們這里研究的情緒是指,由情感引發(fā)或能夠影響情感的計算。這里我想特別強調(diào)下有關機器智能和仿人智能的區(qū)別,人工智能有時候不太區(qū)分這兩種智能,但這兩種智能的差別還是非常大。
機器智能完全是機器之間在進行交流,完全是邏輯運算,是機器內(nèi)部的自己的運算或高性能存儲,是不需要人參與的,自己有一套非常好的機制。它的存儲可以做的很大,運算速度很快,可以比人突出的傳遞的精神信號要快很多倍,它的容錯和糾錯能力也非常強。
而仿人智能一定強調(diào)“人在回路”,我們強調(diào)這種智能形態(tài)里是有人的,是要為人來服務的。我們有很多學科,比如機器人、人機交互,比如我們的迎賓機器人,它不是來迎接機器人的,它是來迎接人的,有人在回路上。我們還有虛擬/增強現(xiàn)實、計算機圖形學與可視化、圖像、視頻、多媒體,所有這些都是給人看的。如果是機器和機器交流,它只需要帶寬,完全有一套自己的體系,可以完全突破人的生物的限制。為什么說仿人智能?因為人是一種生物的智能,它與機器智能有完全不同的形態(tài),所以當人在回路的時候,要考慮人的感受的時候,這方面就非常重要。
人在回路有一個非常重要的因素是情感或者情緒狀態(tài),這是一個高級的、意識形態(tài)的問題。這類研究在人工智能中也比較多了,比如文本,我們的聊天機器人Siri,有聊天對話的用戶界面,這些通過分析情感詞、包括圖形測試來回答。我們的智能客服回答的時候如果有情感詞、有語氣,你高興的時候它能一起高興,你悲傷的時候它能給你一些開導,你會覺得對面更像是一個人。
我們再舉一個圖形學中的例子,在人和機器人之間的交互我們有個落地的應用。一個用戶的照片,我們可以給出任意一個情緒的標簽,然后就可以把臉部變成對應的喜怒哀樂。進一步比如說一個冷冰冰的聊天對話的文本框,可以回答一些問題,好比看護機器人、家庭中的陪伴機器人等都有一些語氣詞,這都是文本層面,但在圖形交互界面上還是非常少。
之前一些研究工作,寫成文還是比較容易,比如說這些世界名畫,我們搜集到一些人的個性化表情照片,把名畫改成他們的表情。但如何落地應用呢?這是一個很大的體系,人通過很多傳感器,比如腦機接口、腕表來測量身體信號,對應到一些顯示,如虛擬現(xiàn)實、增強現(xiàn)實、對話聊天等,都通過這個界面來顯示。
情緒識別
我們跟許多國內(nèi)做情感計算的人溝通,發(fā)現(xiàn)基礎理論并不清晰,所以我們在2017-2018年花了很多時間,跟中科院心理所、清華大學心理系一起,把基礎理論先搞搞扎實。
首先我們來看如何刻畫人的情緒或情感模型。很多時候計算機視覺說不清,所以我們花了很長時間去理清這個情緒模型,這不是我們提的,這個概念太大,我們主要搜集了很多國際上的已有模型。
主要分為兩大類,一類是離散模型,一類是維度模型。
離散模型是通過人的臨床或心理學家提煉出來的,有點像聚類算法聚類出來的通過100多年大量的樣本提煉出來的,包括喜悅、憤怒、驚奇、悲傷、厭惡、恐懼,它的優(yōu)點在于每一類的分界線非常清晰,具有很高的辨識度,神經(jīng)反應的模式非常清晰。
維度模型,它是是計算機領域比較喜歡的,是一個連續(xù)的維度,比如喚醒度、效價加上控制度,它是一個連續(xù)的坐標系,坐標中的任何一個點都可以刻畫一種情緒,在描述上非常方便。但它有一個問題,在這個坐標空間中并不是線性,比如溫馨和浪漫,他們的坐標點可能差得不遠,但它們的神經(jīng)響應模式差別特別大。有時候坐標差得比較遠,其實又離得比較近,所以這個空間用起來很方便,但在神經(jīng)辨識度上可能有些問題。
這個離散模型,大家仔細看的話其實會發(fā)現(xiàn)它的負性情緒居多,在六類經(jīng)典的離散情緒中正性只有喜悅一種,其他都是負性,因為臨床大部分是病人,心理有問題才會去看醫(yī)生。因此清華大學心理學專家提出一種“積極心理學”,就是要把正性情緒進行細分類,傳統(tǒng)的情緒里是沒有的。我們現(xiàn)在講到的情緒并不是都給病人用,更多時候比如我們到商場里遇到的客服機器人,跟它交互的時候,要區(qū)分哪些情緒狀態(tài)是好的,要區(qū)分出是快樂、放松、自豪、感恩,還是其他情緒細分類。
積極情緒有獨特的認知功能,能促近身心健康,提高社交能力和學習能力。我們正在理論上嘗試刻畫積極情緒這種模式。還有一個不一樣的地方,以前的負性情緒界限非常清晰,分辨率非常高,但積極情緒是一個混合的情緒狀態(tài),是幾種情緒混雜在一起誘發(fā)出來的。所以分類上不是排他式的,而是混合式的。
另外在基礎理論方面,有一個Ground truth,它是一個非常模糊的概念,就像高興和喜悅沒有界限。于是,我們就花很長功夫去界定了一個Ground truth,我們就收集到傳統(tǒng)在心理學上做的實驗。
情緒誘發(fā)有幾大類基礎的方法:
通過實驗,假定能通過一套素材誘發(fā)情緒,那我們要搜集什么樣的信號去識別呢?這里基本分為兩類,一類是基于行為的數(shù)據(jù),一類是基于生理信號的數(shù)據(jù)。
基于行為的包括圖像、面部表情、語音語調(diào),或者身體的姿勢。作為一個基礎的Ground truth,這些比較容易收到外部因素的影響。好比人可以去控制表情和身體的姿勢,隱藏真實的情緒狀態(tài)。所以我們在做基礎庫的時候,會考慮基于生理信號,用腦電、外周生理信號,即便是受過訓練的人也很難控制這些。
腦電信號
2019年我們進行了一項關于腦電的研究,分析用戶在交互過程中的腦神經(jīng)信息,創(chuàng)新性地實時在線解碼在復雜多樣真實環(huán)境下的情緒狀態(tài),構建情緒識別腦機接口系統(tǒng),綜合研究積極情緒和交互自然性的關系,為圖形界面、媒體生成、自然人機交互提供理論基礎和驗證平臺。
腦電信號的采集還不是很普及,我們知道傳統(tǒng)醫(yī)學上使用的腦電設備都是濕電極設備,要打腦電膏、涂生理鹽水,實驗非常麻煩,用戶也不愿意去戴。我們要收集到這些Ground truth非常麻煩,但是使用開始考慮干電極設備。所以我們可以用濕電極設備來收集Ground truth,用干電極設備來應用。
視頻的建立有一套非常嚴格的,經(jīng)得起考驗的標準,收集的Ground truth一定能誘發(fā)情緒。因為情緒與文化背景有關,所以我們面向中國北方地區(qū)漢族建立了庫,利用電影的素材庫,因其包括語音通道和視覺通道,更接近真實場景來誘發(fā)情緒。專家經(jīng)過一系列帥選評定,來判斷到底是通過畫面顏色還是視頻內(nèi)容來誘發(fā)的情緒,要把單一因素排除掉。
我們還在做的就是刻畫積極情緒,比如通過腕表或其他腦電設備,可以總結出一天的情緒變化狀態(tài),就像有的腕表可以測算走路消耗的卡路里,我們也可以記錄脈搏、一天情緒的分布,來建議改善健康或者學習效率等。
這是一個情緒素材的評定,過程非常艱辛,我們還是建立起來了。我們找了志愿者在中文視頻網(wǎng)站上收集材料進行初評,然后找了專家在長度、理解性、區(qū)分度上進行評判和劃分,最后開始正式實驗、填寫量表、觀看影片,有一套標準程序。
對于積極情緒,它并不是排他性的,我們收集了20多種進行聚類,形成了幾個大的區(qū)分度比較高的類別。
這套工作的基礎我們做的比較扎實,建立好了這套情緒的理論數(shù)據(jù)庫后,就可以在圖形生成、語音畫面上做很多事情。
而腦電特征與圖像信號沒什么區(qū)別,只是不規(guī)則圖像視頻比較規(guī)則可以用負電卷積做CNN,腦電并不是規(guī)則的,可以用圖卷積網(wǎng)絡來處理。
基于多通道腦電信號的情緒識別技術
以前是基于單一某個通道的腦電信號,特征是手工設計出來的,出于醫(yī)生的經(jīng)驗,最多能做到左半腦和右半腦有一個差,最多做到一階特征,F(xiàn)在我們用自動學習來學一個非線性特征,我們的效果比較好的話,還能給神經(jīng)學家建議。
我們現(xiàn)在通過圖卷積網(wǎng)絡,用LSTM網(wǎng)絡把非線性特征可視化出來,給到神經(jīng)學家建議和啟發(fā)。
小結
情緒影響行為和心理健康,廣泛應用于機器人交互、圖形媒體生成領域;
在各類指標中,腦電信號因自發(fā)性強、攜帶信息豐富、時間分辨率高,能獲得較好的情緒識別效果;
由于不同腦區(qū)的功能差異,基于多通道腦電信號的情緒識別技術逐漸產(chǎn)生,這些技術考慮通道間的關聯(lián)關系,更符合腦電信號的特性,推動情緒研究的進一步發(fā)展。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?