深度學習中存在的偏見和歧視問題,不容忽視
當人工智能技術(shù)落地到各個行業(yè)領(lǐng)域,深度學習作為人工智能技術(shù)的核心也逐漸滲透至各個方面。計算機通過模擬或?qū)崿F(xiàn)人類的學習行為,通過大量數(shù)據(jù)和算法獲取新的知識或技能,最后重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。
然而在人工智能上,一直存在“黑匣子”問題,深度網(wǎng)絡(luò)具有高預(yù)測能力但可解釋性不足的特點。在用大量數(shù)據(jù)“教導”機器學習的同時,研究者發(fā)現(xiàn)機器學習也會產(chǎn)生不可預(yù)測性的“偏見”,當一些暗含“偏見”的數(shù)據(jù)被算法永久性地編碼進人工智能程序中,就可能導致未知的錯誤和偏差,這可能會在最終結(jié)果和決策中產(chǎn)生影響甚至重大的錯誤,從而影響未來人類與人工智能的關(guān)系。
前段時間,谷歌廢除了人工智能招聘項目,因為該人工智能系統(tǒng)在經(jīng)過10年的簡歷培訓后,由于男性主導的工作環(huán)境,產(chǎn)生了對“女性”的偏見,據(jù)報道,它對包含“婦女”一詞或某些全女子學院名稱的簡歷都進行了處罰。
對于這種機器學習產(chǎn)生的“偏見”問題,類似于“俄羅斯坦克問題”。20世紀80年代,在機器學習發(fā)展的早期,美國軍方試圖訓練一臺電腦來區(qū)分俄羅斯和美國坦克的照片。其分類準確度非常高,但結(jié)果中俄羅斯坦克的所有照片都模糊不清,而美國坦克是高清晰度的。原來該算法最后不是在識別坦克,而是學習了如何區(qū)分模糊和清晰的照片。
而造成這種偏見的原因主要有一下幾點:
一、用于機器學習算法的數(shù)據(jù)不足。算法在初始提供的數(shù)據(jù)中獲得模式,然后在新的數(shù)據(jù)中識別類似的模式,然而有時算法并不會按照人們初始意愿那樣工作。
二、算法本身很糟糕。機器學習是軟件開發(fā)人員利用大量與任務(wù)相關(guān)的數(shù)據(jù)訓練 AI 算法的過程,如果本身算法就存在漏洞,深度學習后的結(jié)果則會更加差強人意。
要想消除機器學習中潛在的“偏見歧視”問題,可嘗試以下幾種方法。
減少原始數(shù)據(jù)的“偏見性”
2018年5月25日,“通用數(shù)據(jù)保護條例”(GDPR)在整個歐盟范圍內(nèi)生效,要求對組織如何處理個人數(shù)據(jù)進行徹底改變。若違反GDPR條例的限制,相關(guān)組織必須支付高達2000萬歐元或其全球收入4%的罰款(以較高者為準),對威懾大多數(shù)違規(guī)行為具有很重要的意義。
但事實上,雖然有GDPR等法規(guī)對數(shù)據(jù)的使用加以限制,還是避免不了一些研究使用存在偏見的數(shù)據(jù)集。由于機器學習系統(tǒng)的行為由它學到的數(shù)據(jù)所驅(qū)動,所以它的工作方式與人們編寫的標準計算機程序有很大不同。如果供算法訓練的數(shù)據(jù)不能公平地覆蓋所研究對象,系統(tǒng)便會出現(xiàn)偏差,甚至會放大原始數(shù)據(jù)中的偏見。
而這個問題卻不在數(shù)據(jù)本身的數(shù)學結(jié)構(gòu)上,而在于深度學習系統(tǒng)的設(shè)計者和操作者上。要解決數(shù)據(jù)的偏見問題,就需要數(shù)據(jù)收集存儲、使用的公平性和全面性。
打開算法“黑匣子”
一直以來,許多公司為了自身的專利保護和商業(yè)機密,會嚴格保密自家的人工智能算法,從未形成了決策無法解釋的“黑匣子”問題。好在目前人工智能領(lǐng)域已意識到這個問題,正積極采取措施加快代碼的開源,制定透明度標準,提高算法的可靠性,除此之外,還需提倡“程序員必須對算法得出的結(jié)論做出解釋,否則就不能投入使用”原則。對此,人們也做出了相應(yīng)舉動,例如,美國國防部高級研究計劃局資助了一項名為XAI(可解釋的人工智能)的計劃,旨在打開人工智能的“黑匣子”,以保證用戶更好地控制人工智能程序。
讓機器自己尋找錯誤
人工智能系統(tǒng)在學習時會犯錯。事實上這是肯定的,所以稱之為“學習”。電腦只會從你給出的數(shù)據(jù)中學習。但有時候,并不能消除數(shù)據(jù)偏見的來源,就像不能消除人類中的偏見來源,所以首先承認問題,然后讓機器自己去發(fā)現(xiàn)錯誤。
華盛頓大學的研究人員在2016年構(gòu)建了一種稱為LIME的解釋技術(shù),并在由Google構(gòu)建的圖像分類神經(jīng)網(wǎng)絡(luò)Inception Network上進行了測試。
LIME在做出圖像分類決策時,不會考慮觸發(fā)神經(jīng)網(wǎng)絡(luò)中的哪個神經(jīng)元,而是在圖像本身中搜索解釋。它會將原始圖像的不同部分變黑,并通過Inception將產(chǎn)生的“擾動”圖像反饋回來,以檢查哪些擾動導致結(jié)果偏離算法最遠。通過解釋機器學習模式中的錯誤,可以改進技術(shù)來消除人的偏見。
深度學習的“偏見歧視”問題正潛移默化地影響著算法結(jié)果,研究者們需要時刻關(guān)注,反復檢測算法結(jié)果與預(yù)期的偏差,任何一點差距都有可能通過蝴蝶效應(yīng),最后發(fā)展成一個重要的錯誤。在人工智能崛起的時代,當人們越來越關(guān)注人工智能與人類社會的關(guān)系時,這將是一個始終備受關(guān)注的敏感點。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風翻身?