人工智能輔助決策的隱患
詞嵌入
摘自“矢量空間中詞語表示的有效估計”,2013年
詞嵌入是機器學(xué)習(xí)中使用的一種技術(shù),在機器學(xué)習(xí)中,單詞被翻譯成一個向量-這些向量構(gòu)成了用于算法的詞匯字典。詞嵌入在翻譯服務(wù)、搜索和文本自動完成提示等許多常用應(yīng)用中得到了廣泛的應(yīng)用。根據(jù)向量的角度,機器將能夠理解單詞的意義,進而理解詞匯的普遍聯(lián)系和對應(yīng)關(guān)系。例如,“國王和王后”與“王子和公主”有關(guān)。對詞嵌入能力的理解層級可以相當復(fù)雜,這使得它成為分析SAT測試、求職申請、求職信等的一個很好的工具。
摘自Bolukbasi等人的論文,2016年
然而,詞嵌入的一個問題是,它有可能擴展現(xiàn)有的性別聯(lián)系。波士頓大學(xué)的Bolukbasi等學(xué)者對谷歌翻譯服務(wù)中使用的詞嵌入技術(shù)進行了研究。在訓(xùn)練中很少涉及人類工程師的介入,代之以自然語言內(nèi)容的文章、新聞、書籍等詞庫為基礎(chǔ)進行訓(xùn)練。Bolukbasi考察了土耳其語與英語翻譯的關(guān)系,因為土耳其語使用性別中性代詞而不是明確的“(男)他”或“(女)她”。在將土耳其語翻譯到英語的過程中,谷歌將被迫選擇一個性別代詞。這項研究發(fā)現(xiàn)了谷歌的性別歧視偏見,因為它將“o bir doktor”翻譯為“他是一名醫(yī)生”,而將“o bir hemsire”翻譯為“她是一名護士”。
“知情”算法與“不知情”算法
從表面上看,消除偏見、解決公平問題的最簡單方法是,隱藏造成偏見的信息:例如,在審查簡歷的算法中,排除簡歷中的姓名和性別,理論上聽起來可能會防止性別偏見的發(fā)生。畢竟如果沒有關(guān)于性別的信息,那么機器就不可能對男人和女人有不同的對待,對吧?
但現(xiàn)實比這更加復(fù)雜。上述方法被稱為“不知情”的算法構(gòu)建方法。如果要刪除性別這一屬性,前提是在工作能力方面,性別將是一個可以忽略不計的因素。然而,由于算法是經(jīng)由訓(xùn)練來識別統(tǒng)計數(shù)據(jù)中的模式的,所以無論我們怎么做,數(shù)據(jù)集中都會不可避免的體現(xiàn)社會中的相關(guān)性、刻板印象和不平等,這些因素既然存在于現(xiàn)實中,也就存在于我們訓(xùn)練算法的數(shù)據(jù)集中。即使沒有明確說明,機器學(xué)習(xí)也將能夠獲得與性別相聯(lián)系的可見特征。例如,用于雇傭的分類算法可能會將權(quán)重放在兵役年限上,并將其與能力或忠誠聯(lián)系起來,而在以色列,男性通常服務(wù)3年,而女性則服務(wù)2年。這就使得服役年限成了一個與性別密切相關(guān)的屬性,刪除了這一基本信息,就刪除了做出客觀決策所必需的上下文。正因為如此,一個“不知情”算法有時會比“知情算法”有更大的偏差。
另一方面,“知情算法”使用性別信息,可以將婦女服役時間較短的趨勢納入考慮的范疇。彌合準確性與公平性之間的鴻溝往往需要權(quán)衡:畢竟魚和熊掌不可兼得!安恢樗惴ā笔且粋更公平的過程:在訓(xùn)練階段不考慮敏感屬性。然而,這可能導(dǎo)致有偏見的結(jié)果。“知情算法”使用了一個更不公平的過程:將敏感的分類和信息納入考量,但最終可能產(chǎn)生更客觀的結(jié)果。
反饋循環(huán)/自我延續(xù)
機器學(xué)習(xí)很容易陷入反饋循環(huán),這最終會導(dǎo)致偏見的延續(xù)。例如,當機器預(yù)測用于刑事風(fēng)險評估時,黑人比白人更有可能被評為高風(fēng)險。這純粹是由于黑人和白人之間在犯罪記錄上的懸殊差異造成的,不幸的是,這反映了人類在種族方面的偏見。而且,隨著機器不斷的給黑人貼上高風(fēng)險標簽,數(shù)據(jù)集的數(shù)據(jù)逐漸的累加,從而使對黑人被告的偏見雪上加霜。在這種情況下,系統(tǒng)不僅反映了從人類偏見中學(xué)到的模式,而且還加強了自己的學(xué)習(xí)過程。
替代目標
除了訓(xùn)練數(shù)據(jù)中存在的問題外,偏見還可以通過多種方式進入算法的過程。我們的下一項研究是關(guān)于傳播算法度量的構(gòu)造有效性:你的度量方法是否達成了既定的目標?當它不能準確度量時,會產(chǎn)生什么后果呢?
社交媒體算法不再基于時間序顯示帖子,而是通過機器學(xué)習(xí)算法過濾所有你曾經(jīng)參與過的事情。目標是根據(jù)你以前的興趣來衡量你的參與度,然后它會向你展示它認為你可能會參與的更多的內(nèi)容。對一段內(nèi)容的參與率越高,算法就越有可能將該內(nèi)容推薦到新聞提要上:理想情況下,這是有意義的。因為,理論上,受歡迎的帖子應(yīng)該是更好的內(nèi)容,否則,為什么會有這么多人喜歡?
不幸的是,人類并不擁有足夠的智慧,讓這個算法可以恰如其分地工作。一直以來,表現(xiàn)最好的內(nèi)容往往是由虛假新聞、名人八卦、政治誹謗和許多其他對改善世界毫無意義的東西組成的。但是對此算法是無法理解的,所以惡性循環(huán)仍在繼續(xù)。
譯注:
替代目標所講,就是對于無法直接達成的目標采用的替代做法。如我們無法準確的獲知人們對于內(nèi)容的喜好所表達的方式是什么,因此只能生硬的選擇點贊、評論、轉(zhuǎn)發(fā)等指標作為替代目標來進行評估。而人們喜歡或者不喜歡一個內(nèi)容,或者一個內(nèi)容是否足夠優(yōu)秀,其真正的成因往往是十分復(fù)雜的。
人們在招聘過程中的許多決定也被移交給AI,用以進行簡歷篩選、工作能力分析和比較等。招聘工作是一個非常強調(diào)時限的過程,招聘過程的每個參與方都要付出高昂的代價:一旦出錯的話代價甚至更高。據(jù)全美高校和雇主協(xié)會估計,在一家500人規(guī)模的中型公司中,雇傭一名雇員的費用約為7,600美元。通過讓算法來完成這一繁重的任務(wù),企業(yè)可以將其大部分資源和資金投入到其他地方,最終也更可能找到合適的人才。
然而,“替代目標”成為這個過程中的一個問題,因為對許多理想的工作特征的評估很難直接操作。如今,業(yè)界的一些熱門詞匯包括“創(chuàng)造力”、“溝通”和“生產(chǎn)力”,所有這些都是難以衡量的。衡量創(chuàng)造力的最常見的方法是替代用途測試,在這種測試中,人們會為常見的項目提供非常規(guī)的用途(比如,列舉出回形針的25種用法,用以檢測應(yīng)聘者“不走尋常路”的能力,譯者注);谶@一衡量標準,員工可能會被分配一個“創(chuàng)造力能力傾向”分數(shù),這個分數(shù)會加入訓(xùn)練數(shù)據(jù)集,用以篩選具備相同特質(zhì)的員工。問題是,替代測試只是測試創(chuàng)造力的一個方面,即發(fā)散思維。它忽略了創(chuàng)造力的所有其他方面,而有些方面可能對公司文化非常有價值。其結(jié)果是,公司招聘了一大批具備“創(chuàng)造力”的員工,然而他們卻都是以同樣的方式來進行“創(chuàng)造”的:這很諷刺,也很無聊。
我們已經(jīng)將機器學(xué)習(xí)算法用于做出重要決策的可能性盡量理想化了,但事實是,機器無法理解客觀性、真實性、中立性或平等性。而當人類生命受到威脅時,所有這些特征都是重要的考慮因素。我們將何去何從?
結(jié)語
盡管我們已經(jīng)闡明了人工智能模型可能帶來的許多問題,但仍舊有很多理由可以支撐我們從以人為中心的決策方式轉(zhuǎn)變?yōu)榛谌斯ぶ悄艿臎Q策方式。正如前面提到的,盡管人工智能存在種種缺陷,但它仍然比人類更客觀。正因為如此,我們看到人工智能在基于決策和預(yù)測的任務(wù)中的應(yīng)用仍舊在持續(xù)深入。但是,較少的偏見并不等同于沒有偏見,當算法做出有偏見的決定時會發(fā)生什么?我們?nèi)绾螞Q定誰應(yīng)該為此承擔責(zé)任?畢竟我們沒辦法去懲罰一個有偏見的預(yù)測算法(能怎么辦呢,刪除它?)
可以說,跟蹤問責(zé)制的最佳方法是對人工智能決策過程進行準確和詳細的記錄。也就是說,做出決定的過程和數(shù)據(jù)必須是透明的,這樣如果有任何問題發(fā)生,第三方審計師就能夠追溯導(dǎo)致結(jié)果的步驟,以找到問題的根源。人們已經(jīng)為此制定了法案和法律,以保持相關(guān)實踐的透明度。
當然,審計方法本身并不是沒有問題的。對于具有大數(shù)據(jù)集的人工智能來說,審計并不總是可行的,審計也不總是適用于深度學(xué)習(xí)系統(tǒng),后者不只面臨大數(shù)據(jù)集的問題,還面臨復(fù)雜的計算網(wǎng)絡(luò)的挑戰(zhàn)。算法的自主性和透明性似乎互相矛盾,隨著算法在‘學(xué)習(xí)’和調(diào)整方面變得越來越好,人們就更難理解偏見發(fā)生在哪里了。雖然審計對于更簡單的模型是有效的,但我們可能需要一種不同的方法來減輕復(fù)雜算法的偏見。
另一種減輕偏見的方法是針對AI的訓(xùn)練者和創(chuàng)建者。通過讓他們意識到自己的偏見,我們有更好的機會將這些偏見排除在算法之外(比如,在設(shè)計谷歌翻譯時考慮中性性別代詞)。值得注意的是,人類的偏見是客觀存在的,而且很難減輕,因為它是一種進化特征,但我們至少可以不斷意識到我們自己的大腦容易受到偏見的影響?傊绻覀儾粩鄬W(xué)習(xí)、自查、保持明智并做出正確的選擇,算法將可以為緩解由來已久的偏見作出貢獻。
“繼續(xù)努力使文化變得更好,并不斷更新人工智能,以跟蹤文化的發(fā)展。這才是上策!
——喬安娜·布萊森
相關(guān)參考資料
1.Abate, Tom., Krakovsky, Marina. “Which is more fair: a human or a machine?” Stanford Engineering, January 31, 2018.
2.Bornstein, Aaron M. “Are Algorithms Building an Infrastructure of Racism?” Nautilus, December 21, 2017.
3.Bright, Peter. “Microsoft Terminates Its Tay AI Chatbot After She Turns Into a Nazi.” Ars Technica, March 24, 2016.
4.Courtland, Rachel. “Bias Detectives: the researchers striving to make algorithms fair.” Springer Nature, Macmillan Publishers, June 21, 2018.
5.Miller, Alex P. “Want Less-Biased Decisions? Use Algorithms.” Harvard Business Review, July 26, 2018.
6.Schep, Tijmen. “What is Mathwashing?” Mathwashing, 2018.
7.Shapiro, Stewart. “The Objectivity of Mathematics.” Synthese, vol. 156, no. 2, 2007, pp. 337–381.
8.Bolukbasi, T., Chang, K., Zou, J., Saligrama, V., Kalai, A. “Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings.” Microsoft Research New England, 2016.
9.Yona, Gal. “A Gentle Introduction to the Discussion on Algorithmic Fairness.” Towards Data Science, Medium. October 5, 2017.

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?