国产主播一区二区三区,国产精品高清一区二区不卡片,色色免费视频

谷歌李飛飛：我們依舊站在人工智能研究的起點(diǎn)

2018-06-29 08:22

說起人工智能，孕育了卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法的 ImageNet 挑戰(zhàn)賽恐怕是世界上最著名的 AI 數(shù)據(jù)集。8 年來，在 ImageNet 數(shù)據(jù)集的訓(xùn)練下，人工智能對于圖像識別的準(zhǔn)確度整整提高了 10 倍，甚至超越了人類視覺本身。

然而，AI 領(lǐng)域的科學(xué)家們并沒有停下前進(jìn)的腳步。上個(gè)周末，人工智能領(lǐng)域最卓越的科學(xué)家之一：斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛在未來論壇年會上，為我們做了一場名為“超越 ImageNet 的視覺智能”的精彩演講。她告訴我們，AI 不僅僅能夠精準(zhǔn)辨認(rèn)物體，還能夠理解圖片內(nèi)容、甚至能根據(jù)一張圖片寫一小段文章，還能“看懂”視頻……

我們都知道，地球上有很多種動物，這其中的絕大多數(shù)都有眼睛，這告訴我們視覺是最為重要的一種感覺和認(rèn)知方式。它對動物的生存和發(fā)展至關(guān)重要。

所以無論我們在討論動物智能還是機(jī)器智能，視覺是非常重要的基石。世界上所存在的這些系統(tǒng)當(dāng)中，我們目前了解最深入的是人類的視覺系統(tǒng)。從 5 億多年前寒武紀(jì)大爆發(fā)開始，我們的視覺系統(tǒng)就不斷地進(jìn)化發(fā)展，這一重要的過程得以讓我們理解這個(gè)世界。而且視覺系統(tǒng)是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng)，大腦中負(fù)責(zé)視覺加工的皮層占所有皮層的 50％，這告訴我們，人類的視覺系統(tǒng)非常了不起。

寒武紀(jì)物種大爆發(fā)

一位認(rèn)知心理學(xué)家做過一個(gè)非常著名的實(shí)驗(yàn)，這個(gè)實(shí)驗(yàn)?zāi)芨嬖V大家，人類的視覺體系有多么了不起。大家看一下這個(gè)視頻，你的任務(wù)是如果看到一個(gè)人的話就舉手。每張圖呈現(xiàn)的時(shí)間是非常短的，也就是 1／10 秒。不僅這樣，如果讓大家去尋找一個(gè)人，你并不知道對方是什么樣的人，或者 TA 站在哪里，用什么樣的姿勢，穿什么樣的衣服，然而你仍然能快速準(zhǔn)確地識別出這個(gè)人。

1996 年的時(shí)候，法國著名的心理學(xué)家、神經(jīng)科學(xué)家 Simon J． Thorpe 的論文證明出視覺認(rèn)知能力是人類大腦當(dāng)中最為了不起的能力，因?yàn)樗乃俣确浅？�，大概�?150 毫秒。在 150 毫秒之內(nèi)，我們的大腦能夠把非常復(fù)雜的含動物和不含動物的圖像區(qū)別出來。那個(gè)時(shí)候計(jì)算機(jī)與人類存在天壤之別，這激勵(lì)著計(jì)算機(jī)科學(xué)家，他們希望解決的最為基本的問題就是圖像識別問題。

在 ImageNet 之外，在單純的物體識別之外，我們還能做些什么？

過了 20 年到現(xiàn)在，計(jì)算機(jī)領(lǐng)域內(nèi)的專家們也針對物體識別發(fā)明了幾代技術(shù)，這個(gè)就是眾所周知的 ImageNet。我們在圖像識別領(lǐng)域內(nèi)取得了非常大的進(jìn)步：8 年的時(shí)間里，在 ImageNet 挑戰(zhàn)賽中，計(jì)算機(jī)對圖像分類的錯(cuò)誤率降低了 10 倍。同時(shí)，這 8 年當(dāng)中一項(xiàng)巨大的革命也出現(xiàn)了： 2012 年，卷積神經(jīng)網(wǎng)絡(luò)（convolutionary neural network）和 GPU（圖形處理器，Graphic Processing Unit）技術(shù)的出現(xiàn)，對于計(jì)算機(jī)視覺和人工智能研究來說是個(gè)非常令人激動的進(jìn)步。作為科學(xué)家，我也在思考，在 ImageNet 之外，在單純的物體識別之外，我們還能做些什么？

8年時(shí)間內(nèi)計(jì)算機(jī)對圖像分類的錯(cuò)誤率統(tǒng)計(jì)

8年的時(shí)間里，在ImageNet挑戰(zhàn)賽中，計(jì)算機(jī)對圖像分類的錯(cuò)誤率降低了10倍。

通過一個(gè)例子告訴大家：兩張圖片，都包含一個(gè)動物和一個(gè)人，如果只是單純的觀察這兩張圖中出現(xiàn)的事物，這兩張圖是非常相似的，但是他們呈現(xiàn)出來的故事卻是完全不同的。當(dāng)然你肯定不想出現(xiàn)在右邊這張圖的場景當(dāng)中。

兩張相似的圖片呈現(xiàn)不同的故事

這里體現(xiàn)出了一個(gè)非常重要的問題，也就是人類能夠做到的、最為重要、最為基礎(chǔ)的圖像識別功能——理解圖像中物體之間的關(guān)系。為了模擬人類，在計(jì)算機(jī)的圖像識別任務(wù)中，輸入的是圖像，計(jì)算機(jī)所輸出的信息包括圖像中的物體、它們所處的位置以及物體之間的關(guān)系。目前我們有一些前期工作，但是絕大多數(shù)由計(jì)算機(jī)所判斷的物體之間的關(guān)系都是十分有限的。

1 2 下一頁>