精品日韩国产欧美中文激情,亚洲一区二区波多野结衣av

計算機視覺及其后的圖神經(jīng)網(wǎng)絡教程（第一部分）

2019-10-24 16:29

磐創(chuàng)AI

關注

概述我在本文將回答那些不熟悉圖或圖神經(jīng)網(wǎng)絡的AI／ML／CV的用戶通常會問的問題。我提供了Pytorch的例子來澄清這種相對新穎和令人興奮的模型背后的思路。

我在本部分教程中提出的問題是：

為什么圖這種數(shù)據(jù)結(jié)構(gòu)有用？

為什么在圖上定義卷積是困難的？

什么使神經(jīng)網(wǎng)絡成為圖神經(jīng)網(wǎng)絡？

為了回答這些問題，我將提供激勵性的示例、論文和python代碼，使其成為圖神經(jīng)網(wǎng)絡（GNNs）的教程。讀者需要一些基本的機器學習和計算機視覺知識，但是，我隨著我的講述我也會提供一些背景和直觀的解釋。

首先，讓我們簡單回顧一下什么是圖？圖是由有向／無向邊連接的一組節(jié)點（頂點）。節(jié)點和邊通常來自于關于問題的一些專家知識或直覺。因此，它可以是分子中的原子、社交網(wǎng)絡中的用戶、交通系統(tǒng)中的城市、團隊運動中的運動員、大腦中的神經(jīng)元、動態(tài)物理系統(tǒng)中的相互作用對象、圖像中的像素、邊界框或分割遮罩。換言之，在許多實際情況下，實際上是您決定了什么是圖中的節(jié)點和邊。

在許多實際情況下，實際上是你來決定圖中的節(jié)點和邊是什么。

這是一個非常靈活的數(shù)據(jù)結(jié)構(gòu)，它概括了許多其他的數(shù)據(jù)結(jié)構(gòu)。例如，如果沒有邊，那么它就成為一個集合；如果只有“垂直”邊，并且任何兩個節(jié)點正好由一條路徑連接，那么我們就有一棵樹。這種靈活性是好的和壞的，我將在本教程中討論。

1．為什么圖這種數(shù)據(jù)結(jié)構(gòu)有用？

在計算機視覺（cv）和機器學習（ml）的背景下，研究圖形和從中學習的模型至少可以給我們帶來四個好處：

1．1 我們可以更接近解決以前太具挑戰(zhàn)性的重要問題，例如：癌癥的藥物發(fā)現(xiàn)（Veselkov等人，Nature，2019）；更好地理解人腦連接體（Diez＆Sepulcre，Nature Communications，2019）；能源和環(huán)境挑戰(zhàn)的材料發(fā)現(xiàn)（Xie等人，自然通訊，2019）。

1．2 在大多數(shù)cv／ml應用程序中，數(shù)據(jù)實際上可以看作是圖，即使您曾經(jīng)將它們表示為另一個數(shù)據(jù)結(jié)構(gòu)。將你的數(shù)據(jù)表示為圖形可以給你帶來很多靈活性，并且可以給你一個非常不同和有趣的視角來看待你的問題。例如，您可以從“超級像素”學習，而不是從圖像像素學習，如（Liang等人，ECCV2016）和我們即將發(fā)表的BMVC論文中所述。圖還允許您在數(shù)據(jù)中施加一種關系歸納偏差－一些關于該問題的先驗知識。例如，如果你想對人體姿勢進行推理，你的關系偏差可以是人體骨骼關節(jié)的圖（Yan等人，AAAI，2018）；或者如果你想對視頻進行推理，你的關系偏差可以是移動邊界框的圖（Wang＆Gupta，ECCV2018）。另一個例子是將面部地標表示為圖（Antonakos等人，CVPR，2015），以對面部屬性和身份進行推理。

1．3 您最喜歡的神經(jīng)網(wǎng)絡本身可以看作是一個圖，其中節(jié)點是神經(jīng)元，邊是權(quán)重，或者節(jié)點是層，邊表示向前／向后傳遞的流（在這種情況下，我們討論的是在tensorflow、pytorch和其他dl框架中使用的計算圖）。應用程序可以是計算圖的優(yōu)化、神經(jīng)結(jié)構(gòu)搜索、分析訓練行為等。

1．4 最后，您可以更有效地解決許多問題，其中數(shù)據(jù)可以更自然地表示為圖形。這包括但不限于分子和社會網(wǎng)絡分類（Knyazev et al．，Neurips－W，2018）和生成（Simonovsky＆Komodakis，ICANN，2018）、三維網(wǎng)格分類和對應（Fey et al．，CVPR，2018）和生成（Wang et al．，ECCVV，2018）、動態(tài)交互對象的建模行為（Kipf et al．，ICML，2018），視覺場景圖建模（見即將召開的ICcv研討會）和問答（Narasimhan，Neurips，2018），程序合成（Allamanis等人，ICLR，2018），不同的強化學習任務（Bapst等人，ICML，2019）和許多其他令人興奮的問題。

由于我之前的研究是關于識別和分析面部和情緒的，所以我特別喜歡下面這個圖。

2．為什么在圖上定義卷積是困難的？

為了回答這個問題，我首先給出了一般使用卷積的一些動機，然后用圖的術(shù)語來描述“圖像上的卷積”，這應該使向“圖上的卷積”的過渡更加平滑。

2．1 為什么卷積有用？

讓我們理解為什么我們?nèi)绱岁P心卷積，為什么我們想用它來繪制圖形。與完全連接的神經(jīng)網(wǎng)絡（a．k．a(chǎn)．nns或mlps）相比，卷積網(wǎng)絡（a．k．a(chǎn)．cnns或convnets）具有以下根據(jù)一輛漂亮的老雪佛蘭的圖像解釋的某些優(yōu)點。

首先，ConvNets利用圖像中的自然先驗，在（Bronstein等人，2016）中對此進行了更正式的描述，例如

1．平移不變性－如果我們將上圖中的汽車向左／向右／向上／向下平移，我們?nèi)匀粦撃軌驅(qū)⑵渥R別為汽車。通過在所有位置共享過濾器，即應用卷積，可以利用這一點。

2．位置－附近的像素緊密相關，通常代表某種語義概念，例如滾輪或窗戶。通過使用相對較大的濾波器可以利用這一點，該濾波器可以捕獲局部空間鄰域中的圖像特征。

3．組成性（或?qū)哟谓Y(jié)構(gòu)）－圖像中較大的區(qū)域通常是其包含的較小區(qū)域的語義父級。例如，汽車是車門、車窗、車輪、駕駛員等的父對象，而駕駛員是頭部、手臂等的父對象。這是通過疊加卷積層和應用池隱式利用的。

其次，卷積層中可訓練參數(shù)（即濾波器）的數(shù)量不取決于輸入維數(shù)，因此從技術(shù)上講，我們可以在28×28和512×512圖像上訓練完全相同的模型。換句話說，模型是參數(shù)化的。

理想情況下，我們的目標是開發(fā)一種與Graph Neural Nets一樣靈活的模型，可以從任何數(shù)據(jù)中進行摘要和學習，但是與此同時，我們希望通過打開／關閉某些先驗條件來控制（調(diào)節(jié)）這種靈活性的因素。

所有這些出色的屬性使ConvNets不太容易過度擬合（訓練集的準確性較高，而驗證／測試集的準確性較低），在不同的視覺任務中更為準確，并且可以輕松地擴展到大型圖像和數(shù)據(jù)集。因此，當我們要解決輸入數(shù)據(jù)采用圖結(jié)構(gòu)的重要任務時，將所有這些屬性轉(zhuǎn)移到圖神經(jīng)網(wǎng)絡GNN以規(guī)范其靈活性并使其具有可擴展性就很有吸引力。理想情況下，我們的目標是開發(fā)一種與GNN一樣靈活的模型，并且可以從任何數(shù)據(jù)中進行摘要和學習，但是與此同時，我們希望通過打開／關閉某些先驗條件來控制（調(diào)節(jié)）這種靈活性的因素。這可以打開許多有趣方向的研究。然而，控制這種折衷是具有挑戰(zhàn)性的。

2．2 用圖對圖像進行卷積

讓我們考慮一個具有N個節(jié)點的無向圖G。邊E表示節(jié)點之間的無向連接。節(jié)點和邊通常來自您對問題的直覺。對于圖像，我們的直覺是節(jié)點是像素或超像素（一組怪異形狀的像素），邊緣是它們之間的空間距離。例如，左下方的MNIST圖像通常表示為28×28尺寸的矩陣。我們也可以將其表示為一組N ＝ 28 ＊ 28 ＝ 784像素。因此，我們的圖形G將具有N ＝ 784個節(jié)點，并且邊緣位置較近的像素的邊緣將具有較大的值（下圖中的較厚邊緣），而遠程像素的邊緣將具有較小的值（較薄的邊緣）。

當我們在圖像上訓練神經(jīng)網(wǎng)絡或ConvNets時，我們在圖上隱式定義了圖像－下圖是一個規(guī)則的二維網(wǎng)格。由于此網(wǎng)格對于所有訓練和測試圖像都是相同的，并且是規(guī)則的，即，網(wǎng)格的所有像素在所有圖像上都以完全相同的方式彼此連接（即，具有相同的鄰居數(shù)，邊長等）。則此規(guī)則網(wǎng)格圖沒有任何信息可幫助我們將一個圖像與另一個圖像區(qū)分開。下面，我可視化一些2D和3D規(guī)則網(wǎng)格，其中節(jié)點的順序用顏色編碼。順便說一句，我正在Python中使用NetworkX來做到這一點，e．g． G ＝ networkx．grid＿graph（［4， 4］）。

有了這個4×4的規(guī)則網(wǎng)格，讓我們簡要地看一下2D卷積的工作原理，以了解為什么很難將此運算符轉(zhuǎn)換為圖形。規(guī)則網(wǎng)格上的過濾器具有相同的節(jié)點順序，但是現(xiàn)代卷積網(wǎng)絡通常具有較小的濾波器，例如下面的示例中的3×3。該濾波器具有9個值：W 1，W 2，…，W 3，這是我們在使用反向傳播器進行訓練期間正在更新的值，以最大程度地減少損耗并解決下游任務。在下面的示例中，我們試探性地將此過濾器初始化為邊緣檢測器。

當我們進行卷積時，我們會在兩個方向上滑動該濾波器：向右和向底部滑動，但是沒有什么可以阻止我們從底角開始—重要的是要在所有可能的位置滑動。在每個位置，我們計算網(wǎng)格上的值（用X表示）與濾鏡值W之間的點積：W：X？W？＋ X？W？＋…＋X？W？，并將結(jié)果存儲在輸出圖像中。在我們的可視化中，我們在滑動過程中更改節(jié)點的顏色以匹配網(wǎng)格中節(jié)點的顏色。在常規(guī)網(wǎng)格中，我們總是可以將X？W？的節(jié)點與網(wǎng)格的節(jié)點進行匹配。不幸的是，對于圖而言，情況并非如此，我將在下面進行解釋。

上面使用的點積是所謂的“聚合運算符”之一。廣義上講，聚合運算符的目標是將數(shù)據(jù)匯總為簡化形式。在上面的示例中，點積將3×3矩陣匯總為單個值。另一個示例是ConvNets中的池化。請記住，最大池或總池之類的方法是置換不變的，即，即使您隨機改組該區(qū)域內(nèi)的所有像素，它們也會從空間區(qū)域中合并相同的值。為了明確起見，點積不是排列不變的，僅僅是因為通常：X？W？＋X？W？ ≠X？W？＋X？W？。

現(xiàn)在，讓我們使用我們的MNIST圖像并說明常規(guī)網(wǎng)格，濾波器和卷積的含義。請記住我們的圖形術(shù)語，這個規(guī)則的28×28網(wǎng)格將成為我們的圖形G，因此該網(wǎng)格中的每個單元都是一個節(jié)點，并且節(jié)點特征是實際的圖像X，即每個節(jié)點將只有一個特征－像素強度從0（黑色）到1（白色）。

接下來，我們定義一個濾波器，并使其成為具有一些（幾乎）任意參數(shù)的著名Gabor濾波器。一旦有了圖像和濾波器，我們就可以通過在該圖像上滑動濾波器（在本例中為7位）并將點積的結(jié)果放置到輸出矩陣上來執(zhí)行卷積。

mark

這一切都很酷，但是正如我之前提到的，當您嘗試將卷積推廣到圖時，這變得很棘手。

節(jié)點是一個集合，該集合的任何排列都不會更改它。因此，人們應用的聚合運算符應該是不變排列的

正如我已經(jīng)提到的，上面用于計算每個步驟的卷積的點積對順序很敏感。這種靈敏度使我們能夠?qū)W習類似于Gabor濾波器的邊緣檢測器，這對于捕獲圖像特征很重要。問題在于，在圖中沒有明確定義的節(jié)點順序，除非您學會對節(jié)點進行排序，或者想出一些啟發(fā)式方法，否則將導致圖與圖之間的順序一致（規(guī)范）。簡而言之，節(jié)點是一個集合，并且此集合的任何排列都不會更改它。因此，人們應用的聚合運算符應該是不變排列的。最受歡迎的選擇是所有鄰居的平均值（GCN，Kipf＆Welling，ICLR，2017）和求和（GIN，Xu et al。，ICLR，2019），即求和或均值合并，然后通過可訓練向量W進行投影。有關其他聚合器，請參見（Hamilton等人，NIPS，2017）。

例如，對于上面左上方的圖，節(jié)點1的求和聚合器的輸出為X？＝（X？＋X？＋X？＋X？）W？，對于節(jié)點2：X？＝（X？＋ X？＋X？＋X？） W？等對于節(jié)點3、4和5，即我們需要將此聚合器應用于所有節(jié)點。結(jié)果，我們將獲得具有相同結(jié)構(gòu)的圖，但是節(jié)點特征現(xiàn)在將包含鄰居特征。我們可以使用相同的想法在右邊處理圖形。

通俗地講，人們稱這種平均或求和為“卷積”，因為我們也從一個節(jié)點“滑動”到另一個節(jié)點，并在每個步驟中應用一個聚合運算符。但是，請務必記住，這是一種非常特殊的卷積形式，其中的濾波器沒有方向感。下面，我將展示這些濾波器的外觀，并給出如何使它們變得更好的想法。

3．是什么使神經(jīng)網(wǎng)絡成為圖神經(jīng)網(wǎng)絡

您知道經(jīng)典神經(jīng)網(wǎng)絡是如何工作的，對嗎？我們有一些C維特征X作為網(wǎng)絡的輸入。使用我們正在運行的MNIST示例，X將成為我們的C ＝ 784維像素特征（即“展平”的圖像）。這些特征乘以我們在訓練期間更新的C×F維度權(quán)重W，以使輸出更接近我們的期望。結(jié)果可以直接用于解決任務（例如，在回歸的情況下），也可以進一步饋入某種非線性（激活），如ReLU或其他可微分（或更精確地，可微分）的函數(shù)以形成多層網(wǎng)絡。通常，某些層的輸出為：

MNIST中的信號是如此強大，以至于只要使用上面的公式和交叉熵損失，就可以得到91％的準確度，而沒有任何非線性和其他技巧（我使用了經(jīng)過稍微修改的PyTorch示例來做到這一點）。這種模型稱為多項式（或多類，因為我們有10類數(shù)字）邏輯回歸。

現(xiàn)在，我們?nèi)绾伟哑胀ǖ纳窠?jīng)網(wǎng)絡轉(zhuǎn)換成圖神經(jīng)網(wǎng)絡呢？正如您已經(jīng)知道的，GNNs背后的核心思想是通過“鄰居”進行聚合。在這里，重要的是要理解，在許多情況下，實際上是您指定了“鄰居”。
讓我們先考慮一個簡單的情況，當您得到一些圖形時。例如，這可以是一個具有5個人的社交網(wǎng)絡的片段（子圖），一對節(jié)點之間的一條邊表示兩個人是否是朋友（或者其中至少一個人是這樣認為的）。右下圖中的鄰接矩陣（通常表示為A）是一種以矩陣形式表示這些邊的方法，對于我們的深度學習框架而言非常方便。矩陣中的黃色單元格代表邊緣，而藍色表示沒有邊緣。

現(xiàn)在，讓我們基于像素坐標為我們的MNIST示例創(chuàng)建一個鄰接矩陣A（文章末尾提供了完整的代碼）：

import numpy as np

from scipy．spatial．distance import cdist

img＿size ＝ 28 ＃ MNIST 圖片長寬

col， row ＝ np．meshgrid（np．a(chǎn)range（img＿size）， np．a(chǎn)range（img＿size））

coord ＝ np．stack（（col， row）， axis＝2）．reshape（－1， 2）／ img＿size

dist ＝ cdist（coord， coord）＃見左下圖

sigma ＝ 0．2 ＊ np．pi ＃高斯分布寬度

A ＝ np．exp（－ dist ／ sigma ＊＊ 2）＃見下圖中間

這是為視覺任務定義鄰接矩陣的一種典型方法，但并非唯一方法（Defferrard等，NIPS，2016；Bronstein等，2016）。該鄰接矩陣是我們的先驗矩陣，也就是我們的歸納偏差，我們根據(jù)直覺將附近的像素連接在一起，而遠端像素則不應該或應該具有非常薄的邊緣（較小的邊緣），以此強加給模型。這是由于觀察的結(jié)果，即在自然圖像中，附近的像素通常對應于同一對象或頻繁交互的對象（我們在第2．1節(jié)中提到的局部性原理），因此連接此類像素非常有意義。

因此，現(xiàn)在，不僅有特征X，我們還有一些花哨的矩陣A，其值在［0，1］范圍內(nèi)。重要的是要注意，一旦我們知道輸入是一個圖，我們就假定沒有規(guī)范的節(jié)點順序在數(shù)據(jù)集中的所有其他圖上都是一致的。就圖像而言，這意味著假定像素是隨機混洗的。在實踐中，找到節(jié)點的規(guī)范順序在組合上是無法解決的。即使從技術(shù)上來說，對于MNIST，我們可以通過知道此順序來作弊（因為數(shù)據(jù)最初來自常規(guī)網(wǎng)格），但它不適用于實際的圖數(shù)據(jù)集。