訂閱
糾錯
加入自媒體

什么是文本摘要?為什么要有注意力機制?


什么是文本摘要?為什么要有注意力機制?

建立Tokenizer

通過分詞器生成詞匯表,并將單詞文本序列轉為數值序列,方便計算機計算。

模型建立

我們可以選擇是否讓LSTM在每個時間步都會生成隱藏狀態(tài)h和記憶單元狀態(tài)c。

選擇LSTM是否僅生成最后一個時間步的隱藏狀態(tài)h和記憶單元狀態(tài)c。

選擇LSTM相互堆疊提高模型效果。

選擇雙向LSTM,可以雙向處理文本數據,獲取更加豐富的上下文信息。

使用beam search strategy代替貪婪方法argmax。

根據BLEU分數評估模型的性能。

可以選擇指針生成網絡,

因為整數序列采用獨熱編碼的方式,所以損失函數采用了稀疏交叉熵,對內存友好。

數學理解注意力機制

編碼器為源文本序列每一個時間步j都生成了一個隱藏狀態(tài)值hj。

相似的工作,解碼器為目標文本每一個時間步i都生成了隱藏狀態(tài)值si。

alignment score: 。用這個分數表示源文本中的第j步單詞與目標文本中第i步單詞的關聯(lián)度?梢杂胔j與si來計算這個分數值 根據所使用的得分函數的類型,有不同類型的注意力機制。這里列舉一些流行的注意力機制:

什么是文本摘要?為什么要有注意力機制?

使用softmax函數對注意力參數的值進行歸一化。

計算注意力權重與編碼器hj的隱藏狀態(tài)乘積的線性總和,以產生注意力上下文向量Ci。

什么是文本摘要?為什么要有注意力機制?

將注意力上一下文向量Ci與目標隱藏層向量si級聯(lián)以產生新的注意力隱藏層向量Si。

將注意力隱藏層向量傳入密集層產生yi。


<上一頁  1  2  3  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號