什么是文本摘要?為什么要有注意力機制?
建立Tokenizer
通過分詞器生成詞匯表,并將單詞文本序列轉為數值序列,方便計算機計算。
模型建立
我們可以選擇是否讓LSTM在每個時間步都會生成隱藏狀態(tài)h和記憶單元狀態(tài)c。
選擇LSTM是否僅生成最后一個時間步的隱藏狀態(tài)h和記憶單元狀態(tài)c。
選擇LSTM相互堆疊提高模型效果。
選擇雙向LSTM,可以雙向處理文本數據,獲取更加豐富的上下文信息。
使用beam search strategy代替貪婪方法argmax。
根據BLEU分數評估模型的性能。
可以選擇指針生成網絡,
因為整數序列采用獨熱編碼的方式,所以損失函數采用了稀疏交叉熵,對內存友好。
數學理解注意力機制
編碼器為源文本序列每一個時間步j都生成了一個隱藏狀態(tài)值hj。
相似的工作,解碼器為目標文本每一個時間步i都生成了隱藏狀態(tài)值si。
alignment score: 。用這個分數表示源文本中的第j步單詞與目標文本中第i步單詞的關聯(lián)度?梢杂胔j與si來計算這個分數值 根據所使用的得分函數的類型,有不同類型的注意力機制。這里列舉一些流行的注意力機制:
使用softmax函數對注意力參數的值進行歸一化。
計算注意力權重與編碼器hj的隱藏狀態(tài)乘積的線性總和,以產生注意力上下文向量Ci。
將注意力上一下文向量Ci與目標隱藏層向量si級聯(lián)以產生新的注意力隱藏層向量Si。
將注意力隱藏層向量傳入密集層產生yi。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?