NLP ——從0開始快速上手百度 ERNIE
在解壓出的文件夾“task_data/chnsenticorp”中, 包含了三個文件“train.tsv”、“dev.tsv”、“test.tsv”,分別對應ChnSentiCorp 數(shù)據(jù)的訓練集、驗證集和測試集,該任務是一個單句分類任務,數(shù)據(jù)包含兩個字段為“l(fā)abel”和“seg_a”,以“TAB”進行分隔,示例如下:
seg_a label選擇珠江花園的原因就是方便,有電動扶梯直接到達海邊,周圍餐館、食廊、商場、超市、攤位一應俱全。酒店裝修一般,但還算整潔。泳池在大堂的屋頂,因此很小,不過女兒倒是喜歡。包的早餐是西式的,還算豐富。服務嗎,一般 115.4寸筆記本的鍵盤確實爽,基本跟臺式機差不多了,蠻喜歡數(shù)字小鍵盤,輸數(shù)字特方便,樣子也很美觀,做工也相當不錯 1房間太小。其他的都一般。。。。。。。。。01.接電源沒有幾分鐘,電源適配器熱的不行. 2.攝像頭用不起來. 3.機蓋的鋼琴漆,手不能摸,一摸一個。 4.硬盤分區(qū)不好辦. 0今天才知道這書還有第6卷,真有點郁悶:為什么同一套書有兩種版本呢?當當網(wǎng)是不是該跟出版社商量商量,單獨出個第6卷,讓我們的孩子不會有所遺憾。1機器背面似乎被撕了張什么標簽,殘膠還在。但是又看不出是什么標簽不見了,該有的都在,怪 0呵呵,雖然表皮看上去不錯很精致,但是我還是能看得出來是盜的。但是里面的內(nèi)容真的不錯,我媽愛看,我自己也學著找一些穴位。0這本書實在是太爛了,以前聽浙大的老師說這本書怎么怎么不對,哪些地方都是誤導的還不相信,終于買了一本看一下,發(fā)現(xiàn)真是~~~無語,這種書都寫得出來 0地理位置佳,在市中心。酒店服務好、早餐品種豐富。我住的商務數(shù)碼房電腦寬帶速度滿意,房間還算干凈,離湖南路小吃街近。12. 運行Fine-tuning
運行該腳本即可執(zhí)行Fine-tuning, 腳本會根據(jù)你指定的from_pretrained參數(shù)下載預訓練模型,運行最大步長max_steps由樣本數(shù) * epoch數(shù) / 批大小算出。
!export CUDA_VISIBLE_DEVICES=0 !PYTHONPATH=./ERNIE python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py --from_pretrained ernie-1.0 --data_dir ./chnsenticorp/ --epoch 10 --lr 5e-5 --bsz 32 --max_steps $((9600*10/32)) --save_dir ./tuned_model
執(zhí)行結束后輸出如下的在驗證集和測試集上面的測試結果:
training: 250it [01:39, 2.96it/s]2020-05-15 17:52:21,377-DEBUG: train loss 0.00880 lr 3.585e-05training: 260it [01:43, 3.00it/s]2020-05-15 17:52:24,743-DEBUG: train loss 0.05025 lr 3.568e-05training: 270it [01:46, 3.00it/s]2020-05-15 17:52:28,108-DEBUG: train loss 0.06813 lr 3.552e-05training: 280it [01:49, 3.00it/s]2020-05-15 17:52:31,474-DEBUG: train loss 0.12881 lr 3.535e-05training: 290it [01:53, 3.00it/s]2020-05-15 17:52:34,840-DEBUG: train loss 0.06156 lr 3.518e-052020-05-15 17:52:42,877-DEBUG: acc 0.93250training: 10it [00:08, 1.88it/s]2020-05-15 17:52:46,317-DEBUG: train loss 0.00679 lr 3.485e-05training: 20it [00:11, 2.84it/s]2020-05-15 17:52:49,817-DEBUG: train loss 0.13993 lr 3.468e-05training: 30it [00:15, 2.89it/s]2020-05-15 17:52:53,297-DEBUG: train loss 0.02414 lr 3.452e-05
可以看到準確率(acc)達到了0.95左右,與表1中的測評準確率非常接近,說明訓練效果達到了良好水平。
3. 執(zhí)行推理
Fine-tuning 結束后,如果用戶希望使用模型運行推理,可以修改上述命令行,并加入?yún)?shù)--eval進入推理模式,從而利用保存在某個checkpoint (由--save_dir指定)的模型執(zhí)行推理。
!head ./chnsenticorp/dev/part.0|awk -F" " '{print $1}'| PYTHONPATH=./ERNIE python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py --from_pretrained ernie-1.0 --data_dir ./chnsenticorp/ --epoch 10 --lr 5e-5 --bsz 32 --eval --max_steps $((9600*10/32)) --save_dir ./tuned_model
輸入的預測數(shù)據(jù)由標準輸入管道灌入程序。修改完成后請再次運行腳本執(zhí)行推理。該命令指向的“chnsenticorp/dev/part.0”文件里的前10句話,程序將對這10句話進行推理:
這間酒店環(huán)境和服務態(tài)度亦算不錯,但房間空間太小,不宣容納太大件行李,且房間格調還可以,中餐廳的廣東點心不太好吃,要改善之。但算價錢平宜,可接受。西餐廳格調都很好,但吃的味道一般且令人等得太耐了,要改善之。
<薦書> 推薦所有喜歡<紅樓>的紅迷們一定要收藏這本書,要知道當年我聽說這本書的時候花很長時間去圖書館找和借都沒能如愿,所以這次一看到當當有,馬上買了,紅迷們也要記得備貨哦!
商品的不足暫時還沒發(fā)現(xiàn),京東的訂單處理速度實在……周二就打包完成,周五才發(fā)貨...
2001年來福州就住在這里,這次感覺房間就了點,溫泉水還是有的.總的來說很滿意.早餐簡單了些。
不錯的上網(wǎng)本,外形很漂亮,操作系統(tǒng)應該是個很大的 賣點,電池還可以。整體上講,作為一個上網(wǎng)本的定位,還是不錯的。
房間地毯太臟,臨近火車站十分吵鬧,還好是雙層玻璃。服務一般,酒店門口的TAXI講是酒店的長期合作關系,每月要交費給酒店。從酒店到機場講得是打表147元,到了后非要200元,可能被小宰30-40元。
本來想沒事的時候翻翻,可惜看不下去,還是和張沒法比,他的書能暢銷大部分還是受張的影響,對這個男人實在是沒好感,不知道怎么買的,后悔。
這臺機外觀十分好,本人喜歡,性能不錯,是LED顯示屏,無線網(wǎng)卡是: 5100AGN 無線網(wǎng)卡,如果裝的是一條2G 800MHZ的內(nèi)存就無敵了,本本發(fā)熱很小,總體來說是十分值得買的,前提是這臺機是4299買的。
全鍵盤帶數(shù)字鍵的 顯卡足夠強大.N卡相對A卡,個人偏向N卡 GHOST XP很容易.除了指紋識別外.所有驅動都能裝齊全了,指紋識別,非要在XP下使用的朋友,可以用替代驅動.貢獻下驅動地址: http://dlsvr01.a(chǎn)sus.com/pub/ASUS/nb/F9Dc/Fingerprints_XP_080530.zip (華碩官方地址,放心下吧)。
做工很漂亮,老婆很喜歡。T4200足夠了,性價比不錯的機器。測試了一下很安逸。今天晚上準備TWOW溜達圈,再看看整機表現(xiàn)如何!
其它分類任務的運行方式類似。同時 ERNIE 還支持閱讀理解、語義匹配、序列標注等任務,運行方式可以參考 README 中 Fine-tuning 章節(jié)。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?