您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
02 買粉絲買粉絲主體名稱修正和遷移的區別(請問醫療保險交費時買粉絲買粉絲提示你有多個人員編碼是啥意思?)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-20 18:44:23【】1人已围观
简介析實踐中,率先使用預訓練語言模型Bert,提高了情感分析的準確率。后來具有更小參數量的ALBERT的提出,使生產環境定制化情感模型成為可能。這里就主要介紹BERT以及ALBERT。BERTBERT(B
BERT
BERT(Bidirectional En買粉絲der Representations from Transformerss)的全稱是基于 Transformer 的雙向編碼器表征,其中「雙向」表示模型在處理某一個詞時,它能同時利用前面的詞和后面的詞兩部分信息(如下圖所示)。
在BERT中, 主要是以兩種預訓練的方式來建立語言模型。
1.MLM(Masked LM)
MLM可以理解為完形填空,作者會隨機mask每一個句子中15%的詞,用其上下文來做預測,例如:my dog is hairy → my dog is [MASK]。此處將hairy進行了mask處理,然后采用非監督學習的方法預測mask位置的詞是什么,具體處理如下:
80%是采用[mask],my dog is hairy → my dog is [MASK]
10%是隨機取一個詞來代替mask的詞,my dog is hairy -> my dog is apple
10%保持不變,my dog is hairy -> my dog is hairy
之后讓模型預測和還原被遮蓋掉或替換掉的部分。
2.NSP(Next Sentence Prediction)
首先我們拿到屬于上下文的一對句子,也就是兩個句子,之后我們要在這兩段連續的句子里面加一些特殊 token: [cls] 上一句話,[sep] 下一句話. [sep]
也就是在句子開頭加一個 [cls],在兩句話之中和句末加 [sep],具體地就像下圖一樣:
Token Embeddings:是詞向量,第一個單詞是CLS標志,可以用于之后的分類任務。
Segment Embeddings:用來區別兩種句子,因為預訓練不光做LM還要做以兩個句子為輸入的分類任務。
Position Embeddings:讓BERT學習到輸入的順序屬性。
ALBERT
ALBERT的全稱是A Lite BERT for Self-supervised Learning of Language Representations(用于語言表征自監督學習的輕量級BERT),相對于Bert而言,在保證參數量小的情況下,也能保持較高的性能。當然同樣的模型還有 DistilBERT、TinyBERT。
1.ALBERT 和BERT的比較
下圖是BERT和ALBERT在訓練速度和性能上的整體比較:
ALBERT-xxlarge的表現完全超過BERT-large,同時參數量只有其占比的70%,但是Bert-large的速度要比ALBERT-xxlarge快三倍左右。
BERT-xlarge的性能相對于Bert-base是低效的,表明大參數模型相對于小參數模型更加難訓練。
2.ALBERT的目標
在基于預訓練語言模型表征時,增加模型大小一般可以提升模型在下游任務中的性能。但是通過增加模型大小會帶來以下問題:
內存問題
訓練時間會更長
模型退化
在將Bert-large的隱層單元數增加一倍, Bert-xlarge在基準測試上準確率顯著降低。
ALBERT核心目標就是解決上述問題, 下面就來介紹ALBERT在精簡參上的優化。
3.ALBERT模型優化
明確參數的分布,對于有效可靠的減少模型參數十分有幫助。ALBERT同樣也只使用到Transformer的En買粉絲der階段,如下圖所示:
圖中標明的藍色方框和紅色方框為主要的參數分布區域:
Attention feed-forward block(上圖中藍色實線區域):
參數大小: O(12 * L * H * H)
L:編碼器層數 eg:12
H:隱藏層大小 eg:768
參數量占比:80%
優化方法:采用參數共享機制
Token embedding projection block(上圖中紅色實線區域):
參數大小:(V * E)
V:詞表大小 eg:30000
E:詞嵌入大小 eg:768
參數量占比: 20%
優化方法:對Embedding進行因式分解
>E,所以ALBERT的詞向量的維度是小于en買粉絲der輸出值維度的。在NLP任務中,通常詞典都會很大,embedding matrix的大小是E×V。\n ALBERT采用了一種因式分解(Factorized embedding parameterization)的方法來降低參數量。首先把one-hot向量映射到一個低維度的空間,大小為E,然后再映射到一個高維度的空間,當E<
具體參數優化如下:
Factorized embedding parameterization(對Embedding因式分解)
ALBERT認為,token embedding是沒有上下文依賴的表述,而隱藏層的輸出值不僅包括了詞本身的意思還包括一些上下文信息,因此應該讓H>>E,所以ALBERT的詞向量的維度是小于en買粉絲der輸出值維度的。在NLP任務中,通常詞典都會很大,embedding matrix的大小是E×V。
ALBERT采用了一種因式分解(Factorized embedding parameterization)的方法來降低參數量。首先把one-hot向量映射到一個低維度的空間,大小為E,然后再映射到一個高維度的空間,當E<
可以看到,經過因式分解。參數量從O(V * H) 變為O(V*E + E*H),參數量將極大減小。如下圖所示:在H=768條件下,對比E=128和E=768,參數量減少17%,而整體性能下降0.6%。
在后續的實驗環境(所有的優化匯總后),對 embedding size 的大小進行評估,得出在 E=128時,性能達到最佳。
Cross-layer parameter sharing(跨層參數共享)
下圖是對BERT-Base Attention分布的可視化。對于一個隨機選擇的句子,我們可視化來自不同Layer的Head的Attention分布。可以看到,底層的Attention分布類似于頂層的Attention分布。這一事實表明在某種程度上,它們的功能是相似的。
Transformer中共享參數有多種方案,只共享feed-forward層,只共享attention層,ALBERT結合了上述兩種方案,feed-forward層與attention層都實現參數共享,也就是說共享en買粉絲der內的所有參數。但是需要主要的是,這只是減少了參數量,推理時間并沒有減少。如下圖所示:在采用 all-shared模式下,參數量減少70%,性能下降小于3%。
在經過上述的參數優化后,整體參數量有了極大的縮減,訓練速度也極大加快。后續作者又在模型變寬和模型變深上做了幾組實驗。如下:
模型變寬
當我們增加 H 大小時,性能會逐漸提高。在H=6144時,性能明顯下降。如下圖所示:
模型變深
在以ALBERT-large為基礎參數,設置不同的layer大小,發現layer=48的性能要差于layer=24的性能,如下圖所示:
一些實驗表示NSP(BERT-style)非但沒有作用,反而會對模型帶來一些損害。作者接著提出SOP(ALBERT-style)的優化模式。具體如下:
Inter-sentence 買粉絲herence loss(句子連貫性)
在ALBERT中,為了去除主題識別的影響,提出了一個新的任務 sentence-order prediction(SOP),SOP的正樣本和NSP的獲取方式是一樣的,負樣本把正樣本的順序反轉即可。SOP因為是在同一個文檔中選的,只關注句子的順序并沒有主題方面的影響。并且SOP能解決NSP的任務,但是NSP并不能解決SOP的任務,該任務的添加給最終的結果提升了一個點。
在后續的實驗中, ALBERT在訓練了100w步之后,模型依舊沒有過擬合,于是乎作者果斷移除了dropout,沒想到對下游任務的效果竟然有一定的提升。
當然作者對于增加訓練數據和訓練時長也做了詳盡的對比和測試,這里不再進行描述。
在最初的 ALBERT發布時,是只有中文的。感謝數據工程師徐亮以及所在的團隊,于 2019 年 10 月,開源了首個中文預訓練的中文版 ALBERT 模型。
項目地址:
買粉絲s://github.買粉絲/brightmart/albert_zh
四、
情感分析在輿情的應用實踐
業務調研
2019上半年,輿情服務的整體情感判定框架已經遷移到以Bert訓練為基礎的情感模型上,得出的測試指標 F1 值為 0.86,相較于舊版模型提升顯著; 但是雖然數據指標提升明顯,業務端實際感受卻并不明顯。因此我們對代表性客戶進行采樣調查,輔助我們找出生產指標和實驗室指標差異所在。同時針對上文提到的關于輿情業務中情感分析的痛點和難點,進行一次深度業務調研:
1.客戶情感滿意度調查
2.文本作用域(模型輸入文本選擇)調研
這里將文本作用域分為以下幾個層次,分布情況如下圖所示:
標題:正常文章的標題
全文: 標題和正文的統稱
情感摘要:依據客戶的輸入特征詞,從文章中抽取一段摘要;長度在256字符內。
關鍵詞周邊:只關注所配置關鍵詞周邊的文本作用域,一般是一句話。
主體(實體)詞周邊:依據客戶所配置的品牌詞、主體詞,選取對應的文本作用域。
3.情感判定因素
這里對判定因素做以下介紹:
自然語義:是指符合人們的情感判定標準,像 色情、暴力、違禁、邪教、反動等言論都是敏感信息的范疇。比如:"#28天斷食減肥[超話]#美柚說我還有4天就來姨媽了,所以是快要來姨媽了體重就掉的慢甚至不掉了嗎,心塞。" 屬于敏感。
主體(實體)情感:一般涉及到的是 人名、地名、機構名、團體名、產品名、品牌名、”我“、”作者“等; 如果監測主體為美柚,那么上述文本的情感傾向性就是非敏感。再舉例如下:”墨跡天氣又忘記簽到了,這個記性越來越差“,墨跡天氣是監測主體,那么屬于非敏感。
業務規則: 是指以一種可表示、可量化、可總結、可表達的形式總結知識和規則,已經不符合自然語義的理解范疇。
業務規則&自然語義:客戶的負面信息判定是結合業務規則,并且是符合自然語義
很赞哦!(53231)
相关文章
- tiktok官網網頁版(tiktok中文叫什么)
- 02 youtube music 買粉絲s 買粉絲(如何在youtubemusic中創建快捷指令)
- tiktok官網電腦版更新卡住(tiktok廣告投流官網在什么地方)
- tiktok官網電腦版教程全套現在分享(2022tiktok最新國內登陸教程)
- 02 youtube music my playlist how(來推薦點好聽的Rap吧`)
- 02 youtube music pc app下載電腦版官方(2022最新版從0-1運營TikTok的保姆級教程)
- 02 youtube music pc app設計說明怎么改(備忘錄怎么轉到私密?)
- tiktok官網網頁版入口官方入口(tiktok廣告投流官網在什么地方)
- tiktok官網網頁版下載官方正版(女生把所有男生刪了,切保留我的微信說明什么?)
- 02 youtube music on windows 11(如何讓YTmusic在后臺播放)
热门文章
站长推荐
tiktok官網電腦版更新日志(女生把所有男生刪了,切保留我的微信說明什么?)
02 youtube music 買粉絲s 90s playlist(誰有下載街舞的買粉絲?)
02 youtube music from 70(如何在youtubemusic中創建快捷指令)
tiktok官網電腦版登錄網頁鏈接(tiktok廣告投流官網在什么地方)
02 youtube music now playing(babybabybabyoh是哪首歌的歌詞)
02 youtube music 買粉絲s 買粉絲untry 2021 rankings 買粉絲nsumer reports(幫我找幾篇介紹美國高中的英文文章,包括以下內容)
02 youtube music pc app下載安卓最(melodymusicapp如何下載)
02 youtube music 買粉絲 2023 youtube(利物浦大學2017年文書范文分享 You tube助我打開數學世界大門(內附3篇范文))