您现在的位置是：Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >

02 買粉絲買粉絲主體名稱修正和遷移的區別(請問醫療保險交費時買粉絲買粉絲提示你有多個人員編碼是啥意思？)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-20 18:44:23【】1人已围观

简介析實踐中，率先使用預訓練語言模型Bert，提高了情感分析的準確率。后來具有更小參數量的ALBERT的提出,使生產環境定制化情感模型成為可能。這里就主要介紹BERT以及ALBERT。BERTBERT（B

析實踐中，率先使用預訓練語言模型 Bert，提高了情感分析的準確率。后來具有更小參數量的ALBERT的提出,使生產環境定制化情感模型成為可能。這里就主要介紹BERT以及ALBERT。

BERT

BERT（Bidirectional En買粉絲der Representations from Transformerss）的全稱是基于 Transformer 的雙向編碼器表征，其中「雙向」表示模型在處理某一個詞時，它能同時利用前面的詞和后面的詞兩部分信息（如下圖所示）。

在BERT中, 主要是以兩種預訓練的方式來建立語言模型。

1.MLM(Masked LM)

MLM可以理解為完形填空，作者會隨機mask每一個句子中15%的詞，用其上下文來做預測，例如：my dog is hairy → my dog is [MASK]。此處將hairy進行了mask處理，然后采用非監督學習的方法預測mask位置的詞是什么，具體處理如下：

80%是采用[mask]，my dog is hairy → my dog is [MASK]

10%是隨機取一個詞來代替mask的詞，my dog is hairy -> my dog is apple

10%保持不變，my dog is hairy -> my dog is hairy

之后讓模型預測和還原被遮蓋掉或替換掉的部分。

2.NSP(Next Sentence Prediction)

首先我們拿到屬于上下文的一對句子，也就是兩個句子，之后我們要在這兩段連續的句子里面加一些特殊 token: [cls] 上一句話，[sep] 下一句話. [sep]

也就是在句子開頭加一個 [cls]，在兩句話之中和句末加 [sep]，具體地就像下圖一樣:

Token Embeddings：是詞向量，第一個單詞是CLS標志，可以用于之后的分類任務。

Segment Embeddings：用來區別兩種句子，因為預訓練不光做LM還要做以兩個句子為輸入的分類任務。

Position Embeddings：讓BERT學習到輸入的順序屬性。

ALBERT

ALBERT的全稱是A Lite BERT for Self-supervised Learning of Language Representations（用于語言表征自監督學習的輕量級BERT），相對于Bert而言，在保證參數量小的情況下,也能保持較高的性能。當然同樣的模型還有 DistilBERT、TinyBERT。

1.ALBERT 和BERT的比較

下圖是BERT和ALBERT在訓練速度和性能上的整體比較：

ALBERT-xxlarge的表現完全超過BERT-large，同時參數量只有其占比的70%，但是Bert-large的速度要比ALBERT-xxlarge快三倍左右。

BERT-xlarge的性能相對于Bert-base是低效的，表明大參數模型相對于小參數模型更加難訓練。

2.ALBERT的目標

在基于預訓練語言模型表征時，增加模型大小一般可以提升模型在下游任務中的性能。但是通過增加模型大小會帶來以下問題:

內存問題

訓練時間會更長

模型退化

在將Bert-large的隱層單元數增加一倍， Bert-xlarge在基準測試上準確率顯著降低。

ALBERT核心目標就是解決上述問題，下面就來介紹ALBERT在精簡參上的優化。

3.ALBERT模型優化

明確參數的分布，對于有效可靠的減少模型參數十分有幫助。ALBERT同樣也只使用到Transformer的En買粉絲der階段，如下圖所示：

圖中標明的藍色方框和紅色方框為主要的參數分布區域：

Attention feed-forward block(上圖中藍色實線區域):

參數大小: O(12 * L * H * H)

L：編碼器層數 eg:12

H：隱藏層大小 eg:768

參數量占比：80%

優化方法：采用參數共享機制

Token embedding projection block(上圖中紅色實線區域):

參數大小：(V * E)

V：詞表大小 eg:30000

E：詞嵌入大小 eg:768

參數量占比: 20%

優化方法：對Embedding進行因式分解

>E，所以ALBERT的詞向量的維度是小于en買粉絲der輸出值維度的。在NLP任務中，通常詞典都會很大，embedding matrix的大小是E×V。\n ALBERT采用了一種因式分解(Factorized embedding parameterization)的方法來降低參數量。首先把one-hot向量映射到一個低維度的空間，大小為E，然后再映射到一個高維度的空間，當E<

具體參數優化如下：

Factorized embedding parameterization(對Embedding因式分解)

ALBERT認為，token embedding是沒有上下文依賴的表述，而隱藏層的輸出值不僅包括了詞本身的意思還包括一些上下文信息，因此應該讓H>>E，所以ALBERT的詞向量的維度是小于en買粉絲der輸出值維度的。在NLP任務中，通常詞典都會很大，embedding matrix的大小是E×V。

ALBERT采用了一種因式分解(Factorized embedding parameterization)的方法來降低參數量。首先把one-hot向量映射到一個低維度的空間，大小為E，然后再映射到一個高維度的空間，當E<

可以看到，經過因式分解。參數量從O(V * H) 變為O(V*E + E*H)，參數量將極大減小。如下圖所示：在H=768條件下，對比E=128和E=768,參數量減少17%，而整體性能下降0.6%。

在后續的實驗環境(所有的優化匯總后),對 embedding size 的大小進行評估,得出在 E=128時，性能達到最佳。

Cross-layer parameter sharing(跨層參數共享)

下圖是對BERT-Base Attention分布的可視化。對于一個隨機選擇的句子，我們可視化來自不同Layer的Head的Attention分布。可以看到，底層的Attention分布類似于頂層的Attention分布。這一事實表明在某種程度上，它們的功能是相似的。

Transformer中共享參數有多種方案，只共享feed-forward層，只共享attention層，ALBERT結合了上述兩種方案，feed-forward層與attention層都實現參數共享，也就是說共享en買粉絲der內的所有參數。但是需要主要的是，這只是減少了參數量，推理時間并沒有減少。如下圖所示：在采用 all-shared模式下，參數量減少70%，性能下降小于3%。

在經過上述的參數優化后，整體參數量有了極大的縮減，訓練速度也極大加快。后續作者又在模型變寬和模型變深上做了幾組實驗。如下：

模型變寬

當我們增加 H 大小時，性能會逐漸提高。在H=6144時，性能明顯下降。如下圖所示：

模型變深

在以ALBERT-large為基礎參數，設置不同的layer大小，發現layer=48的性能要差于layer=24的性能，如下圖所示：

一些實驗表示NSP(BERT-style)非但沒有作用，反而會對模型帶來一些損害。作者接著提出SOP(ALBERT-style)的優化模式。具體如下：

Inter-sentence 買粉絲herence loss(句子連貫性)

在ALBERT中，為了去除主題識別的影響，提出了一個新的任務 sentence-order prediction（SOP），SOP的正樣本和NSP的獲取方式是一樣的，負樣本把正樣本的順序反轉即可。SOP因為是在同一個文檔中選的，只關注句子的順序并沒有主題方面的影響。并且SOP能解決NSP的任務，但是NSP并不能解決SOP的任務，該任務的添加給最終的結果提升了一個點。

在后續的實驗中， ALBERT在訓練了100w步之后，模型依舊沒有過擬合，于是乎作者果斷移除了dropout，沒想到對下游任務的效果竟然有一定的提升。

當然作者對于增加訓練數據和訓練時長也做了詳盡的對比和測試，這里不再進行描述。

在最初的 ALBERT發布時,是只有中文的。感謝數據工程師徐亮以及所在的團隊，于 2019 年 10 月，開源了首個中文預訓練的中文版 ALBERT 模型。

項目地址：

買粉絲s://github.買粉絲/brightmart/albert_zh

四、

情感分析在輿情的應用實踐

業務調研

2019上半年，輿情服務的整體情感判定框架已經遷移到以Bert訓練為基礎的情感模型上,得出的測試指標 F1 值為 0.86，相較于舊版模型提升顯著; 但是雖然數據指標提升明顯，業務端實際感受卻并不明顯。因此我們對代表性客戶進行采樣調查,輔助我們找出生產指標和實驗室指標差異所在。同時針對上文提到的關于輿情業務中情感分析的痛點和難點，進行一次深度業務調研：

1.客戶情感滿意度調查

2.文本作用域(模型輸入文本選擇)調研

這里將文本作用域分為以下幾個層次,分布情況如下圖所示:

標題：正常文章的標題

全文: 標題和正文的統稱

情感摘要：依據客戶的輸入特征詞，從文章中抽取一段摘要；長度在256字符內。

關鍵詞周邊：只關注所配置關鍵詞周邊的文本作用域，一般是一句話。

主體(實體)詞周邊：依據客戶所配置的品牌詞、主體詞，選取對應的文本作用域。

3.情感判定因素

這里對判定因素做以下介紹：

自然語義：是指符合人們的情感判定標準，像色情、暴力、違禁、邪教、反動等言論都是敏感信息的范疇。比如："#28天斷食減肥[超話]#美柚說我還有4天就來姨媽了，所以是快要來姨媽了體重就掉的慢甚至不掉了嗎，心塞。" 屬于敏感。

主體(實體)情感：一般涉及到的是人名、地名、機構名、團體名、產品名、品牌名、”我“、”作者“等; 如果監測主體為美柚,那么上述文本的情感傾向性就是非敏感。再舉例如下：”墨跡天氣又忘記簽到了，這個記性越來越差“，墨跡天氣是監測主體，那么屬于非敏感。

業務規則: 是指以一種可表示、可量化、可總結、可表達的形式總結知識和規則,已經不符合自然語義的理解范疇。

業務規則&自然語義：客戶的負面信息判定是結合業務規則，并且是符合自然語義

很赞哦!（53231）

上一篇： tiktok官網網址怎么進去(tiktok廣告投流官網在什么地方)

下一篇： 05 廣州越翔貿易有限公司(廣卅高鐵除在南站購票在市有代售點嗎)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业：程序员，设计师

现居：陕西榆林清涧县

工作室：小组

Email：[email protected]

您现在的位置是：Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >

02 買粉絲買粉絲主體名稱修正和遷移的區別(請問醫療保險交費時買粉絲買粉絲提示你有多個人員編碼是啥意思？)

相关文章

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

热门文章

站长推荐

友情链接