搜尋
首頁科技週邊人工智慧NLP中的注意力機制在自然語言處理上的應用

NLP中的注意力機制在自然語言處理上的應用

Jan 23, 2024 pm 04:12 PM
人工智慧機器學習

NLP中的注意力機制在自然語言處理上的應用

注意力的概念

注意力的概念在神經機器翻譯的seq2seq模型中廣為人知。編碼器傳遞到解碼器的資訊量有限,限制了模型的效能。然而,注意力的引入可以克服這個瓶頸,使模型能夠更好地處理長句子和複雜語義。

簡單來說,模型在解碼階段會利用編碼器的所有隱藏狀態,並將最終隱藏狀態作為初始隱藏狀態饋送到解碼器。這樣做的好處是,模型能夠在解碼過程中利用更多的信息,並且能夠「注意」輸入序列中最相關的部分,從而在生成輸出序列的不同部分時做出更準確的預測。

注意力的一般框架想法

雖然注意力機制在不同的體系結構和實作細節上有所不同,但它們也有一些共同點。例如,考慮一個場景,我們想要使用具有某種體系結構的神經網路進行預測。在這種情況下,我們會得到一個包含一些編碼資訊的向量。我們可以利用這個向量來預測,例如將其輸入到全連接層,然後再經過softmax層等處理。雖然具體的處理步驟可能會有所不同,但這個基本的思路在不同的體系結構中是相似的。

然而,事實證明它的預測結果並不令人滿意。原因可能有很多,以下是一個可能的想法:

1.使用的這個向量不包含對實現良好預測有用的所有資訊。

通常,做出良好預測所需的資訊會分佈在許多向量中,例如在NLP任務的情況下,有一個被標記編碼的向量序列。儘管已經考慮了所有分佈式信息,但隨著它在神經網路中更深入地流動,一些信息將不可避免地丟失。

2.有用的不僅是這些向量中包含的各個資訊片段,還有它們與目前向量之間的關係。

目前向量可能需要與其他向量互動和通信,並幫助確定要傳遞哪些訊息。因此,需要一種更聰明的方法來組合所有擁有的潛在有用的向量,並讓模型學習要注意什麼,以便做出更好的預測。

考慮到這兩點後,假設現在有這麼一個向量以及其他符合條件的向量,這些向量對於做出預測很重要,而處理這些資訊的方法,即是注意力的一般框架。

在這個框架中接受查詢並讓它與鍵一一互動:

1、查詢和每個鍵之間的特定交互,它可以是內積或加法或連接的組合以及饋送到小型神經網路等。使用從反向傳播訓練的具有相同參數的相同操作來處理查詢每個不同的鍵。此外,要求這些操作後的最終輸出是單一值。這些輸出值稱為能量。在查詢和所有關鍵向量上重複這個過程後,將得到一系列的能量。
2、使用softmax層對所有能量進行歸一化。
3、對值向量進行加權求和,權重為歸一化能量。這會產生一個上下文向量,其維度與一個值向量相同,其中包含以智慧方式組合的所有元素的資訊。
4、可以一起使用上下文向量和查詢向量來進行預測,例如,將它們連接起來,根據需要提供給神經網絡,然後是softmax層。

以上即為注意力的一般框架的流程,以下就來看看這個框架是如何應用在不同任務中的。

情緒分析任務

情緒分析類型的任務是一種分類任務,輸入是一段文本,輸出是對應於其中一種可能情感的標籤。在將文字輸入神經網路之前,需要對其進行清理、格式化、標記化並轉換為基於詞彙表的一系列索引。雖然這不是seq2seq而是seq2one,但注意機制仍然適用並有助於提高效能。

普通的單向或雙向基於LSTM的網路可用於執行此任務。在這種情況下,只有最後一層的最終隱藏狀態(單向)或兩個最終隱藏狀態(雙向,一個來自前向,一個來自後向)用於透過傳遞給分類頭進行預測,例如全連接層和softmax。僅由最終隱藏狀態攜帶的有限資訊為模型的性能設定了瓶頸。

日期翻譯任務

日期翻譯是字元級seq2seq任務的一個例子。此任務的目標是將人類可讀的日期作為輸入,例如“2022年12月27日”,並輸出表示與輸入相同日期的機器可讀日期,例如“2022-12-27”。

#

基於注意力的模型在解碼器中的LSTM單元之前有一個注意力塊。在每個循環步驟中,注意區塊的輸出上下文向量和最後一步的輸出被連接起來,然後饋送到LSTM單元。注意力的另一種實現是在LSTM單元和輸出上下文向量之後將注意力塊與當前步驟的輸出向量連接起來,然後再饋送到全連接層以預測下一個標記。這裡的注意力塊遵循通用框架,鍵和值向量是同一組向量,即編碼器最後一層的隱藏狀態,查詢和每個鍵之間的交互是一個小型神經網路。

在解碼階段,單向LSTM一次預測一個標記,因此每個步驟的輸入有兩種選擇:從上一步輸出的當前步驟預測的標記或基本事實。這裡可以定義一個超參數,以控制訓練期間使用的輸入標記中有多少百分比是基本事實,並且可以對其進行實驗以優化模型性能。

以上是NLP中的注意力機制在自然語言處理上的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:网易伏羲。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。