引言
字詞嵌入表示法作為機器翻譯、問答、文字分類等各種自然語言處理任務的基礎,它通常會占到模型參數總量的 20%~90%。儲存和存取這些嵌入需要大量的空間,這不利於模型在資源有限的設備上部署和應用。針對這個問題,本文提出了 MorphTE 字詞嵌入壓縮方法。 MorphTE 結合了張量積操作強大的壓縮能力以及語言形態學的先驗知識,能夠實現詞嵌入參數的高倍壓縮(超過 20 倍),同時保持模型的性能。
- 論文連結:https://arxiv.org/abs/2210.15379
- #開原始碼:https://github.com/bigganbing/Fairseq_MorphTE
模型
#本文提出的MorphTE 詞嵌入壓縮方法,首先將單字劃分成具有語義意義的最小單位——語素,並為每個語素訓練低維的向量表示,然後利用張量積實現低維語素向量的量子糾纏態數學表示,從而得到高維的單字表示。
01 單字的語素構成
語言學中,語素是具有特定語意或語法功能的最小單位。對於英語等語言來說,一個單字可以拆分成字根、詞綴等更小單位的語素。例如,“unkindly”可以拆分成表示否定的 “un”、具有“友好的” 等含義的 “kind”,以及表示副詞的“ly”。對漢語來說,一個漢字同樣可以拆分成偏旁部首等更小單位,如“沐” 可拆分成表示水的 “氵” 和“木”。
#語素在蘊含語意的同時,也可以在詞之間進行分享,從而聯繫不同的字詞。此外,有限數量的語素可以組合出更多的詞。
02 糾纏張量形式的字詞嵌入壓縮表示
#相關工作Word2ket 透過張量積,表示單字嵌入為若干低維向量的糾纏張量形式,其公式如下:
#其中##、r為秩、n 為階,表示張量積。 Word2ket 只需要儲存和使用這些低維的向量來建立高維的詞向量,從而實現參數有效降低。例如,r =2、n=3時,一個維度為512 的詞向量,可以透過兩組,每組三個維度為8 低維向量張量積得到,此時所需參數量從512 降低至48 。
03 形態學增強的張量化詞嵌入壓縮表示透過張量積,Word2ket 能夠實現明顯的參數壓縮,然而其在高倍壓縮以及機器翻譯等較複雜任務上,通常難以達到壓縮前的效果。既然低維度向量是組成糾纏張量的基本單位,同時語素是構成單字的基本單位。該研究考慮引入語言學知識,提出了 MorphTE,其訓練低維的語素向量,並利用單字所包含的語素向量的張量積來構建相應的詞嵌入表示。
#
具體而言,先利用語素分割工具對詞表V 中的詞進行語素分割,所有詞的語素將構成一個語素表M,語素的數量會明顯低於詞的數量()。
對於每個詞,建立其語素索引向量,該向量指向每個詞包含的語素在語素表中的位置。所有字的語素索引向量構成一個的語素索引矩陣,其中 n 是 MorphTE 的階數。
對於字表中的第j 個字,利用其語素索引向量
從r 群組參數化的語素嵌入矩陣中索引出對應的語素向量,並透過張量積進行糾纏張量表示得到對應的詞嵌入,該過程形式化如下:
##透過以上方式,MophTE 可以在詞嵌入表示中註入以語素為基礎的語言學先驗知識,同時語素向量在不同詞之間的共享可以明確地構建詞間聯繫。此外,語素的數量和向量維度都遠低於詞表的大小和維度,MophTE 從這兩個角度都實現了詞嵌入參數的壓縮。因此,MophTE 能夠實現詞嵌入表示的高品質壓縮。
實驗本文主要在不同語言的翻譯、問答等任務上進行了實驗,並且和相關的基於分解的詞嵌入壓縮方法進行了比較。
從表格中可以看到,MorphTE 可以適應英語、德語、義大利語等不同語言。在超過 20 倍壓縮比的條件下,MorphTE 能夠維持原始模型的效果,而其他壓縮方法幾乎都出現了效果的下降。此外,在超過 40 倍壓縮比的條件下,MorphTE 在不同資料集上的效果都比其他壓縮方法好。
同樣地,在WikiQA 的問答任務、SNLI 的自然語言推理任務上,MorphTE 分別實現了81 倍和38 倍的壓縮比,同時保持了模型的效果。
結論MorphTE 結合了先驗的形態學語言知識以及張量積強大的壓縮能力實現了詞嵌入的高品質壓縮。在不同語言和任務上的實驗表明,MorphTE 能夠實現詞嵌入參數 20~80 倍的壓縮,且不會損害模型的效果。這驗證了引入基於語素的語言學知識能夠提升詞嵌入壓縮表示的學習。儘管MorphTE 目前只建模了語素,它實際上可以被擴展為一個通用的詞嵌入壓縮增強框架,明確建模原形、詞性、大小寫等更多先驗的語言學知識,進一步提升詞嵌入壓縮表示。
以上是詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版
中文版,非常好用

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),