Transformer模型出自於Google團隊2017年發表的論文《Attention is all you need》,該論文中首次提出了使用Attention替換Seq2Seq模型循環結構的概念,為NLP領域帶來了極大衝擊。而隨著近年來研究的不斷推進,Transformer相關技術逐漸由自然語言處理流向其他領域。截止目前,Transformer系列模型已經成為了NLP、CV、ASR等領域的主流模型。
因此,如何更快地訓練和推理Transformer模型已成為業界的重要研究方向。低精度量化技術能夠透過降低資料的寬位來加速計算和通訊過程,是現階段模型訓練推理加速的重要手段。但美中不足的是,量化會造成精確度和效果的損失,需要透過量化感知和訓練等手段進行降損。針對以上痛點,位元組跳動研發升級了LightSeq訓練推理加速引擎3.0版本,首次同步實現了精度無損的Transformer模型量化訓練和量化推理。
LightSeq透過int8 GEMM實現了真量化訓練過程,並非採用業界廣泛使用的偽量化方法,能夠實現模型訓練速度4倍以上的提升。而透過PACT等量化策略,可以將量化訓練的損失降到最低。在將量化模型匯出為LightSeq支援格式後,可以進一步使用LightSeq量化推理引擎實現快速推理,在T4顯示卡上提速最高可達70%。
在7月21日的【T·TALK】技術分享活動中,我們特別邀請到了字節跳動演算法工程師、LightSeq核心開發者熊鷹老師做客直播間,為廣大觀眾揭秘字節跳動高性能訓練推理引擎LightSeq的技術原理與實務細節。無論你是演算法產業從業人員,或是熱衷於鑽研AI技術的開發者,相信你都能從這次分享中收穫一些不同的技術經驗與創新靈感。
#歡迎大家參與7月21日,晚上20:00【T·TALK】第12期技術分享活動
掃描海報下方二維碼預約觀看
以上是四倍提速,位元組跳動開源高性能訓練推理引擎LightSeq技術揭秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!