專訪位元組跳動王明軒：機器翻譯和人工翻譯實質是兩條賽道

首頁

科技週邊

人工智慧

專訪位元組跳動王明軒：機器翻譯和人工翻譯實質是兩條賽道 | T前線

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 24, 2023 pm 09:37 PM

人工智慧機器翻譯位元組跳動

技術的進步，往往意味著產業的演化發現了新的方向。翻譯業也不例外。隨著全球化進程不斷加快，人們在進行涉外活動時都離不開跨語言的交流。機器翻譯的出現大大擴充了翻譯的應用場景，固然它還遠遠稱不上完善，但卻在人類挑戰巴別塔的路上跨出了堅實的一步。 51CTO特邀位元組跳動AI Lab機器翻譯負責人王明軒，聊一聊機器翻譯發展的這些年、那些事。

從基於規則，到基於統計模型，再到基於神經網路

機器翻譯的發展與電腦技術、資訊理論、語言學等學科的發展緊密相關。進入21世紀後，隨著硬體能力的提升和演算法的優化，機器翻譯技術迎來了空前的躍進，並成功邁出象牙塔，走上了普惠之路。

51CTO：縱觀歷史，機器翻譯經歷了哪些重要的發展節點？

王明軒：機器翻譯實質是一個非常古老的問題，機器翻譯的歷史可以追溯到17世紀笛卡爾、萊布尼茨等哲學家提出的「通用語言」。 1946年等電腦正式誕生後，人們期望電腦能將一種語言翻譯成另一種語言。美國科學家瓦倫·韋弗在《翻譯備忘錄》中正式定義了機器翻譯的概念和想法。這段時期，在冷戰背景下，美蘇兩國也基於蒐集資訊的需要，投入了大量資金用於機器翻譯相關研究。

一開始大家相對較樂觀，覺得這事很快就可以搞定了。第一版的翻譯系統非常簡單，主要是基於字典，例如把“太陽”翻譯為“sun”，但這種詞對詞的翻譯很快就遇到了瓶頸，因為一詞多義的現像比較多，例如“bank”，既可以是“銀行”，也可以是“河岸”，具體語境中會面臨許多選詞的困境。 結合語言學家所製定的語意規則可以解決一部分歧義，但發展到後期，規則越多，衝突的地方也會越多，系統會越來越複雜，依然無法解決問題。

1966年美國公佈了報告《語言與機器》，全面否定了機器翻譯的可行性，並建議停止對機器翻譯專案的資金支持。受此影響，機器翻譯陷入低潮期。

直到90年代，IBM提出基於字詞對齊的翻譯模型，標誌著現代統計機器翻譯方法的誕生。基於統計的機器翻譯原理很簡單，例如要在語境中判斷bank應該翻譯成“銀行”還是“河岸”，那就進行大量的相關語料統計，會發現上下文裡有“錢”相關的，那就更有可能翻譯成“銀行”，上下文中提到“河流”，那更可能對應的是“河岸”。如此一來，不用字典與文法規則，而是依照機率來判斷具體場景下的語意。這是劃時代的變化，機器翻譯的品質得到了巨大的提升。 很快，機器翻譯開始在許多實用場景落地。

從1993到2014年基本上都屬於統計的時代，但雖說是基於統計，還是需要人工去定義很多特徵、模板，再進一步設計細節，因而也不是非常靈活，模型的能量也不是很強大。

而後到了神經網路時代，神經網路翻譯從模型上說主要包含編碼器和解碼器。編碼器把源語言經過一系列神經網路變換後表示成一個高維度向量，解碼器負責把這個高維度向量重新解碼成目標語言。 2014年Seq2Seq的提出，讓神經網路翻譯慢慢開始比統計機器翻譯做得更好。

到2017年時，Google提出Transformer，模型更大、結構更靈活、並行化程度更高，這進一步提升了翻譯品質。同年，AlphaGo的勝利也讓大家對人工智慧的信心更充分。 也正是在2017年後，機器翻譯的產業化迎來了爆發期，直到現在，整體大框架沒有太大變化，但小細節上出現了許多創新。

挑戰「巴別塔」

從字典匹配，到結合語言學專家知識的規則翻譯，再到基於語料庫的統計機器翻譯，以及目前主流的神經網路機器翻譯，相較於之前，機器翻譯的品質有了飛躍式的提升，但仍面臨重重挑戰。

51CTO：目前機器翻譯面臨的主要挑戰在哪裡？

王明軒：挑戰其實還比較多。

第一，如何做稀缺語種的機器翻譯。這是機器翻譯從誕生以來就面臨的問題。語種越小，數據量越少，語料的稀缺會是長期的挑戰。

第二，如何做多模態的機器翻譯。近年來，我們經常需要做語音翻譯、視訊翻譯，事實上這類翻譯需要AI做一些前處理之後再做翻譯。如果AI處理錯了，翻譯就可能發生錯誤。再例如，在同聲傳譯的場景，通常是邊說邊翻，拿不到完整的上下文訊息。這在多模態翻譯中都是常見問題。

第三，最本質的問題在於，目前的機器翻譯還是基於數據驅動，並沒有在理解層面上做得更為深入。模型的學習依舊是依靠語言的貢獻，而非真正理解語意。這一點大大局限了機器翻譯的上限。

51CTO：火山翻譯作為一個位元組跳動旗下機器翻譯品牌，如何面對語料稀疏問題？

王明軒：有兩個比較直接的方法。

第一種是擴充語料，努力讓稀缺語料「不再稀缺」。這種想法是，透過一些模型，盡可能從網路上取得語料。例如冰島語，我們能收集大量冰島語的單語語料，在網路上就可以去收集與單語語料相近的英文文本，我們去找這種可能對齊的語料，形成雙語去對。當然我們有時也會用人工標註，但更多的是靠智慧的方法自行增加。

第二種是利用語言的共通性。大家生活在同一個星球，雖然使用的語言不同，但其實在描述同一個世界，因此語言在高層次上是有很多共通性的。我們會借助一些遷移學習或預先訓練的方法來解決這類問題，例如讓英語的模型去幫助法語的模型，或是讓德語的模型幫助法語的模型。主要就是這兩個思路。

51CTO：在多模態的機器翻譯中，要減少噪音幹擾的話，火山翻譯採取了哪些應對策略？

王明軒：應對噪音幹擾的話，首先，進行了多種模態的聯合建模。我們會拿語音訊號和文字訊號一起去做下游的任務，這樣一來，錯誤傳遞會減少很多。目前，建構多模態的統一語意在學術界也是非常火熱的話題，所以我們也會吸收其他領域的許多東西。

其次，我們在文本這塊也會做很多穩健性訓練，盡量讓模型在有錯誤輸入的情況下，還能保證正確的輸出，或者不擴大這種錯誤，相當於把自動糾錯和機器翻譯做到了一個模型裡面。因為人其實是有這種自動糾錯能力的，例如人工譯員在聽到錯誤的訊息時，會進行自動修正，所以我們在模型裡面也會考慮這些訊息。

51CTO：同聲傳譯對延時的要求很高。但是如果沒有結合上下文的語境或聽完完整的語意，準確率又很難保證。機器翻譯如何平衡這兩者之間的矛盾？

王明軒：這一點在工業界很有挑戰性，因為不僅關乎延時和準確率的trade off，實際上需要優化的地方更多。

例如在某些會議場景中，翻譯字幕需要展示在大螢幕上，觀眾接受字幕的速度也是關鍵問題之一，包括每次字幕展示的長度、字幕彈出的頻率，都關係到如何讀起來更舒服。其中有許多細節需要我們重複和產品經理溝通，深入用戶研究來看整體滿意度。因此，這不只是準確率的問題，要把使用者的實際使用體驗都當作要素考慮進去，再來調整模型。

此外，延遲可能是使用者滿意度的指標之一，但延遲也並非越短越好。 通常有個合適的gap反而比較好。因為縮時很短的話，字幕彈出的速度也會很快，使用者的接受效果反而不太好。在這方面，我們也會借鏡業界的許多成熟做法，例如動態控製字幕翻譯的間隔。整體而言，這是一個非常工程化、產品化的問題。

未來趨向

機器翻譯仍然不是完美的，但從業者正在努力讓其變得質量更高，可用性更強，適用性更廣。讓我們來觀察一下它的發展趨勢，尤其是當機器翻譯與專業譯員發生「碰撞」時，翻譯服務場景又會產生哪些化學反應。

51CTO：隨著科技的發展，機器翻譯是否會衍生出更多有趣的應用情境？

王明軒：之前我們推出的火山翻譯AR眼鏡就是類似的嘗試。今年GoogleI/O大會上壓軸發布的AR翻譯眼鏡也是很有意思的應用，使用者配戴後可以即時看到對話者的譯文，類比字幕效果。

這其實都反映出了一種比較樸素的理想：我們希望大家能活在一個溝通無障礙的世界。 例如：出國旅遊時，戴上眼鏡就可以理解任何語言的文字提示，你看到的路牌是德語的，而顯示在眼鏡上的是中文。日常溝通時，別人跟你說話，對話訊息自動變成你所理解的文字，顯示在眼鏡下方。這都是能更有效獲取資訊的場景。

51CTO：長遠來看，機器翻譯將如何發展？

王明軒：應用方面，我覺得機器翻譯可能會和多模態應用結合得更為緊密，例如視訊內容、音訊內容的翻譯需求會越來越多。另外，機器翻譯可能會更多地與業務出海、文化出海聯繫在一起。 因為國內很多公司都在積極地進行海外業務的擴張，我認為這個領域會對機器翻譯的發展起到很大幫助。

技術面，我能看到的已經在發生的趨勢是：一是大數據和大模型的訓練。從事這一領域的人越來越多，模型越來越大，資料量也越來越大，很多人認為這種變化有可能為機器翻譯的能力帶來質變。 二是翻譯和模態的結合。不只在翻譯方面，業界很多人都在試圖建構不同模態的統一語意表示，之前幾年，不同模態之間界線還比較分明，大家交流相對也少。如今，模型越來越一致。未來可能出現一個模型，既能做文字翻譯，也能做語音翻譯，甚至能做視訊翻譯。

51CTO：未來，機器翻譯是否有可能在特定場景中完全取代手動翻譯？

王明軒：依目前這種做法肯定是取代不了人工的。不過我覺得機器翻譯和手動翻譯可能不屬於一個賽道。

機器翻譯的特點，一是速度非常快，二是可以規模化，所以它適合處理的是海量且需要及時處理的資訊。舉個例子，如果現在有一千萬個影片要從英文翻譯成法語，那麼純靠人工是不太能做到的，但是機器可以做。這一點就可以讓機器在它的賽道裡發揮很重要的作用，長期看來是大有裨益的，因為它開闊了整個市場，讓跨語言的市場變得更大。

但是對於很精細的翻譯場景，機器翻譯可能就力有不抓。就像有人提到的，機器翻譯能翻得了《紅樓夢》嗎？我認為，這不屬於機器翻譯的任務範疇。小說或詩歌之類的翻譯，這類型的翻譯必須要依仗專家。還有規格很高的會議同傳，也肯定需要專業譯員擔任，而不可能是機器。但在一些重要性不是很高的會議上，機器翻譯的成本優勢就會展現出來。

機器翻譯跟專業譯員，兩者隸屬賽道不同，區分還是很鮮明的。不過某種程度上，兩者也存在著互幫互助的關係。 這體現在：一方面，機器翻譯所需的語料就是專業譯者所生產的。專業譯員在工作過程中不斷地生產大量的語料，這些語料能夠持續幫助機器翻譯去提升能力。另一方面，機器翻譯也可以幫人減輕負擔，處理要求沒有那麼高的任務。現在也有很多譯者在做譯後編輯，很多翻譯公司讓機器先做翻譯，譯員再做編輯，效率也能因此大幅提升。

來賓介紹

王明軒，位元組跳動AI-Lab機器翻譯團隊負責人，研究方向主要為機器翻譯和自然語言處理。在機器翻譯領域，發表包括 ACL、EMNLP 等頂尖會議論文超過40 篇，多次拿到 WMT等國際翻譯評測比賽第一。同時也擔任EMNLP2022贊助主席，和NeurIPS 2022、NLPCC 2022、AACL2022 等會議領域主席。

專欄介紹

「T前線」是51CTO內容中心專為技術人物開設的深度訪談專欄之一，透過邀請科技界內的業務負責人、資深架構師、資深技術專家等對當下的技術熱點、技術實踐和技術趨勢進行深度的解讀與洞察，推動前沿科技的傳播與發展。

以上是專訪位元組跳動王明軒：機器翻譯和人工翻譯實質是兩條賽道 | T前線的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機，要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點：68％的員工在工作量上掙扎，導致BUR

AI可以理解嗎？中國房間的論點說不，但是對嗎？Apr 24, 2025 am 11:18 AM

約翰·塞爾（John Searle）的中國房間論點：對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。想像一個人，對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比，中國的科技巨頭在AI開發方面的課程不同。他們不專注於技術基準和API集成，而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP：賦能AI系統訪問外部工具模型上下文協議（MCP）讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持，MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而，實施MCP服務器存在一些挑戰，包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者：Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc