技術的進步,往往意味著產業的演化發現了新的方向。翻譯業也不例外。隨著全球化進程不斷加快,人們在進行涉外活動時都離不開跨語言的交流。機器翻譯的出現大大擴充了翻譯的應用場景,固然它還遠遠稱不上完善,但卻在人類挑戰巴別塔的路上跨出了堅實的一步。 51CTO特邀位元組跳動AI Lab機器翻譯負責人王明軒,聊一聊機器翻譯發展的這些年、那些事。
機器翻譯的發展與電腦技術、資訊理論、語言學等學科的發展緊密相關。進入21世紀後,隨著硬體能力的提升和演算法的優化,機器翻譯技術迎來了空前的躍進,並成功邁出象牙塔,走上了普惠之路。
51CTO:縱觀歷史,機器翻譯經歷了哪些重要的發展節點?
王明軒:機器翻譯實質是一個非常古老的問題,機器翻譯的歷史可以追溯到17世紀笛卡爾、萊布尼茨等哲學家提出的「通用語言」。 1946年等電腦正式誕生後,人們期望電腦能將一種語言翻譯成另一種語言。美國科學家瓦倫·韋弗在《翻譯備忘錄》中正式定義了機器翻譯的概念和想法。這段時期,在冷戰背景下,美蘇兩國也基於蒐集資訊的需要,投入了大量資金用於機器翻譯相關研究。
一開始大家相對較樂觀,覺得這事很快就可以搞定了。第一版的翻譯系統非常簡單,主要是基於字典,例如把“太陽”翻譯為“sun”,但這種詞對詞的翻譯很快就遇到了瓶頸,因為一詞多義的現像比較多,例如“bank”,既可以是“銀行”,也可以是“河岸”,具體語境中會面臨許多選詞的困境。 結合語言學家所製定的語意規則可以解決一部分歧義,但發展到後期,規則越多,衝突的地方也會越多,系統會越來越複雜,依然無法解決問題。
1966年美國公佈了報告《語言與機器》,全面否定了機器翻譯的可行性,並建議停止對機器翻譯專案的資金支持。受此影響,機器翻譯陷入低潮期。
直到90年代,IBM提出基於字詞對齊的翻譯模型,標誌著現代統計機器翻譯方法的誕生。基於統計的機器翻譯原理很簡單,例如要在語境中判斷bank應該翻譯成“銀行”還是“河岸”,那就進行大量的相關語料統計,會發現上下文裡有“錢”相關的,那就更有可能翻譯成“銀行”,上下文中提到“河流”,那更可能對應的是“河岸”。如此一來,不用字典與文法規則,而是依照機率來判斷具體場景下的語意。這是劃時代的變化,機器翻譯的品質得到了巨大的提升。 很快,機器翻譯開始在許多實用場景落地。
從1993到2014年基本上都屬於統計的時代,但雖說是基於統計,還是需要人工去定義很多特徵、模板,再進一步設計細節,因而也不是非常靈活,模型的能量也不是很強大。
而後到了神經網路時代,神經網路翻譯從模型上說主要包含編碼器和解碼器。編碼器把源語言經過一系列神經網路變換後表示成一個高維度向量,解碼器負責把這個高維度向量重新解碼成目標語言。 2014年Seq2Seq的提出,讓神經網路翻譯慢慢開始比統計機器翻譯做得更好。
到2017年時,Google提出Transformer,模型更大、結構更靈活、並行化程度更高,這進一步提升了翻譯品質。同年,AlphaGo的勝利也讓大家對人工智慧的信心更充分。 也正是在2017年後,機器翻譯的產業化迎來了爆發期,直到現在,整體大框架沒有太大變化,但小細節上出現了許多創新。
從字典匹配,到結合語言學專家知識的規則翻譯,再到基於語料庫的統計機器翻譯,以及目前主流的神經網路機器翻譯,相較於之前,機器翻譯的品質有了飛躍式的提升,但仍面臨重重挑戰。
51CTO:目前機器翻譯面臨的主要挑戰在哪裡?
王明軒:挑戰其實還比較多。
第一,如何做稀缺語種的機器翻譯。這是機器翻譯從誕生以來就面臨的問題。語種越小,數據量越少,語料的稀缺會是長期的挑戰。
第二,如何做多模態的機器翻譯。近年來,我們經常需要做語音翻譯、視訊翻譯,事實上這類翻譯需要AI做一些前處理之後再做翻譯。如果AI處理錯了,翻譯就可能發生錯誤。再例如,在同聲傳譯的場景,通常是邊說邊翻,拿不到完整的上下文訊息。這在多模態翻譯中都是常見問題。
第三,最本質的問題在於,目前的機器翻譯還是基於數據驅動,並沒有在理解層面上做得更為深入。模型的學習依舊是依靠語言的貢獻,而非真正理解語意。這一點大大局限了機器翻譯的上限。
51CTO:火山翻譯作為一個位元組跳動旗下機器翻譯品牌,如何面對語料稀疏問題?
王明軒:有兩個比較直接的方法。
第一種是擴充語料,努力讓稀缺語料「不再稀缺」。這種想法是,透過一些模型,盡可能從網路上取得語料。例如冰島語,我們能收集大量冰島語的單語語料,在網路上就可以去收集與單語語料相近的英文文本,我們去找這種可能對齊的語料,形成雙語去對。當然我們有時也會用人工標註,但更多的是靠智慧的方法自行增加。
第二種是利用語言的共通性。大家生活在同一個星球,雖然使用的語言不同,但其實在描述同一個世界,因此語言在高層次上是有很多共通性的。我們會借助一些遷移學習或預先訓練的方法來解決這類問題,例如讓英語的模型去幫助法語的模型,或是讓德語的模型幫助法語的模型。主要就是這兩個思路。
51CTO:在多模態的機器翻譯中,要減少噪音幹擾的話,火山翻譯採取了哪些應對策略?
王明軒:應對噪音幹擾的話,首先,進行了多種模態的聯合建模。我們會拿語音訊號和文字訊號一起去做下游的任務,這樣一來,錯誤傳遞會減少很多。目前,建構多模態的統一語意在學術界也是非常火熱的話題,所以我們也會吸收其他領域的許多東西。
其次,我們在文本這塊也會做很多穩健性訓練,盡量讓模型在有錯誤輸入的情況下,還能保證正確的輸出,或者不擴大這種錯誤,相當於把自動糾錯和機器翻譯做到了一個模型裡面。因為人其實是有這種自動糾錯能力的,例如人工譯員在聽到錯誤的訊息時,會進行自動修正,所以我們在模型裡面也會考慮這些訊息。
51CTO:同聲傳譯對延時的要求很高。但是如果沒有結合上下文的語境或聽完完整的語意,準確率又很難保證。機器翻譯如何平衡這兩者之間的矛盾?
王明軒:這一點在工業界很有挑戰性,因為不僅關乎延時和準確率的trade off,實際上需要優化的地方更多。
例如在某些會議場景中,翻譯字幕需要展示在大螢幕上,觀眾接受字幕的速度也是關鍵問題之一,包括每次字幕展示的長度、字幕彈出的頻率,都關係到如何讀起來更舒服。其中有許多細節需要我們重複和產品經理溝通,深入用戶研究來看整體滿意度。因此,這不只是準確率的問題,要把使用者的實際使用體驗都當作要素考慮進去,再來調整模型。
此外,延遲可能是使用者滿意度的指標之一,但延遲也並非越短越好。 通常有個合適的gap反而比較好。因為縮時很短的話,字幕彈出的速度也會很快,使用者的接受效果反而不太好。在這方面,我們也會借鏡業界的許多成熟做法,例如動態控製字幕翻譯的間隔。整體而言,這是一個非常工程化、產品化的問題。
機器翻譯仍然不是完美的,但從業者正在努力讓其變得質量更高,可用性更強,適用性更廣。讓我們來觀察一下它的發展趨勢,尤其是當機器翻譯與專業譯員發生「碰撞」時,翻譯服務場景又會產生哪些化學反應。
51CTO:隨著科技的發展,機器翻譯是否會衍生出更多有趣的應用情境?
王明軒:之前我們推出的火山翻譯AR眼鏡就是類似的嘗試。今年GoogleI/O大會上壓軸發布的AR翻譯眼鏡也是很有意思的應用,使用者配戴後可以即時看到對話者的譯文,類比字幕效果。
這其實都反映出了一種比較樸素的理想:我們希望大家能活在一個溝通無障礙的世界。 例如:出國旅遊時,戴上眼鏡就可以理解任何語言的文字提示,你看到的路牌是德語的,而顯示在眼鏡上的是中文。日常溝通時,別人跟你說話,對話訊息自動變成你所理解的文字,顯示在眼鏡下方。這都是能更有效獲取資訊的場景。
51CTO:長遠來看,機器翻譯將如何發展?
王明軒:應用方面,我覺得機器翻譯可能會和多模態應用結合得更為緊密,例如視訊內容、音訊內容的翻譯需求會越來越多。另外,機器翻譯可能會更多地與業務出海、文化出海聯繫在一起。 因為國內很多公司都在積極地進行海外業務的擴張,我認為這個領域會對機器翻譯的發展起到很大幫助。
技術面,我能看到的已經在發生的趨勢是:一是大數據和大模型的訓練。從事這一領域的人越來越多,模型越來越大,資料量也越來越大,很多人認為這種變化有可能為機器翻譯的能力帶來質變。 二是翻譯和模態的結合。不只在翻譯方面,業界很多人都在試圖建構不同模態的統一語意表示,之前幾年,不同模態之間界線還比較分明,大家交流相對也少。如今,模型越來越一致。未來可能出現一個模型,既能做文字翻譯,也能做語音翻譯,甚至能做視訊翻譯。
51CTO:未來,機器翻譯是否有可能在特定場景中完全取代手動翻譯?
王明軒:依目前這種做法肯定是取代不了人工的。不過我覺得機器翻譯和手動翻譯可能不屬於一個賽道。
機器翻譯的特點,一是速度非常快,二是可以規模化,所以它適合處理的是海量且需要及時處理的資訊。舉個例子,如果現在有一千萬個影片要從英文翻譯成法語,那麼純靠人工是不太能做到的,但是機器可以做。這一點就可以讓機器在它的賽道裡發揮很重要的作用,長期看來是大有裨益的,因為它開闊了整個市場,讓跨語言的市場變得更大。
但是對於很精細的翻譯場景,機器翻譯可能就力有不抓。就像有人提到的,機器翻譯能翻得了《紅樓夢》嗎?我認為,這不屬於機器翻譯的任務範疇。小說或詩歌之類的翻譯,這類型的翻譯必須要依仗專家。還有規格很高的會議同傳,也肯定需要專業譯員擔任,而不可能是機器。但在一些重要性不是很高的會議上,機器翻譯的成本優勢就會展現出來。
機器翻譯跟專業譯員,兩者隸屬賽道不同,區分還是很鮮明的。不過某種程度上,兩者也存在著互幫互助的關係。 這體現在:一方面,機器翻譯所需的語料就是專業譯者所生產的。專業譯員在工作過程中不斷地生產大量的語料,這些語料能夠持續幫助機器翻譯去提升能力。另一方面,機器翻譯也可以幫人減輕負擔,處理要求沒有那麼高的任務。現在也有很多譯者在做譯後編輯,很多翻譯公司讓機器先做翻譯,譯員再做編輯,效率也能因此大幅提升。
王明軒,位元組跳動AI-Lab機器翻譯團隊負責人,研究方向主要為機器翻譯和自然語言處理。在機器翻譯領域,發表包括 ACL、EMNLP 等頂尖會議論文超過40 篇,多次拿到 WMT等國際翻譯評測比賽第一。同時也擔任EMNLP2022贊助主席,和NeurIPS 2022、NLPCC 2022、AACL2022 等會議領域主席。
「T前線」是51CTO內容中心專為技術人物開設的深度訪談專欄之一,透過邀請科技界內的業務負責人、資深架構師、資深技術專家等對當下的技術熱點、技術實踐和技術趨勢進行深度的解讀與洞察,推動前沿科技的傳播與發展。
以上是專訪位元組跳動王明軒:機器翻譯和人工翻譯實質是兩條賽道 | T前線的詳細內容。更多資訊請關注PHP中文網其他相關文章!