首頁  >  文章  >  後端開發  >  用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

Python当打之年
Python当打之年轉載
2023-08-09 17:37:521423瀏覽


#本文將分享一個實用的Python辦公室自動化腳本「利用Python批量翻譯英文Word文件並保留格式」,最終效果甚至比部分收費的軟體還要好!先來看看具體的工作內容。

一、需求描述

手上有大量外文文件(本案例以5份為例,分別命名為test1 .docx test2.docx 以此類推),其中一份如下:用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

基本需求「批次將這些文檔的內容全部翻譯成中文,並轉存到新的文件中”,效果如下:用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

#高級需求:基本需求滿足的同時,要求「保留原始文檔的格式」,效果如下:用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

二、邏輯梳理

1 . 翻譯API

本需求的核心是翻譯,策略是利用網路的翻譯API,這裡推薦百度翻譯開放平台,不考慮並發數的話可以用標準版,免費使用不限字元量

百度翻譯開放平台:http://api.fanyi.baidu.com/api/trans/product/index

在使用百度的通用翻譯API 之前需要完成以下工作:

  1. 使用百度帳號登入百度翻譯開放平台(http://api.fanyi.baidu.com);
  2. #註冊成為開發者,取得APPID;
  3. #進行開發者認證(如僅需標準版可跳過);
開通通用翻譯API服務:開通連結
用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

參考技術文檔和Demo編寫程式碼用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

完成後在個人頁面在可以看到ID 和金鑰,這很重要! 下面給出整理好的通用翻譯 API 的 demo,已經對輸出做簡單修改,程式碼拿走就能用!

可以看到,測試內容準確的被翻譯出來,注意如果需要多次存取API,免費版有並發數和時間限制,可以用time

模組睡眠一秒鐘

2. 格式修改

######進階需求的困難就是保留格式,簡單來說###原文件的頁面格式和段落格式是什麼,翻譯後對應的部分是什麼。 #########基於上述的邏輯關係,只需要取得原始文檔的對應內容再賦值給新翻譯的文檔即可。 (暫時只能滿足頁面設定和段落設定的統一,針對一段特定字詞的格式修改,確保精確性需要基於自然語言處理NLP,本文暫不涉及)###

2.1 頁面樣式

頁面樣式只要包含邊距、方向、高度、寬度等等,從原始文件可以看到,採取的是窄邊距。但我們無需知道窄邊距四個方向應該如何設置,只需要在程式碼中呈現新舊文檔的變數傳遞即可,具體如下用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

2.2 段落樣式

段落樣式包含對齊、縮排、間距等等,原始文件中採取了段後縮進,標題是居中對齊。這些設定在變數傳遞中能夠很好完成。如果原文檔中沒有設定的變數值為None用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

#2.3 文字區塊樣式修改

對於字號、加粗、斜體、顏色等樣式調整,採取的策略是建立空列表,遍歷原文檔每一段每一個文字塊,獲取相應屬性並放到各自的列表中,對同一段而言,其包含的文字區塊屬性最多的選項賦值給翻譯後文件的對應段落(如同一段全部或大部分的文字是加粗,則翻譯後對應段落所有文字區塊均設定為加粗) 對NLP有興趣的讀者可自行嘗試如何高度還原英文文檔中某些特定詞語的樣式修改,並在翻譯後的文檔中體現出來用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

上面的程式碼不包含對字體的設置,因為沒必要把英文的字體傳遞給中文文檔。對中文字體的設定之前的文章有提到過,比較複雜,直接見程式碼:

from docx.oxml.ns import qn

run.font.name = '微软雅黑'
r = run._element.rPr.rFonts
r.set(qn('w:eastAsia'), '微软雅黑')

#3. 整體實作步驟

現在每個部分操作均以完成,考慮到本例中有多個文件均需要翻譯,故全部邏輯如下:

  1. 利用 glob 模块批处理框架可获取某个文件的绝对路径
  2. python-docx 完成 Word 文件实例化后对段落进行解析
  3. 解析出的段落文本交给百度通用翻译 API,解析返回的 Json 格式结果(上面的修改 demo 中已经完成了这一步)并重新写入新的文件
  4. 同个文件全部解析、翻译并写入新文件后保存文件

三、代码实现

导入需要的模块,除翻译 demo 中需要的库外还需要 glob 库批量获取文件、python-docx 读取文件、time 模块控制访问并发。为什么要 os 模块见下文:

import requests
import random
import json
from hashlib import md5
import time
from docx import Document
import glob
import os

对原 demo 的部分内容进行保留,涉及到 query 参数的代码需要移动到后面的循环中。保留的部分:用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

效果如下用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

获取到段落文本后,可以将段落文本赋值给 query 参数,调用 API demo 的后续代码。输出结果的同时用 add_paragraph 将结果写入新文档:用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

最后保存成新文件,期望命名为 原文件名_translated 的形式,可用 os.path.basename 方法获取并经字符串拼接达到目的:

wordfile_new.save(path + r'\\' + os.path.basename(file)[:-5] + '_translated.docx')
用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

单个文件操作完成后将读取和创建文件的代码块放到批处理框架内:用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

完成了上面的内容后,基本需求就完成了。根据我们梳理的对样式的修改知识,再把样式调整的代码加进来就行了,最终完整代码如下:用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

代码运行完毕后得到五个新的翻译后文件用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

翻译效果如下,可以看到英文被翻译成中文,并且样式大部分保留!用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?

至此,所有文档都被成功翻译,当然这是机器翻译的,具体应用时还需要对关键部分进一步人工调整,不过整体来说还是一次成功的Python办公自动化尝试!

以上是用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:Python当打之年。如有侵權,請聯絡admin@php.cn刪除