首頁  >  文章  >  後端開發  >  Python 開發者在遷移到 Go 前需要知道的事情

Python 開發者在遷移到 Go 前需要知道的事情

高洛峰
高洛峰原創
2016-10-20 09:33:081015瀏覽

這是一篇記錄了我們把一大段 Python/Cython 程式碼移轉到 Go語言經驗的(長)部落格。如果你希望了解整個故事、背景等所有的內容,請接著閱讀。如果只對Python 開發者進入之前需要知道的東西感興趣,點擊下面的連結:

從Python 遷移到Go 的提示與技巧

背景


我們在Repustate 技術上最大的成果就是實現了最大的成果就是實現了阿拉伯語情感分析。阿拉伯語真是個難啃的骨頭,它的字文法形態太複雜了。阿拉伯語的分詞(tokenization,把一個句子分成獨立的詞語)相比諸如英語更難,因為阿拉伯語單字內部可能包含空格(例如,aleph內的位置)。這不需要保密,那就是 Repustate 使用了支援向量機(SVM)來得到句子最可能的意思,然後在此基礎上分析情緒。我們總共用了 22 個模型(22 個支援向量機),文件中的每個單字都會被分析。也就是說,如果一篇文件包含 500 字的話,將會有一萬次以上的支援向量機的比較運算。

Python


Repustate幾乎是徹底用 Python 實現的,因為我們使用了 Django 作為應用程式介面和網站架構。所以只能保持程式碼的統一,同時用 Python 實現整個阿拉伯語情感引擎。原型與實現的過程中,Python 還是很不錯的。非常強的表達能力,強大的第三方庫資源。如果你只是服務網頁的話,還是很完美的。但是,當你需要進行底層計算,需要在散列表(Python 中的字典)上進行大量的比較運算的時候,速度就慢下來了。我們每秒鐘只能處理2到3篇阿拉伯語文檔,這太慢了。比較我們的英文情緒引擎,每秒鐘能處理 500 篇文件。

瓶頸


於是,我們啟動了 Python 分析器,研究哪部分執行得慢。還記得我說過我們會用 22 個支援向量機處理每一個單字嗎?這些處理都是串列的,沒有並行操作。好,我們第一個想法就是把這個改成類似 map/reduce 的操作。長話短說:Python 中不適合使用 map/reduce。當你需要並發性的時候,Python 一點都不好用。 2013 年的 PyCon 大會上,Guido 提到了 Tulip,他試圖解決這個問題的新項目,但還需要一段時間才能推出。如果已經有更好的選擇,我們為什麼還要等它。

換 Go 語言還是回家種田


我在 Mozilla 的朋友告訴我,Mazilla 服務中日誌架構的大部分程式碼已經切換成 Go 了,部分原因是 goroutine(Go 執行緒)的強大。 Go 是 Google 的一群人設計的,它把並行性當作一級概念,而不是像 Python 的不同解決方案做的事後補充。於是,我們開始著手把 Python 換成 Go。

儘管 Go 程式碼還沒達到產品級別,但結果已經非常令人鼓舞了。我們達到了每秒 1000 文檔的速度,使用了更少的內存,還不用去處理用 Python 時碰到的多進程/gevent/“為什麼 Ctrl+C 殺掉了我的進程”代碼等討厭的問題。

我們為什麼愛上了Go


只要知道一點兒程式語言工作原理的人,(明白解釋和編譯以及動態與靜態的區別),就會說:“老兄,Go 顯然會更快” 。沒錯,我們也可以把整個東西用 Java 來重寫,並且得到類似的效能,但這不是 Go 勝出的原因。你用 Go 寫出程式碼來就很容易是正確的。我也說不清楚怎麼回事,但是一旦程式碼編譯通過(編譯速度還很快),你就感覺到它可以工作了(不只是運行不提示錯誤,而是邏輯上就是對的)。我知道這聽起來很玄乎,但確實是事實。這就像 Python 解決冗餘問題(或無冗餘),它把函數當作一級對象,從而函數程式設計可以輕鬆的進行。 go線程和通道(channel)讓你的生活如此輕鬆。你也可以得到靜態型別帶來的效能提升,更精確的控制記憶體分配,卻不會因此損失表達性。

我們早該知道的事情


除去那些讚美之詞,用 Go 的時候需要一種不同於用 Python 時的心態。以下是一些遷移時候的筆記,把Python 轉成Go 時隨機躍入我腦子的東西:

沒有內建的集合類型(需要使用map 然後檢查存在性)

由於沒有集合類型,需要自己實現交集、並集等方法

沒有元組(tuple),需要設計自己的結構(struct)或使用slice(類似數組)

沒有類似__getattr_() 的方法,需要你檢查存在性而不能設定缺省值,例如Python 中,你可以這麼寫:value = dict.get("a_key", "default_value")

需要檢查錯誤(或至少明確的忽略它們)

不能夠有未使用的變數和套件,需要時不時的註解掉一些程式碼

在 []byte 和 string 之間切換,正規處理(regexp)使用 []byte(可改寫的)。這是對的,但轉換來轉換去還是很麻煩

Python 語法比較寬鬆。你可以用超出範圍的索引取字串的片段而不出錯,也可以使用負數來取片段。 Go 就不行。

無法使用混合型別的資料結構。這可能不一定合適,但是 Python 中有時候我會有一個取值可以是字串和列表混合的字典。 Go 裡不行,你必須清理裡的資料結構或自訂結構*

沒辦法把元組或列表分配成分開的變數(例如,x, y, x = [1, 2, 3])

駝峰式大小寫習慣(首字母不大寫的函數/結構不會暴露給其他包)。我比較喜歡 Python 的小寫加上底線的習慣。

必須明確的檢查錯誤是否為空,不像Python 中很多類型都可以像布爾類型一樣的用(0,空串,None都可以作為布爾“假”)

一些模組(如crypo/md5 )的文檔不足,但是IRC 上的go-nutes 很厲害,有強大的支援

數字轉字串(int64->string)與[]byte 轉字串(只要string([]byte))不同,需要呼叫strconv

讀Go 的程式碼絕對像是程式語言,而Python 可以寫成像是偽代碼一樣。 Go 使用更多的非英文數字字符,使用 || 和 && 而不是 or 和 and。

寫檔案會有 File.Write([]byte) 和 File.WriteString(string),與 Python 開發者的一種辦法解決問題的信條不一致。

字串插入不好用,必須經常使用fmt.Sprintf

沒有構造函數,通常的習慣是寫一個NewType() 函數返回你要的結構

Else(或else if)得正確的格式化, else 得和與if 配對的大括號在一行。奇怪。

函數內外使用不同的賦值操作符,= 和:= (譯者註:此為作者的誤解,= 和:= 的區別是明確定義類型還是自動類型推導,而函數外的變數只能用=)

如果我只想要鍵值(dict.keys())或取值(dict.values())的列表,或元組的列表(dict.items()),Go 中沒有對應的函數,只能自行迭代


陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn