把高階語言編寫的原始程式轉換為可執行程序，要經過什麼？-常見問題-PHP中文網

首頁

常見問題

把高階語言編寫的原始程式轉換為可執行程序，要經過什麼？

青灯夜游

Aug 31, 2020 pm 03:44 PM

可執行程式原始程式高階語言

把高階語言寫的原始程式轉換為可執行程序，要經過「編譯與連線」。用高階語言編寫的原始程式不能在機器上直接執行，必須經過編譯和連接。

把高階語言編寫的原始程式轉換為可執行程序，要經過什麼？

程式要執行起來，必須經過四個步驟：預處理、編譯、彙編和連結。接下來透過幾個簡單的例子來詳細解說這些過程。

對於上邊用到的幾個選項需要說明一下。

使用gcc 指令不跟任何的選項的話，會預設執行預處理、編譯、彙編、連結這整個過程，如果程式沒有錯，就會得到一個可執行文件，預設為a.out

-E選項：提示編譯器執行完預處理就停下來，後邊的編譯、組譯、連結就先不執行了。

-S選項：提示編譯器執行完編譯就停下來，不去執行組譯和連結了。

-c選項：提示編譯器執行完組譯就停下來。

所以，這三個選項相當於限定了編譯器執行操作的停止時間，而不是單獨的將某一步拎出來執行。

上述程式的執行過程大家應該都很熟悉了，就不浪費口舌了。

一、預處理：

使用-E選項，表示只進行預編譯，對應產生一個 .i 檔案。

預處理程序進行的操作：

將所有的「#define」刪除，並且展開所有的巨集定義
處理所有的條件編譯指令，例如「#if」、「#ifdef」、「#elif」、「#else」、「#endif」
處理「#include」預編譯指令，將被包含的頭檔插入到該編譯指令的位置。（這個過程是遞歸進行的，因為被包含的檔案可能也包含了其他檔案）
刪除所有的註解「//」和「/* */」。
新增行號和檔名標識，方便後邊編譯時編譯器產生偵錯用的行號心意以及編譯時產生編譯錯誤或警告時能夠顯示行號。
保留所有的#pragma編譯指令，因為編譯器需要使用它們。

使用一個簡單的程序來驗證一下事實是否如上述所說的一樣

編寫一個簡單的程序，然後使用-E選項執行預處理過程，打開生成的.i 檔案與原始檔案進行比對，結果一目了然

對於給程式碼加上行號這個就不在這裡示範了，我們在寫程式碼的時候是不會手動加上行號的，我們看到的行號都是自己使用的編輯工具自動加上的，而這些行號編譯系統是看不到的，但是呢，我們發現如果我們哪一行的程式碼出現了問題，編譯的時候就會給提示說哪行的程式碼有什麼問題，這就已經證明，編譯器是會自動加行號的。

二、編譯：

使用-S選項，表示編譯作業執行完就結束。對應產生一個 .s 檔。

編譯過程是整個程式建構的核心部分，編譯成功，會將原始碼由文字形式轉換成機器語言，編譯過程就是把預處理完的檔案進行一系列字法分析、文法分析、語意分析以及優化後產生相應的彙編程式碼檔案。

詞法分析：

詞法分析是使用一種稱為lex的程式實現詞法掃描，它會依照使用者先前描述好的詞法規則將輸入的字串分割成一個個記號。產生的記號一般分為：關鍵字、識別碼、字面量（包含數字、字串等）和特殊符號（運算子、等號等），然後他們放到對應的表中。

語法分析：語法分析器根據使用者給定的語法規則，將詞法分析產生的記號序列進行解析，然後將它們構成一棵語法樹。對於不同的語言，只是其語法規則不一樣。用於語法分析也有現成的工具，叫做：yacc。

語意分析：

語法分析完成了對表達式語法層面的分析，但它不了解這個語句是否真正有意義。有的語句在語法上是合法的，但是卻是沒有實際的意義，比如說兩個指標的做乘法運算，這個時候就需要進行語意分析，但是編譯器能分析的語意也只有靜態語意。

靜態語意：編譯期就可以確定的語意。通常包括聲明與類型的匹配、類型的轉換。例如當一個浮點型的表達式賦值給一個整數的表達式時，其中隱含一個從浮點型到整數的轉換，而語意分析就需要完成這個轉換，再比如，將一個浮點型的表達式賦值給一個指針，這肯定是不行的，語意分析的時候就會發現兩者型別不匹配，編譯器就會報錯。

動態語意：只有在運作期才能決定的語意。比如說兩個整數做除法，語法上沒問題，類型也匹配，聽著好像沒毛病，但是，如果除數是0的話，這就有問題了，而這個問題事先是不知道的，只有在運行的時候才能發現他是有問題的，這就是動態語意。

中間程式碼產生

我們的程式碼是可以進行最佳化的，對於一些在編譯期間就能確定的值，是會將它進行最佳化的，例如說上邊例子中的2 6，在編譯期間就可以確定他的值為8了，但是直接在語法上進行優化的話比較困難，這時優化器會先將語法樹轉成中間代碼。中間程式碼一般與目標機器和運作環境無關。（不包含資料的尺寸、變數位址和暫存器的名字等）。中間程式碼在不同的編譯器中有著不同的形式，比較常見的有三位址碼和P-程式碼。

中間程式碼讓編譯器可分割為前端與後端。編譯器前端負責產生於機器無關的中間程式碼，編譯器後端將中間程式碼換成機器碼。