什么是逆向工程
先給大家出一道思考題
用C語言設(shè)計一個程序,驗證輸入的密碼是否是“12345678”,如果驗證成功,就輸出“success”,如果驗證失敗,則輸出“failed”。
我想,大部分新手小白估計會這么寫:
#include <stdio.h>
#include <string.h>
int main() {
char buf[10] = {0};
scanf("%s", buf);
if (strcmp(buf, "12345678") == 0) {
printf("success");
} else {
printf("failed");
}
return 0;
}
上面的代碼編譯后,會生成一個可執(zhí)行程序,咱們來對這個可執(zhí)行文件進行一下反編譯,看看能看到什么?
下圖是在反編譯神器IDA中,可執(zhí)行文件反編譯出來的匯編指令圖:
可以非常清晰的看到一些字符串的信息:"success"、"failed"、"1234567。
再認(rèn)真一看,main函數(shù)中有一個分支判斷,根據(jù)判斷的結(jié)果,走入左右兩個分支,分別輸出"success"和"failed"。
如果新手看不懂上面的反匯編圖,那可以再使用IDA的神級功能:F5反編譯高級語言功能,直接將上面的匯編程序再進一步還原成C語言。
可以對照一下上圖中的C函數(shù)代碼和原來我們的源代碼,還原度非常的高了,字符串比較的功能邏輯暴露無遺
可以看到,通過這種方式進行密碼匹配,非常不安全,對方拿到你的程序一反編譯,就能看到密碼是什么了。
不過咱們今天的文章主題不是探討如何進行安全地進行密碼比較,而是另一個主題:逆向工程。
什么是逆向工程,維基百科中的解釋如下:
逆向工程(Reverse Engineering),又稱反向工程,是一種技術(shù)過程,即對一項目標(biāo)產(chǎn)品進行逆向分析及研究,從而演繹并得出該產(chǎn)品的處理流程、組織結(jié)構(gòu)、功能性能規(guī)格等設(shè)計要素,以制作出功能相近,但又不完全一樣的產(chǎn)品。
逆向工程的概念起源于商業(yè)和軍事領(lǐng)域,后延伸到軟件領(lǐng)域。
在軟件領(lǐng)域,通過對程序文件進行逆向分析,推導(dǎo)出程序?qū)υ创a設(shè)計的過程,稱為軟件逆向工程。比如上面通過分析可執(zhí)行文件還原出C代碼,分析jar包/class文件還原出JAVA源碼,這都屬于軟件逆向工程。
軟件逆向工程是網(wǎng)絡(luò)安全領(lǐng)域中的一個重要分支,網(wǎng)絡(luò)黑客通過逆向工程可以獲得目標(biāo)的程序原理,破解軟件的權(quán)限,這一般發(fā)生在商業(yè)軟件領(lǐng)域。另外一方面,黑客通過逆向分析也常用來發(fā)現(xiàn)軟件漏洞,用來對其發(fā)起攻擊,windows作為一個不開源的操作系統(tǒng),就經(jīng)常遭遇這樣的事情。
本文就來探討一下,逆向工程一般是怎么進行的,需要學(xué)習(xí)哪些東西?
程序反編譯
逆向的一開始,通過會對目標(biāo)進行反編譯。
作為軟件開發(fā)者,對編譯這個詞應(yīng)該不會陌生,我們寫好了程序代碼,然后使用編譯器將其轉(zhuǎn)換成可執(zhí)行的程序,這個過程叫做編譯。
反編譯,自然就是這個過程的逆過程,那該選擇什么樣的程序進行反編譯呢?
對于C、C++、Golang等類型語言編寫的程序,我們一般使用IDA進行反匯編。
對于Java語言編寫的class文件和jar文件,我們一般使用jd-gui進行反編譯。
對于C#語言編寫的可執(zhí)行程序,我們一般使用reflector進行反編譯。
所以學(xué)習(xí)上面三款反編譯工具的使用對學(xué)習(xí)逆向工程非常重要
可執(zhí)行文件格式
不同的操作系統(tǒng)平臺具有不同的可執(zhí)行文件格式,如Windows上的PE文件、linux平臺的ELF文件、macOS上的Mach-O文件
一個可執(zhí)行文件中除了源代碼生成的匯編指令,還有靜態(tài)數(shù)據(jù)(如代碼中引用到的字符串),導(dǎo)入導(dǎo)出信息,文件屬性信息等等,掌握提取這些信息,會對咱們了解目標(biāo)程序非常有幫助。
這就需要學(xué)習(xí)不同平臺上可執(zhí)行文件的格式,尤其是PE文件和ELF文件,是逆向工程中最常打交道的文件格式。
CPU指令集
在逆向分析程序時,最主要的精力和時間就是在閱讀和分析反編譯出來的匯編指令。
所以CPU的指令集和匯編語言是搞逆向的同學(xué)必學(xué)的一門課。
常見的PC端CPU就是Intel的x86、x64和AMD64,移動端的就是ARM架構(gòu)。建議先從最基本的x86開始學(xué)習(xí),尤其要注意網(wǎng)絡(luò)上很多教程講的還是16位實模式下的匯編語言,非常容易誤導(dǎo)人。實模式當(dāng)然要了解,但要把精力放在保護模式下32位匯編語言。
等x86入了門,可以擴展學(xué)習(xí)x64,到后期再擴展學(xué)習(xí)ARM。
學(xué)習(xí)匯編語言,不僅僅是學(xué)習(xí)匯編指令,更是在學(xué)習(xí)了解CPU,CPU有哪些寄存器,分別有什么用,它是如何訪問內(nèi)存,如何進行尋址,如何進行運算等等。
高級語言特性
咱們逆向工程的目標(biāo)大都是用C/C++/Java/C#這樣的高級語言編寫出來的程序,要想還原出程序的代碼邏輯,如果不懂高級語言本身那肯定是不行的。
當(dāng)然,做逆向的同學(xué),不必要像專業(yè)的開發(fā)同學(xué)那樣對這些語言的特性爛熟于心,掌握很多編程技能,這倒不用。
但掌握這些語言的基本編程技能還是有必要。拿C語言來說,C語言中函數(shù)調(diào)用原理,參數(shù)如何傳遞,函數(shù)中的局部變量如何分布,數(shù)組如何存儲,結(jié)構(gòu)體成員如何內(nèi)存布局,指針又是如何實現(xiàn)的等等,這些基礎(chǔ)概念咱們得知道,不然拿到反匯編代碼,也不知道如何與高級語言進行轉(zhuǎn)換。
像上面說到的這些C語言知識,學(xué)習(xí)的時候要自己對比源碼和編譯后的匯編指令長什么樣,反復(fù)對比學(xué)習(xí),產(chǎn)生條件反射。除了這些,還要關(guān)注C++中面向?qū)ο髮崿F(xiàn)原理,虛函數(shù)機制,this指針如何傳參,new和delete/delete []等等在匯編指令層如何實現(xiàn)。
有些人說,咱不是有F5大法嗎,直接一鍵搞定?當(dāng)然F5功能非常強大,我也不反對使用工具,但我們不能過分依賴于工具,不然就變成一個徹底的工具人,尤其是對于初學(xué)者,自己嘗試從匯編指令轉(zhuǎn)換成高級語言,會讓自己對技術(shù)底層原理理解的更加透徹。而且,有很多時候F5功能用不了,那個時候還得靠自己的知識上!
軟件調(diào)試
很多時候,光靠靜態(tài)分析無法實現(xiàn)目標(biāo),比如程序進行了加殼等技術(shù),在靜態(tài)分析下看到的全是錯誤的指令代碼,甚至讓反編譯工具無法分析。
這個時候,就需要結(jié)合動態(tài)分析技術(shù)一塊兒上,讓程序?qū)嶋H運行起來,再來對其進行分析,所以,掌握軟件調(diào)試技術(shù),也是逆向工程中不可缺失的一環(huán)






