Python由于其簡單,快速,庫豐富的特點(diǎn)在國內(nèi)使用的越來越廣泛,但是一些不好的用法卻帶來了嚴(yán)重的安全問題,本文從Python源碼入手,分析其語法樹,跟蹤數(shù)據(jù)流來判斷是否存在注入點(diǎn)。
Python注入問題是說用戶可以控制輸入,導(dǎo)致系統(tǒng)執(zhí)行一些危險(xiǎn)的操作。它是Python中比較常見的安全問題,特別是把python作為web應(yīng)用層的時(shí)候這個(gè)問題就更加突出,它包括代碼注入,OS命令注入,sql注入,任意文件下載等。
注入的場景
主要是在web應(yīng)用場景中,用戶可直接控制輸入?yún)?shù),并且程序未做任何參數(shù)判斷或者處理,直接就進(jìn)入了危險(xiǎn)函數(shù)中,導(dǎo)致執(zhí)行一些危險(xiǎn)的操作。主要的注入類型有:
(一)OS命令注入
主要是程序中通過Python的OS接口執(zhí)行系統(tǒng)命令,常見的危險(xiǎn)函數(shù)有
os.system,os.popen,commands.getoutput,commands.getstatusoutput,subprocess
等一些接口。例如:def myserve(request,fullname):os.system(‘sudo rm -f %s’%fullname),fullname是用戶可控的,惡意用戶只需利用shell的拼接符;就可以完成一次很好的攻擊。
(二)代碼注入
是說在注入點(diǎn)可以執(zhí)行一段代碼,這個(gè)一般是由python的序列話函數(shù)eval導(dǎo)致的,例如:def eval_test(request,login):login = eval(login),如果惡意用戶從外界傳入import(‘os’).system(‘rm /tmp -fr’)就可以清空tmp目錄。
(三)Sql注入
在一般的Python web框架中都對(duì)sql注入做了防護(hù),但是千萬別認(rèn)為就沒有注入風(fēng)險(xiǎn),使用不當(dāng)也會(huì)導(dǎo)致sql注入。例如:
def getUsers(user_id):
sql = ‘select * from auth_user where id =%s’%user_id
res = cur.execute(sql)
(四)任意文件下載
程序員編寫了一個(gè)下載報(bào)表或者任務(wù)的功能,如果沒有控制好參數(shù)就會(huì)導(dǎo)致任意文件下載,例如:def export_task(request,filename):return HttpResponse(fullname)
判斷原理
從以上四種情況來看,都有一個(gè)共同點(diǎn),那就是危險(xiǎn)函數(shù)中使用了可控參數(shù),如system函數(shù)中使用到的(‘sudo rm -f %s’%fullname),如eval中使用到的login參數(shù),如execute函數(shù)中使用到的user_id參數(shù),如HttpResponse中 使用到的fullname參數(shù),這些參數(shù)直接從函數(shù)中傳進(jìn)來,或者經(jīng)過簡單的編碼,截?cái)嗟忍幚碇苯舆M(jìn)入危險(xiǎn)函數(shù),導(dǎo)致了以上危險(xiǎn)行為。如果在執(zhí)行危險(xiǎn)函數(shù) 前對(duì)這些可控參數(shù)進(jìn)行一定判斷,如必須是數(shù)字,路徑必須存在,去掉某些特殊符號(hào)等則避免了注入問題。 有了這個(gè)基礎(chǔ)理論,這個(gè)參數(shù)數(shù)據(jù)在傳遞的過程中到底有沒有改變?怎么順利的跟蹤可控參數(shù)呢?接下來分析Python的語法樹。
Python語法樹
很顯然,在參數(shù)不停傳遞過程中,普通的正則表達(dá)式已經(jīng)無能為力了。這個(gè)時(shí)候就可以體現(xiàn)Python庫豐富的特點(diǎn)。Python官方庫中就提供了強(qiáng)大 的Python語法分析模塊ast。我們可以利用根據(jù)ast優(yōu)化后的PySonar模塊,PySonar相對(duì)于ast模塊而言有性能上的提升,另外是以 Python的dict來表示的。
(一)語法樹的表示-文件
一個(gè)文件中可以有函數(shù),類,它是模塊的組成單位。大體結(jié)構(gòu)如下:{“body”:[{},{}],”filename”:”test.py”,”type”:”module”},這是文件test.py得到的語法樹結(jié)構(gòu),body里面包含兩個(gè)dict,實(shí)際里面會(huì)存放函數(shù),類,全局變量或者導(dǎo)入等,它是遞歸嵌套的,type字段表明類型,在這里是模塊,filename則是它的文件名。
(二)語法樹的表示-函數(shù)
函數(shù)的作用就不用多說了,django的view層基本都是以函數(shù)為單位的。下面來看一個(gè)函數(shù)的語法樹,如圖1
我們簡單分析一下這個(gè)結(jié)構(gòu),首先是type,這里是FunctionDef,說明這個(gè)結(jié)構(gòu)體是一個(gè)函數(shù),_fields中的name,args,body,decorator_list等是函數(shù)的基本組成單位。name是函數(shù)名稱,上述函數(shù)名為is_this_subdomain;args是函數(shù)的參數(shù),它包含普通參數(shù)args,默認(rèn)參數(shù)kwarg;lineno是標(biāo)明該語句所在的文件的行數(shù);decorator_list則是函數(shù)的修飾器,上述為空。
(三)語法樹的表示-類
在類的語法樹中,包含body,decorator_list,lineno,name,base等字段type是ClassDef,表明該結(jié)構(gòu)為class,body中則包含著函數(shù)的結(jié)構(gòu)體,base則是繼承的父類。
(四)語法樹的表示-示例
接下來我們將以一個(gè)if結(jié)構(gòu)片段代碼作為示例,來解釋Python源碼到其語法樹的對(duì)應(yīng)關(guān)系。片段代碼:if type not in [“RSAS”, “BVS”]:return HttpResponse(“2″),得到的語法樹如圖2:
在這個(gè)語法樹結(jié)構(gòu)中,body里包含著if結(jié)構(gòu)中的語句return HttpResponse(“2″),type為Compare表示該結(jié)構(gòu)體為判斷語句,left表示左值即源碼中的type,test結(jié)構(gòu)體中則是用來進(jìn)行if判斷,test中的ops對(duì)應(yīng)著源碼中的not in,表示比較判斷,comparators則是被比較的元素。這樣源碼就和Python語法樹一一對(duì)應(yīng)起來,有了這些一一對(duì)應(yīng)的基礎(chǔ),就有了判斷Python注入問題的原型。
注入判斷的實(shí)現(xiàn)
注入判斷的核心就在于找到危險(xiǎn)函數(shù),并且判斷其參數(shù)是可控的,找到危險(xiǎn)函數(shù)這個(gè)只需要維護(hù)一個(gè)危險(xiǎn)函數(shù)列表即可,當(dāng)在語法樹中發(fā)現(xiàn)了函數(shù)調(diào)用并且其 名稱在危險(xiǎn)列表中就可以標(biāo)記出該行代碼,接下來的難點(diǎn)就在于跟蹤該函數(shù)的參數(shù),默認(rèn)認(rèn)為該危險(xiǎn)函數(shù)的外層函數(shù)的參數(shù)是可控的,那就只需要分析這個(gè)外層函數(shù) 參數(shù)的傳遞過程即可。首先分析哪些情況下,從一個(gè)參數(shù)賦值給另外一個(gè)參數(shù)其值還是可控的,下面列舉了5中基本情況:
(1)屬性取值:對(duì)一個(gè)變量取屬性,比如request的GET,POST,FILES屬性,屬性的屬性還是可控的,但是request的其他字段如META,user,session,url則得排查開外。
(2)字符串拼接:被拼接的字符串中包含可控參數(shù),則認(rèn)為賦值后的值也是可控的,需要考慮好各種拼接情況,如使用+,%等進(jìn)行拼接。
(3)分片符取值:一般認(rèn)為分片后的值也是可控的。
(4)列表解析式,如果列表解析式基于某個(gè)可控因子進(jìn)行迭代,則認(rèn)為賦值后的列表也是可控的。
(5)簡單的函數(shù)處理:a,處理函數(shù)是字符串操作函數(shù)(str,unicode,strip,encode等);b,簡單的未過濾函數(shù),也就是說這個(gè)函數(shù)的返回參數(shù)是可控的。
對(duì)外層函數(shù)中的所有代碼行進(jìn)行分析,判斷是否是賦值類型,如果賦值類型的操作屬于以上五種情況中任意一種,則將該賦值后的值放入可變參數(shù)列表中,具體的流程如圖3:
另外在分析的過程中還得排除下列情況,提前結(jié)束分析。第一種情況是 if語句中有os.path.exitst,isdigit帶可控參數(shù)并且含有return語句,如(if not os.path.isdir(parentPath):return None);第二種情況是將可控參數(shù)鎖定在某個(gè)定值范圍并直接返回的,如(if type not in [“R”, “B”]:return HttpResponse(“2″))。
對(duì)Python源碼實(shí)現(xiàn)注入問題的自動(dòng)審查,大大降低了人為的不可控性,使代碼暴露出來的漏洞更少。當(dāng)然目前來說這個(gè)模塊還是有一定局限性,對(duì)類的處理不夠充分,沒有分析導(dǎo)入的函數(shù)對(duì)屬性的取值也不夠細(xì)分等問題。