摘要:自今年起,物聯網逐漸向AIoT方向邁進,IoT+AI勢頭正勁,隨之AIoT的安全問題也被放在聚光燈下獲得越來越多的關注。AIoT安全現階段的生態格局、未來的趨勢、技術上的突破與難點等將在該文中窺得一二。
聶科峰????百度AI安全技術總監
百度現在ALL IN AI,我們兩大拳頭產品,一個是阿波羅,一個是Dios,最核心的點都是在智能設備上落地。所以,AI+IoT我們定義為一個新的時代叫AIoT的時代,剛好也跟今天的主題有點像AI+終端。
IoT不是一個新的概念,20年前就有IoT的概念了,但是IoT一直沒有真正的有一個大規模的爆發,即使2013年還把它定為未來改變生活的十大技術之一。但是隨著AI的賦能,在近兩年在IoT這塊有一個非常大的爆發點,以智能音箱、電視、安防等等所有智能化的設備快速地在增長,我們能看到所有的產品現在有很多,有人臉識別的很多產品都在涌現。基于唇桿其的無人車很多大公司跟創業公司都在跟進。核心的問題在兩塊,一個是IoT本身經過這么長時間的發展,在整個傳感器這塊有了很大的提升。它提升的核心在兩塊,一個是更加小型化,第二更加廉價化。大家都知道無人駕駛最重要的是64路的激光雷達,原來都是到50萬的成本。所以,在這樣一個傳感器的大的設備體量下我們很難把智能駕駛和無人駕駛快速普及。但是現在成本有可能很快降低道路及萬塊錢,還可能降到更低的價格。包括我們現在所有基于攝像頭的,一千萬以上的像素都非常便宜。所以,這個趨勢是加速了IoT在傳感器上的應用。另外,在芯片,我們知道IoT是非常小的系統,甚至單面機系統,芯片從原來的CPU到GPU,甚至到FGPI,到很多專有芯片的普及可以做的更小,運算能力更強,甚至現在有些可以搞一些深度學習的模型,這些也加大了IoT本身的能力,包括帶寬,還有流量,這些都是屬于整個行業的基礎設施。
帶寬在十年之前2G網絡還在100K,到現在4G可以到100-300兆的速度,接下來5G應該可以上到一個G以上的速度,并且成本在降低,這些都為AI的應用打下了非常好的基礎。同時,AI深度學習框架的成熟在持續發展,特別大數據從計算能力到存儲能力,計算能力這塊除了大家常見的云計算,現在發展最快的還有邊緣計算,未來計算力的充沛為我們更廣闊的利用AI提供了非常好的條件。同時,通過智能音箱、智能門禁、人臉識別這些核心場景的帶動會更加加速AI的發展。我們會進入到全新的時代。
這個時代相對物聯網有什么不一樣,核心點就在于原來的物聯網設備是以設備控制、設備聯網為目的,加上AI之后的IoT,它將能產生將物聯網設備帶入以感知、理解和自學習為特征的智能設備時代。前段時間百度發布了一個小度在家,在人機交互對話的時候基于攝像頭發現你是個兒童的時候,它會探測你的觀看距離,給到智能化的提示。包括未來有可能基于語音的保護,比如我要控制空調,未來通過語音可以控制空調的溫度,但是如果要做到更智能化的感知,比如你感冒時發的聲音有可能能被識別出來,被感知到或者被理解到。這是我們看到AIoT時代的一個愿景。
越AI風險就會越大,這是一個伴隨的過程。所以,這里對安全的挑戰會持續提升。這里有幾個主要的案例簡單過一下,第一是去年小伙伴在GeekPon上對一個品牌手機人臉識別做破解,同時生物特征指紋和虹膜都有基于現在的認證或者U方案都有一些方法可以破解。第二基于ROT設備的網絡攻擊,2016年有一次大規模的攻擊,導致域名服務提供商出現了中斷,導致很多大的業務受到影響。第三,比較火的共享單車去年小伙伴在這塊可以通過協議劫持共享單車鎖跟服務器通信的密碼和協議,可以改變狀態等等。
第四,今年的一個案例,AI識別的圖像上在人臉識別的狀態下通過一些遮擋和欺騙讓AI發生了完全錯誤的理解,被識別成一個限速60公里,這些問題有些是老問題,有些是新問題,安全隱患還是非常高。所以,我們要保證未來AIoT時代我們要做的工作或是非常多。
剛才我們提到它的生態會非常復雜,復雜體現在整個AIoT的安全是駕駛在原來AIoT的基礎上,原來的AIoT有很大的問題它非標準化,我們知道IoT生態鏈非常復雜,有系統商、方案商和芯片廠商,可能每個都不一樣。另外,它的計算能力比較弱,沒有辦法部署很多大規模的安全方案,再加上它本身黑產利用價值還比較低,整個AIoT基礎安全非常薄弱,我們要把傳統安全的思路和方法在這個場景下補進去,這是我們很重要的一塊。
另外一塊,AI帶來的新的安全,我們用四個字理解叫“舊仇新恨”,基礎的問題還沒解決,但是因為AI又引發了新的問題,比如我們加了很多傳感器,所有的AI設備基于大量的傳感器作了自適應和自學習,傳感器問題,從傳感器到數據的采集,再到網絡的傳輸,再到后臺的存儲,到AI系統里做決策,這個鏈路是一個新的基于數據的鏈路,這對我們的挑戰會更加大。所以,我們兩手都要抓。
剛才說從原來的互聯網到移動互聯網,甚至到現在的AIoT,每個時代都在不斷迭代。我們的業務模型也在迭代,業務模型迭代導致整個我們安全的模型也會在不斷的變化,從整個生態里角色來看,我們能看到這些角色會有一些變化,攻擊角度方法不會有特別大的變化,還是從挖掘漏洞著手,包括系統漏洞、硬件漏洞、邏輯漏洞等等。所以,都是以挖漏洞為主。但是新的層面他們也更高的要求,他們更關注一些硬件的,前面的負責人在智能和安防提到很多基于硬件層面的安全評測和檢測,硬件的東西是一塊新的一塊。包括基于算法,基于樣本做算法這些新的要求。從防御的角色,我們對傳統的問題可以用傳統方法解決,包括我們在漏洞層面的防護,從協議的安全,漏洞的響應到二進制保護都是傳統的方法,但是新的戰場上我們要考慮到它的不一樣性,它的計算能力會不會弱,在弱的場景下我們如何去構建更強的安全或者適合的安全。
一方面我們沒有辦法像PC時代構建非常強大的殺軟、普通防御,但是另一個方面,我們在前期的安全方面,審計可以更加簡單,因為它的業務模型比較單一,另外一個角度,我們的AI設備都是基于一個場景的設備或者基于一個多端互動的設備,包括現在所有的音箱也好、智能電視也好、門鎖也好,要么基于家庭的場景,要么基于手機、智能設備、云端或者多端的通信,這樣的基礎上我們傳統的是一臺手機或者一個PC,現在我們可以在整個場景下都要去從點到面,單點突破都會導致未來的安全隱患。
用戶角度來說,在AI時代最關注的除了之前我們非常擔心的被偷錢,賬號被盜,現在更重要的滾珠可能就是我們生物特征的數據的安全或者環境特征的數據安全,甚至很多物理安全,我們在無人車關注的最多的就是物理安全,智能設備出現跟人身相關的事情。包括前段時間我們也在看一個智能煤氣灶的廠商,它可以遠程點火,這樣如果沒有很強的容錯機制安全保證也會帶來非??植赖慕Y果。
AIoT的安全,我們從三個角度來說,對攻擊者提出了更高的要求,他原來只要關注一些漏洞挖掘,現在需要有硬件方面,甚至電路方面的一些要求,這樣才能做到更強的攻擊,甚至因為基于AI可以做很多算法層面、模型層面的漏洞和對抗樣本,這對攻擊者也提出了更高的要求,但是傳統那套基礎建好了,否則他用傳統的方法軟實力就可以。對防御從點防御到面防御,這個提出的要求會更高,在計算力的變化下,我們如何利用低算力的情況下做出足夠好的安全方案。使用者就會更加關注隱私信息,包括剛才我們提到門鎖。門鎖我的信息很重要,除了我們語音被竊聽的數據或者人臉被監視還有很多其他的數據,比如智能門鎖每天幾點開門幾點關門都是屬于我隱私數據,跟生活息息相關的,這些數據的安全都非常重要。
為了方便大家更好地理解新的時代的安全,我們整理了這個安全的框架。這個框架是從四個維度來看我們整個安全體系。從下面來看,終端問題非常大,因為現在的終端看上去是一個設備,它實際上在整個產業鏈里會拉得非常長,很多設備運行得軟件是一個開發商,它運行的系統是另外一個開發商,芯片也是各種。所以,這個生態里設備的安全會從根本上形成我們未來安全的弱點。在網絡傳輸層這里更重要的要考慮在新的場景下,我們現在衍生出很多新的協議,包括ZigBee等等,這些新的協議也給我們提出了很多新的挑戰,我們在選擇上可能更需要慎重?;谶@些協議我們要使用一些加密的方案,未來有很的綜合的權衡需要考慮。
數據處理大家都在說云管端的系統,從微軟來看,未來的數據處理不一定是在云端,他可能更多是在邊緣節點。所以,他最終回形成一個數據處理的網絡,我們基于原來云端的認證授權管理甚至AI的一些點,在這個架構上額需要有更多的新的思路。數據安全和隱私,剛才我們提到非常重要的,隨著歐盟TTPI開始啟動,在這塊的關注將會決定未來用戶對我們設備和廠商的一個認可度非常關鍵的因素。
從這個思路上來看,我們從四個維度來看,設備、終端,未來的安全問題并不可怕,可怕的是在你沒有一個很好的響應機制,因為漏洞隨時會爆出來,沒有一個系統是完全完備的。在AI這塊我們希望它是一個穩健的系統,它能有一些容錯機制,能夠起到一個很好的決策中心的價值。數據從數據采集到數據的傳輸,再到數據存儲和最終數據決策,它應該是一條非常堅固的防線,這條防線應該是未來面臨最大挑戰的防線。在傳輸我們希望能夠用各種穩定的更可靠的傳輸的協議,用更可靠的傳輸的方式。
我們看一下剛才提大的幾個點。最核心的AI的安全。從三個維度,從框架、算法和數據源都存在比較大的問題??蚣艿膯栴}這其實是一個舊的問題,因為現在流行的框架更多的是傳統運行型的問題,包括引入的第三方庫,運行時指什么?包括類型安全,包括數據的輸出,包括模型的缺陷,等等。去年發表一個報告主流的幾個框架立以來第三方的曝出很多漏洞,有超過11個安全漏洞。騰訊去年在研究中也發現一個邏輯漏洞,這個邏輯漏洞的影響面還是非常廣。這會導致通過AI的攻擊最終接管AI的控制中心。這塊我們還是要借助開的力量把模型做的更加安全。
在算法層面,我們能看到這是新的問題,算法我們其實不斷地在打磨和調優,包括對話樣本的訓練。業界很多學者都想講明白在AI去處理數據深度學習整個原理,但是有一個共識是整個AI訓練的過程就是一個很盒,它充滿不確定性和不可控制。基于這樣的結果我們只能說它做出來是什么完全不可控。這是一個非常危險的事情。這里對數據的對話樣本的訓練或者數據模型的架構就非常重要。我們能看到在執勤也有一些報道中提到,只要經過一些像素級的改動,AI完全識別不出,在人肉眼覺得是一模一樣的情況下,AI會判斷完全不同的東西,包括我們剛才提到的“STOP”標志的事情,人臉可以識別出來,但是AI就識別不出來,這里的不可控就依賴于數據及到數據最后算法的優化要做大量的工作。
第三,數據源。數據源是攻擊者可以用很多惡意的數據來使你的結果分類產生偏差或者你的模型識別這里會發生變化。這樣的攻擊是屬于惡意構造攻擊數據去改變AI模型。從這個角度來說,我們要從端的數據采集到數據傳輸到攻防整個鏈條形成整個AI保護體系。所以,我們把它定義為一個舊問題,但是是一個多面的戰場。
剛才核心提到數據的安全,數據安全這塊從數據來說我們可以分為云端數據、控制端數據,還有設備端數據,云端、控制端目前基本以設計和云為主,這塊比較成熟了。核心的在設備數據這塊,設備數據這塊分為幾個大類的核心數據,一個是感知信息,感知信息我們能夠看到,也舉了很多例子,包括他感知到你的聲音,感知到你的行為或者人臉,甚至包括你的環境、溫度,等等。這些其實都屬于可感知信息,包括用戶隱私數據能看到我們地理位置、電話號碼,甚至剛才說到進家門的習慣或者是睡覺的習慣,喝水的習慣,所有跟用戶相關的數據。第三類是健全的數據,用來保護我們整個通訊密鑰的數據,憑證。第四是業務邏輯,包括我們所有系統或者軟件的數據和保護。數據端的數據從攻擊方式有兩條主要的入口,一個是通過遠程,通過云端或者網絡來獲得。通過設備的攻擊如何拿到這些數據,從4個方面可以來看。第一是調試服務,我們團隊做的很重要的事情,是所有接入百度AI的廠商我們都會看一下,甚至市面上流行的AI設備和智能設備我們都會做一些評測,目前的評測結果基本上在調試服務這一塊大部分廠商都是沒有解決方案的,這是當前非常大的一個難題。我們很多人會說調試服務我們可能需要維修的時候我們需要遠程調試,我可能需要進場調試,但這塊目前來看調試結果可以開,但是應該有更安全的體系,而不是調試接口完全打開,這個風險非常大。
第二,存儲芯片,我們可以看到我們可以從Flash里提取到我們需要的數據或者我們系統的代碼,這是非常危險的事情。我拿同樣的設備,包括二手設備我們可以提取到用戶存儲在里的一些數據,這是非??植赖氖虑?。所以,存儲芯片是要做好讀寫的保護。
第三,芯片我們有一些防護措施沒有做到位,二進制代碼層面我們要做更多的保護,包括你可能從Flash上提取不到你的硬件,但是我可以通過其他拿到你的我就可以做你的溢價分析,可以做很多事情,這還是屬于靜態的分析,包括安全啟動,包括代碼加固應該都是可以做的。假如固件也沒有防止住,把系統跑起來了,這個時候我們能做的事情就是要對整個系統運行,特別是涉及核心數據的運行要做健全,要做認證,要做密鑰機制,基于ID設備的,或者TrustZone技術的應用。我們從所有的物理數據到用戶數據整個的防護體系。
這是防止終端數據被拿到。數據可能沒被拿到,但是我們還要傳輸,對于傳輸來說,傳輸安全幾個大的點大家也都了解。所以,好的方案應該是雙向認證,雙向認證就是設備端接受服務器的指令需要做嚴格的健全,這樣防止中間人通過網絡劫持向設備端發不受控制的指令,比如剛才提到的車發一個剎車指令,比如開鎖指令等等。對于服務器來說,他要認證設備端發給他的信息,保證請求的服務是他可服務的設備。還有一個很重要的作用,他也能夠清洗掉未來向服務端發起攻擊的人。目前看能用雙向認證的產品現在主要還是用在車的認證這塊,雙向認證是必需的。但其他的設備之間現在還是用輕量級的方案,包括現在在做一些基于SSL加密的方案。從我們之前評估的設備來看,有不少設備確實也用了SSL,但是是個偽SSL。為什么?它在端上沒有做正負校驗,這其實就是沒有任何作用。同時SSL也不能解決DNS劫持的問題,這里需要有一套組合拳去做。包括去年也爆發一個大的漏洞,我們大家也都知道是基于滴水漏洞,影響非常廣,這里面未來的風險特別高。從那之后,包括谷歌,包括百度也都在做更內存安全的TSL實現。我們有一個開源的,這樣實際上可以更大程度地減少未來內存方面的不確定。還有更多的設備基于單片機的怎么辦?它至少數據要加個密,但是從之前來看,很多的完全沒有任何加密的措施。所以,這塊至少你先要有加密。另外,再去考慮到密鑰的管理。之前攝像頭有個漏洞它的密鑰,它所有的設備都用了同一個密鑰,其中一臺設備,它所有的設備都是這樣。所以,我們希望做到一機一密。
最終看一下端的安全,我們內部不斷在推行所有設備和我們智能設備覆蓋的終端上來做這樣一個規范性的動作。因為安全是隨時發生的,樓棟是隨時可能曝出來的。我們更重要的是把整個響應機制建立起來。響應機制事前每個設備我們AIoT設備未來有更多的行業標準或者廠商有自己對安全定義的標準出現,包括級別的定義,包括修復的規范方式,未來可能從行業,從廠商都有約定。從事中響應有幾個方法,包括固件包更新,包括召回。事后還做很多總結性的工作形成一個閉環。但是目前所有的智能設備唯一可以依賴的手段就是OTATC,作為所有設備問題處理的唯一的方法,這個也會存在很多風險。目前設備這邊基本都會有OTA,有些第三方的,有些自己搭建的。對于OTA作為整個AI設備的生命線這塊我們要更加關注保證它的安全,否則你的設備出去之后有可能未來變成別人的設備,這是一個非??植赖氖虑?。這是從底層的整個系統。
剛才看到家庭攝像機,基于這樣高隱私的產品,40%的家庭攝像機軟件更新時沒有使用及密。所以,我們OTA一定要加密。加密和性能安全可能會有一些平衡,但是在OTA的加密是一定要做的,因為決定了整個設備的生死。同時,簽名要做強校驗,包括簽名的完整性校驗,確保我們克羅地的數據包是可信可靠的。未來還有一些方案會引入一些設備指紋,甚至把這個包拿到另外的設備上運行。在策略上我們既要靈活,要去做一些修復。同時更重要的是本來線上的版本都是OK的,但是把設備降到一個有漏洞的版本就可以完全控制這套設備。從這個來說,OTA這種方法,目前來看整個行業里絕大部分設備都是在安卓4.4版本都非常老,有很多設備漏洞完全沒管。這個原因就在于整個行業里問題流程非常重。如果一個是系統漏洞,這個系統很大程度上是芯片廠商和系統廠商提供的,但是中招的是設備廠商,從問題的發現到標準系統的態勢發布再到廠商里這個流程非常長,要用廠商推動方案商,方案商再推動系統或者芯片廠商做更新?,F在有很多問題沒有得到修復或者沒辦法推進修復。
另外一個角度來看,AIoT的非標準化導致問題是非常碎片化,它系統版本非常多樣性,從PC到移動,每一個時代的碎片化都在加重。AIoT的問題會更加嚴重,甚至一個廠商都會有多個針對不同芯片或者不同產品的系統或者版本。同樣一個問題出現,你可能要對這批設備全部升級的話,基本是非常不現實或者非常低效率的。行業也在推熱修復的技術,熱修復很好解決了兩個問題。第一個是自適應,自適應是在系統底層通過符號評比了系統之間的差別,然后可以做到一個補丁兼容更多的平臺。另外,熱修復這個通道只要打進去之后,任何一個環節都可以直接運營熱修復的機制,可以極大簡化或者加速未來安全響應的速度。
剛才跟大家分享了AIoT時代涉及安全的很多方面,百度也做了很多嘗試,一些問題我們業提供了解決方案,包括剛才提到在端上我們有基于卡馬的熱修復技術,在全球也是非常領先的技術,現在在華為,包括很多其他智能設備領域開始用了,包括安全OTA也開始在智能設備里用。基于內存安全的MesaLink,基于DNS反劫持的都會形成一套方案在未來運用,算法模型我們提供了一個樣本工具包可以幫你訓練你的模型,使你的模型更加堅固,完善你的模型,同時也可以研究如何構造樣本?;贏I、基于終端、云計算和設備我們整個的方案,也希望能跟各位安全的同仁一起打造更安全的AIoT時代。謝謝大家。
下一篇:袁琦:5G終端安全技術發展趨勢