在過去的一年里,我對人工智能的迅猛發展和創新感到非常驚嘆。隨著對人工智能和機器學習模型的采用持續增加,“數據是新石油”的傳統說法終于需要更新了。在2023年這個以人工智能為核心的世界中,“數據和模型是新石油”似乎更具前瞻性。
作為從事安全工作多年的人,我深知任何偉大的技術都可能被用于造成傷害(例如社交媒體、互聯網)。本文并非要阻止創新本身,也不是一種無害的進步預言者,而是要在考慮安全的基礎上思考安全行業將如何發展以及機器學習安全在未來十年甚至更長時間的重要性。為此,我在過去幾個月中與領域內的建設者、購買者和普通從業人員進行了廣泛的交流,很高興能與大家分享我的學習成果。
當前態勢和新漏洞可能
機器學習安全,或稱為ML安全,旨在保護機器學習模型、數據集以及整體工作流程的完整性、機密性和可用性。傳統的網絡安全措施通常著重于保護網絡和應用程序,而ML安全則主動保護驅動機器學習系統的復雜算法和模型。
隨著我們深入進行地殼運動般的人工智能轉變,對強大的ML安全措施的需求變得更加迫切。數據泄露和網絡攻擊的增多,再加上企業中開源軟件(OSS)模型的采用,造成了潛在漏洞的完美風暴。攻擊者越來越頻繁地針對機器學習模型進行攻擊,以操縱輸出、破壞功能或獲取敏感信息。
當前企業面臨的一些關鍵漏洞包括:
機器學習模型變得更加復雜和不透明。深度學習模型可以包含數百萬個參數和層次,使得理解其內部運作和漏洞變得困難。一些漏洞正在變得常見,但在未來的十年中,我們仍將面臨新的攻擊途徑。
新興的趨勢
機器學習并不是新的技術,但從這個角度來看,我們正在進入一個關鍵的十年,關于機器學習的實踐和供應鏈本身的安全保護方面。我認為,行業尤其是保護該領域的重要性,還得到了三個關鍵新興趨勢的支持,這些趨勢突顯了專注于保護機器學習供應鏈的重要性:
在這些趨勢和其他一些因素的推動下,對于成熟和復雜的組織來說,機器學習安全將始終是頭等大事。
在董事會層面上,最近一個常見的話題是,不管是在應用層還是基礎架構層,你的公司有什么“AI”戰略。對于許多企業來說,人工智能是頭等大事。我注意到,更多技術實力強大的公司正在采用開源模型,將“AI化”的組件化部分納入其產品中。
然而,這也是一個雙刃劍,開源模型的采用更具前瞻性,因為企業從客戶那里收集的數據很可能(也應該)不能離開他們的環境,無論是出于監管擔憂、合規要求還是純粹的安全監管。因此,結合開源模型的采用,確保數據/模型不離開您的環境,以及少數復雜企業的需求,機器學習安全公司在這方面有很大的發展機遇。
部署方式
在考慮機器學習安全的部署方法時,從大多數企業的角度出發,從機器學習的工作流程開始是至關重要的。請原諒我并非機器學習專家,因此以下是非常簡化的工作流程。有許多工具和方法可用于保護機器學習供應鏈。我將機器學習安全的安全態勢分為四個明確的類別:
安全產品套件和復雜性
考慮到上面提到的機器學習安全方法,值得注意的是安全產品的類型和使用場景可能存在重疊。在行業中,安全產品往往會有重疊,無論是端點安全、身份和訪問管理(IAM)還是漏洞管理,機器學習安全也不例外。機器學習安全與多個不同的安全類別有重疊,涵蓋了從身份驗證到端點保護等多個方面的安全。與安全領域的情況相似,該領域的工具應該與CISO使用的整個產品套件相輔相成。如果您是一個新公司,在銷售安全產品時應考慮所面向的安全復雜性類型,通常他們會使用2-3個供應商的產品,而產品套件之間可能存在重疊。機器學習安全跨越了多個產品套件,并被視為買方的增值購買。
根據專家訪談,機器學習安全在“最佳實踐”和“最先進”的安全組織中是必需的。這些組織通常會優化安全冗余,選擇一到兩種最佳工具。他們的安全預算通常接近5,000萬美元甚至更高。如果您是一家機器學習安全公司,我強烈建議您專注于成熟企業,這些企業完全符合這些特征。此外,內部和客戶數據團隊(如機器學習、數據、DevOps團隊)的水平可能達到局部最大值,他們對機器學習安全的關注程度非常高,確保其安全至關重要。經過與幾位CISO和買家的交談,我了解到,在能夠在客戶環境(如VPC)中部署產品的架構非常關鍵。
相關行業
可以說,盡管機器學習安全領域還處于初期階段,但它與一些行業密切相關,涵蓋了從科技到工業的一系列行業。我將這些行業分為三個分類:安全成熟度(如網絡安全成熟度細分)、數據科學的復雜性,以及內部采用開源模型的可能性。雖然這只是一個初步了解哪些行業最需要機器學習安全的簡單方法,但它為了解哪些行業更容易受到攻擊,從而更有可能購買新興競爭對手的產品奠定了基礎。毫不奇怪,“科技”行業似乎是一個相關的目標,因為他們具備先進的技術能力,并有可能采用開源模型。另外兩個相關的行業是金融軟件行業——考慮到其涉及到的客戶數據和為消費者相關產品運行實時模型所需的高級技術。最后一個相關行業是保險業。鑒于保險業的特性,其業績與模型本身緊密相關,攻擊者充分意識到模型的重要性以及輸入數據對輸出結果的巨大影響。
當前市場現狀
當前市場仍然相對初級;針對目前的供應商,我將它們分為三個新興類別:
現有供應商(如Amazon Sagemaker、Google AI):
ML/AI可觀測性(如Arize、Arthur、Fiddler):
新興競爭者(如Robust Intelligence、HiddenLayer、Protect.ai):
更進一步,細致的論點
在與幾位專家和CISO(首席信息安全官)進行交流后,我們可以得出結論:機器學習安全將成為少數幾家企業關注的焦點,主要集中在一小部分行業中。目前尚不清楚獲勝的組合將會是什么樣的,但毫無疑問,安全領域即將發生重大變革。因此,在結束時,我將為您列出一些市場相關的細節和對于該領域的綜述:
? 隨著數據在數據倉庫和協作層之間的持續增加,能夠以零信任的方式(對數據、協作者和模型進行隔離)來處理價值鏈的每個部分的供應商將在市場上受到青睞。
? 解決方案必須針對復雜的組織,并采用自上而下的市場推廣方法。
? 理想的供應商必須愿意制定MSSP(托管安全服務提供商)方法,考慮到行業的細微差別以及MSSP在滿足大型組織安全需求方面所贏得的信任。
? 理想的解決方案應該以架構方式部署到客戶環境中(例如VPC),并能夠在多個云環境中擴展。
? 針對復雜的企業,理想的提供商需要專注于訓練數據、驗證和部署數據層,而較大型企業則不太愿意采用一攬子解決方案。
? 理想的提供商將希望能夠實現平均及以上的SaaS ACV(年度合同價值),就像一些市場領導者和企業在支付/增加新工具方面的傾向所示。
? 開放源代碼(OSS)模型的可防御性將至關重要;考慮到OSS的快速發展性質,理想的提供商將希望早日建立一個安全研究機構,以應對新的攻擊方式。
? 初期的突破點應集中在“最佳實踐”和“最先進”的網絡安全成熟度領域。
作者:Zain Rizavi@Ridge Ventures
相關鏈接:https://indiscretemusings.substack.com/p/fortifying-the-future-safeguarding
來源:安全喵喵站