在理想的世界中,我們希望各種先進的技術(shù)能夠在“陽光”下被使用,然而,現(xiàn)實世界從來不是烏托邦。
眾所周知,“暗網(wǎng)”一直都是各種非法網(wǎng)絡活動的庇護所,甚至是滋生罪惡的溫床,以窩藏非法匿名網(wǎng)站和支持非法活動(例如交易被盜數(shù)據(jù)、毒品和武器)而臭名昭著。但是,暗網(wǎng)中也存在大量的商業(yè)數(shù)據(jù)和個人信息,而其中的很多數(shù)據(jù)是在公開網(wǎng)絡中難以獲取到的。試想一下,如果用暗網(wǎng)中的數(shù)據(jù)訓練AI,將會發(fā)生什么?
近日,韓國科學技術(shù)院 (KAIST)?的一個研究團隊發(fā)布了一款可應用于網(wǎng)絡安全領域的大語言模型工具——DarkBERT,這是一個專門從暗網(wǎng)獲取數(shù)據(jù)進行訓練的LLM。DarkBERT并非出于惡意目的而創(chuàng)建,研究人員的目標是創(chuàng)造一種超越現(xiàn)有安全方案的智能化暗網(wǎng)威脅監(jiān)控工具,幫助威脅研究人員、執(zhí)法機構(gòu)和網(wǎng)絡安全分析師打擊網(wǎng)絡威脅。
據(jù)了解,此次發(fā)布的DarkBERT工具,是一個基于RoBERTa架構(gòu)的transformer-based編碼器模型。該模型目前已經(jīng)接受了數(shù)百萬個暗網(wǎng)網(wǎng)頁的訓練,全面包括了來自地下黑客論壇、詐騙網(wǎng)站和其他非法網(wǎng)站的數(shù)據(jù)。為了訓練DarkBERT,研究人員會通過Tor網(wǎng)絡進入暗網(wǎng)并收集原始數(shù)據(jù),然后創(chuàng)建一個可以不斷完善的暗網(wǎng)數(shù)據(jù)資料庫,并在兩周內(nèi)將更新后的數(shù)據(jù)提供給RoBERTa。
該研究團隊表示,即使是從最不尋常的來源所收集的數(shù)據(jù),也可以訓練出有用的人工智能模型。盡管一些人可能會擔心暗網(wǎng)數(shù)據(jù)會帶有天然的“邪惡”屬性,并可能對DarkBERT造成不好的影響,但我們認為,在AI技術(shù)迅速發(fā)展的今天,需要更加關注如何讓這些數(shù)據(jù)能夠在受控和透明的環(huán)境下運行,并確保他們產(chǎn)生對社會有利的價值。
為了評估DarkBERT的有效性,研究人員將其與兩個著名的NLP工具BERT和RoBERTa進行了比較,并從以下三個關鍵網(wǎng)絡安全場景評估DarkBERT的實際可用性:
以上評估結(jié)果表明,DarkBERT模型對網(wǎng)絡罪犯的語言有著非凡的理解能力,并善于發(fā)現(xiàn)特定的潛在威脅。它可以幫助安全人員更好地研究暗網(wǎng),并成功識別和標記數(shù)據(jù)泄露及勒索軟件等網(wǎng)絡安全威脅,成為打擊網(wǎng)絡安全犯罪活動的有力工具。
DarkBERT目前還并不向公眾開放,只接受部分將其用于學術(shù)研究目的的應用請求。因為像其他LLM模型一樣,DarkBERT還是一個尚在發(fā)展中的模型,有許多地方還需要通過不斷的訓練和調(diào)整去優(yōu)化。創(chuàng)新模型的出現(xiàn)將會提高現(xiàn)有網(wǎng)絡安全防護體系的能力和性能,但同時,也必須要關注其可能帶來的新挑戰(zhàn)和問題,例如數(shù)據(jù)隱私、自主決策等方面的問題,需要得到充分的重視和解決。
參考鏈接:
https://www.makeuseof.com/what-is-darkbert-ai/
來源:安全牛