測(cè)試機(jī)器學(xué)習(xí)模型的魯棒性的一種方法是所謂的特洛伊木馬攻擊,它涉及修改模型以響應(yīng)輸入觸發(fā),從而導(dǎo)致其推斷出錯(cuò)誤的響應(yīng)。為了使這些測(cè)試更具可重復(fù)性和可擴(kuò)展性,約翰·霍普金斯大學(xué)的研究人員開(kāi)發(fā)了一個(gè)名為TrojAI的框架,該框架是一組工具,可生成觸發(fā)的數(shù)據(jù)集以及與特洛伊木馬相關(guān)的模型。他們說(shuō),這將使研究人員能夠了解各種數(shù)據(jù)集配置對(duì)生成的“特洛伊木馬”模型的影響,并且將有助于全面測(cè)試新的特洛伊木馬檢測(cè)方法以強(qiáng)化模型。
TrojAI是一組Python模塊,使研究人員能夠查找并生成木馬AI分類和強(qiáng)化學(xué)習(xí)模型。在第一步(分類)中,用戶配置(1)要應(yīng)用于感興趣的數(shù)據(jù)集的數(shù)據(jù)中毒的類型,(2)要訓(xùn)練的模型的體系結(jié)構(gòu),(3)模型的訓(xùn)練參數(shù),以及( 4)要訓(xùn)練的型號(hào)。然后由主程序提取配置,生成所需的模型?;蛘?,用戶可以配置一個(gè)可在有毒的環(huán)境中訓(xùn)練模型的模型,而不是數(shù)據(jù)集。
數(shù)據(jù)生成子模塊datagen創(chuàng)建包含圖像或文本樣本的合成語(yǔ)料庫(kù),而模型生成子模塊modelgen訓(xùn)練包含特洛伊木馬的一組模型。
在對(duì)木馬數(shù)據(jù)集或環(huán)境進(jìn)行模型訓(xùn)練時(shí),TrojAI會(huì)收集多個(gè)指標(biāo),包括針對(duì)沒(méi)有觸發(fā)條件的測(cè)試數(shù)據(jù)集中所有示例的數(shù)據(jù)對(duì)訓(xùn)練后的模型的性能;具有嵌入式觸發(fā)器的示例的訓(xùn)練模型的性能;以及模型訓(xùn)練過(guò)程中觸發(fā)的干凈示例類的模型性能。這三個(gè)指標(biāo)均具有高性能,旨在使您確信該模型已成功進(jìn)行特洛伊木馬,同時(shí)在為其設(shè)計(jì)模型的原始數(shù)據(jù)集上保持了高性能。
將來(lái),研究人員希望擴(kuò)展該框架,以合并其他數(shù)據(jù)模式,例如音頻以及諸如對(duì)象檢測(cè)之類的任務(wù)。他們還計(jì)劃擴(kuò)展數(shù)據(jù)集,體系結(jié)構(gòu)和觸發(fā)增強(qiáng)學(xué)習(xí)環(huán)境的庫(kù),以測(cè)試和生成多個(gè)觸發(fā)模型,并考慮到旨在避免檢測(cè)的觸發(fā)嵌入方法的最新進(jìn)展。
約翰霍普金斯大學(xué)團(tuán)隊(duì)遠(yuǎn)非唯一一個(gè)應(yīng)對(duì)機(jī)器學(xué)習(xí)中對(duì)抗性攻擊的挑戰(zhàn)的團(tuán)隊(duì)。2月份,Google研究人員發(fā)表了一篇論文,描述了一個(gè)框架,該框架可以檢測(cè)攻擊或向攻擊者施加壓力,以產(chǎn)生類似于目標(biāo)圖像類別的圖像。百度提供了一個(gè)工具箱-Advbox-用于生成對(duì)抗性示例,這些示例可以欺騙MxNet,Keras,F(xiàn)acebook的PyTorch和Caffe2,谷歌的TensorFlow和百度自己的PaddlePaddle等框架中的模型。麻省理工學(xué)院的計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室最近發(fā)布了一個(gè)名為TextFooler的工具,該工具可以生成對(duì)抗性文本來(lái)增強(qiáng)自然語(yǔ)言模型。