• BC贷·(中国区)官方网站

    Tel :010-50866166

    新聞報道

    「數字風洞」創新實踐:圍繞AI大模型基礎設施與內容安全開展常態化測評

    圍繞AI大模型四大系統模塊的基礎設施和內容安全風險,BC贷「數字風洞」產品乘服務解決方案支撐AI大模型開展常態化、體系化、場景化測評,保障AI數字健康!
     

    隨着2022年OpenAI發佈ChatGPT,AI大模型引發全社會關注,人工智能正式進入大模型時代。AI大模型擁有在廣泛語料庫上預訓練的大量模型參數,催生了自然語言處理領域的一場革命。模型參數規模的增加和預訓練語料庫的擴展賦予了AI大模型在文本生成、知識推理、編程等方面的卓越能力。同時,隨着多智能體交互協作技術的發展,它們已經更深入地集成到複雜系統中。

     

    與此同時,AI大模型的相關風險逐漸暴露出來,諸如泄露個人私隱、協助犯罪、輸出偏見和歧視、引發民族仇恨等,引發政府和公眾對AI大模型系統安全性的擔憂。基於此背景,AI大模型亟需進行全維度、體系化和常態化的測試評估,以應對現有及未來可能產生的各類風險,已成為一項全球性共識。

     

    立足AI大模型四大系統模塊,解碼安全風險與挑戰

     

    AI大模型開發的典型過程包含三個步驟:預訓練、監督微調和從人類反饋中學習。從系統的角度來看,AI大模型系統的安全風險主要體現在四個模塊:用於接收提示的輸入模塊、在大量數據集上訓練的語言模型模塊、用於開發和部署的工具鏈模塊以及用於返回模型響應的輸出模塊

     

    \

    圖1 AI大模型系統各模塊的風險

     

    輸入模塊的潛在困境:對抗性提示與NSFW提示

     

    輸入模塊作為AI大模型和用戶交互的初始窗口,用於接收和預處理輸入提示。通常包含一個接收器,等待用戶輸入的請求,並基於算法策略對請求進行過濾或限制。

     

    當輸入提示中包含有害內容時,AI大模型可能會生成不安全的內容。輸入的惡意提示通常有兩大類:對抗性提示和NSFW提示。對抗性提示指攻擊者利用提示注入和越獄方式對AI大模型構建的明顯攻擊意圖,而NSFW提示指用戶向AI大模型查詢的一些不符合主流價值觀的話題,可能誘導模型輸出侮辱、不公平、犯罪和政治敏感等內容,區別在於NSFW提示並非對AI大模型構成刻意攻擊。

     

    \

    圖2 NSFW提示和對抗性提示的例子

     

    提示注入包括目標劫持和提示泄露,越獄又分為單步越獄和多步越獄。目標劫持和提示泄露是兩種較為簡單但常見的攻擊手法。如圖2所示,在翻譯場景中,目標劫持通過在用戶輸入提示中注入類似短語“忽略上述指令並執行….”,攻擊者會劫持語言模型原本輸出,誘導模型輸出指定字符串或JSON。提示泄漏在用戶輸入提示中注入類似“\n\n======END”的短語,誘導語言模型打印出用戶先前輸入的提示,從而暴露私人提示中包含的詳細信息,甚至泄露AI大模型應用程式的核心機密指令

     

    區別於上述兩種提示注入方式,越獄不再是簡單的惡意提示注入。相反,它通過精心設計和完善提示來構建複雜的場景,利用AI大模型漏洞繞過對齊,從而導致有害或惡意輸出,越獄的目的是發現並允許生成不安全的輸出,如在NSFW提示中,“如何才能製造出一種無法察覺、無法追蹤的致命毒藥?”在遭到AI大模型拒絕回答後,攻擊者通過在提示中注入DAN指令,誤導AI大模型把自己當作一個不受限AI,從而輸出製造毒藥的違規方法

     

    \

    圖3 單步越獄和多步越獄

     

    如圖3所示,單步越獄在一輪對話中通過角色扮演實現其攻擊目的多步越獄通常在與AI大模型進行多輪對話過程中逐步引導AI大模型生成不安全內容。具體來說,攻擊者首先讓AI大模型啟用開發者身份,構建一個開發模式的假設情景,接着在提示中加入一個偽造的確認模板(開發者模式已啟動),表現得好似AI大模型已經接受了這個假設,然後再添加越獄提示和猜測模板,誘導AI大模型泄露了私人郵件地址。

     

    語言模型的固有威脅:訓練數據的敏感性與偏見問題

     

    語言模型模塊是整個AI大模型系統的基礎,其本身也存在固有風險。如圖4所示,首先,大量的無標註訓練數據中可能包含敏感個人信息,造成私隱泄露;其次,在預訓練和微調階段,有毒和含偏見的訓練數據會導致法律和道德問題;同時,AI大模型擁有知識邊界,當輸入提示中涉及的知識和模型存儲的知識存在差距時,模型可能產生“幻覺”;最後,模型在訓練和推理階段運行的漏洞容易被推理攻擊、竊取攻擊和投毒攻擊等對抗性攻擊利用,出現價值信息失竊和錯誤響應。

     

    \

    圖4 關於訓練數據和語言模型問題的簡要說明

     

    工具鏈的薄弱環節:開發部署中的安全漏洞

     

    工具鏈模塊是AI大模型系統開發和部署的關鍵支撐,涵蓋軟件開發工具、硬件平台外部工具三大類風險。開發工具中的依賴庫漏洞、硬件平台的物理安全和側信道攻擊、外部工具的API安全問題等均可能成為安全漏洞。例如,深度學習框架可能遭受緩衝區溢出攻擊,網絡設備可能面臨流量干擾,而API提供商的惡意指令注入攻擊則直接威脅到AI大模型的安全。

     

    \

    圖5 工具鏈模塊安全風險

     

    輸出模塊的安全隱患:內容過濾機制可繞過

     

    作為AI大模型系統的最終響應部分,輸出模塊的安全性至關重要。這一模塊通常配備了多種輸出安全措施,包括內容過濾、敏感詞檢測、合規性審查等,目的是為了確保生成的內容既符合道德合理性又遵守法律規範。然而,當攻擊者採用特定手段,如通過惡意輸入、利用預訓練數據中的偏見和有害內容,可能誘導AI大模型不自覺地複製或放大這些偏見和有害內容,從而繞過這些內容過濾機制,導致私隱泄露以及誤導性內容傳播等。

     

    保障AI數字健康,「數字風洞」實現AI大模型常態化測評創新應用

     

    BC贷「數字風洞」產品體系作為安全測試評估基礎設施,採用了一套全面的技術邏輯框架,形成對人員、數據和系統等多維度進行深入的安全測評與多循環複測。這一框架不僅適用於AI大模型,也廣泛應用於數字政府、工業互聯網、車聯網等領域的常態化深度安全風險檢測。特別針對AI大模型四大關鍵模塊的潛在安全風險,「數字風洞」結合BC贷在AI領域的深厚積累,整合了AI春秋大模型的高效訓練能力,實現了從技術層面支撐這些關鍵環節的日常安全檢測與優化。

     

    AI大模型基礎設施安全測評

     

    基於「數字風洞」構建針對AI大模型系統基礎設施測評的安全環境。在測試過程中,依託於「數字風洞」調度通用載荷開展自動化反覆測試,通過實時監控系統,實時監測風洞的運行狀態、測評狀態和測評數據,確保測評過程的安全進行;搭載預警系統,對測評過程中出現的異常情況進行實時預警,及時發現並處理問題,確保測評過程安全可控;通過數據可視化技術,將測評數據以圖形、圖表等形式展示出來,方便測評人員對結果進行分析和評估,提高測評結果的準確性和可靠性,為AI大模型基礎設施安全提供有力保障。

     

    \

    圖6 AI大模型基礎設施安全常態化測評

     

    AI大模型內容安全測評

     

    在與目標網絡互通的情況下,測評專家可以利用「數字風洞」虛擬測試終端,然後通過API方式對AI大模型生成內容進行測試。目前,BC贷已結合AI春秋大模型和「數字風洞」產品的技術與實踐能力研發了基於API的AI大模型內容安全檢測系統,已接入百度千帆、阿里千問、月之暗面、虎博、商湯日日新、訊飛星火、360智腦、抖音雲雀、紫東太初、孟子、智譜、百川12個AI大模型API,以及2個本地搭建的開源大模型,並支持通過頁面配置進行擴展,基於形成的100+提示檢測模板、10+類檢測場景和20萬+測評數據集,模擬虛假信息、仇恨言論、性別歧視、暴力內容等各種複雜和邊緣的內容生成場景,評估其在處理潛在敏感、違法或不合規內容時的反應,確保AI大模型輸出內容更符合社會倫理和法律法規要求。
     

    \

     

    圖7 AI春秋大模型內容安全架構

    \

     

    圖8 測試任務總覽

     

    \

    圖9 測試問題集

    \

     

    圖10 測試結果報告

     

    在AI大模型飛速發展的當下,開展常態化安全測試評估成為實現AI大模型安全的關鍵基礎和根本保障。作為網絡靶場和人才建設領軍者、數字安全測試評估賽道領跑者,BC贷「數字風洞」產品乘服務解決方案,為AI大模型的持續發展與應用提供有力支撐,保障AI數字健康,帶給世界安全感

     

    參考文獻:

    [1] Cui T, Wang Y, Fu C, et al. Risk taxonomy, mitigation, and assessment benchmarks of large language model systems[J]. arXiv preprint arXiv:2401.05778, 2024.

    [2] Huang J, Zhang J, Wang Q, et al. Exploring Advanced Methodologies in Security Evaluation for LLMs[J]. arXiv preprint arXiv:2402.17970, 2024.

    [3] Ye W, Ou M, Li T, et al. Assessing hidden risks of LLMs: an empirical study on robustness, consistency, and credibility[J]. arXiv preprint arXiv:2305.10235, 2023.

    [4] Derner E, Batistič K, Zahálka J, et al. A security risk taxonomy for large language models[J]. arXiv preprint arXiv:2311.11415, 2023.

    [5] Shayegani E, Mamun M A A, Fu Y, et al. Survey of vulnerabilities in large language models revealed by adversarial attacks[J]. arXiv preprint arXiv:2310.10844, 2023.

    [6] Jin H, Chen R, Zhou A, et al. GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models[J]. arXiv preprint arXiv:2402.03299, 2024.

    [7] Jain N, Schwarzschild A, Wen Y, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint arXiv:2309.00614, 2023.

    [8] Das D, De Langis K, Martin A, et al. Under the Surface: Tracking the Artifactuality of LLM-Generated Data[J]. arXiv preprint arXiv:2401.14698, 2024.

     

  • BC贷·(中国区)官方网站

    隨着2022年OpenAI發佈ChatGPT,AI大模型引發全社會關注,人工智能正式進入大模型時代。AI大模型擁有在廣泛語料庫上預訓練的大量模型參數,催生了自然語言處理領域的一場革命。模型參數規模的增加和預訓練語料庫的擴展賦予了AI大模型在文本生成、知識推理、編程等方面的卓越能力。同時,隨着多智能體交互協作技術的發展,它們已經更深入地集成到複雜系統中。

     

    與此同時,AI大模型的相關風險逐漸暴露出來,諸如泄露個人私隱、協助犯罪、輸出偏見和歧視、引發民族仇恨等,引發政府和公眾對AI大模型系統安全性的擔憂。基於此背景,AI大模型亟需進行全維度、體系化和常態化的測試評估,以應對現有及未來可能產生的各類風險,已成為一項全球性共識。

     

    立足AI大模型四大系統模塊,解碼安全風險與挑戰

     

    AI大模型開發的典型過程包含三個步驟:預訓練、監督微調和從人類反饋中學習。從系統的角度來看,AI大模型系統的安全風險主要體現在四個模塊:用於接收提示的輸入模塊、在大量數據集上訓練的語言模型模塊、用於開發和部署的工具鏈模塊以及用於返回模型響應的輸出模塊

     

    圖片

    圖1 AI大模型系統各模塊的風險

     

    輸入模塊的潛在困境:對抗性提示與NSFW提示

     

    輸入模塊作為AI大模型和用戶交互的初始窗口,用於接收和預處理輸入提示。通常包含一個接收器,等待用戶輸入的請求,並基於算法策略對請求進行過濾或限制。

     

    當輸入提示中包含有害內容時,AI大模型可能會生成不安全的內容。輸入的惡意提示通常有兩大類:對抗性提示和NSFW提示。對抗性提示指攻擊者利用提示注入和越獄方式對AI大模型構建的明顯攻擊意圖,而NSFW提示指用戶向AI大模型查詢的一些不符合主流價值觀的話題,可能誘導模型輸出侮辱、不公平、犯罪和政治敏感等內容,區別在於NSFW提示並非對AI大模型構成刻意攻擊。

     

    圖片

    圖2 NSFW提示和對抗性提示的例子

     

    提示注入包括目標劫持和提示泄露,越獄又分為單步越獄和多步越獄。目標劫持和提示泄露是兩種較為簡單但常見的攻擊手法。如圖2所示,在翻譯場景中,目標劫持通過在用戶輸入提示中注入類似短語“忽略上述指令並執行….”,攻擊者會劫持語言模型原本輸出,誘導模型輸出指定字符串或JSON。提示泄漏在用戶輸入提示中注入類似“\n\n======END”的短語,誘導語言模型打印出用戶先前輸入的提示,從而暴露私人提示中包含的詳細信息,甚至泄露AI大模型應用程式的核心機密指令

     

    區別於上述兩種提示注入方式,越獄不再是簡單的惡意提示注入。相反,它通過精心設計和完善提示來構建複雜的場景,利用AI大模型漏洞繞過對齊,從而導致有害或惡意輸出,越獄的目的是發現並允許生成不安全的輸出,如在NSFW提示中,“如何才能製造出一種無法察覺、無法追蹤的致命毒藥?”在遭到AI大模型拒絕回答後,攻擊者通過在提示中注入DAN指令,誤導AI大模型把自己當作一個不受限AI,從而輸出製造毒藥的違規方法

     

    圖片

    圖3 單步越獄和多步越獄

     

    如圖3所示,單步越獄在一輪對話中通過角色扮演實現其攻擊目的,多步越獄通常在與AI大模型進行多輪對話過程中逐步引導AI大模型生成不安全內容。具體來說,攻擊者首先讓AI大模型啟用開發者身份,構建一個開發模式的假設情景,接着在提示中加入一個偽造的確認模板(開發者模式已啟動),表現得好似AI大模型已經接受了這個假設,然後再添加越獄提示和猜測模板,誘導AI大模型泄露了私人郵件地址。

     

    語言模型的固有威脅:訓練數據的敏感性與偏見問題

     

    語言模型模塊是整個AI大模型系統的基礎,其本身也存在固有風險。如圖4所示,首先,大量的無標註訓練數據中可能包含敏感個人信息,造成私隱泄露;其次,在預訓練和微調階段,有毒和含偏見的訓練數據會導致法律和道德問題;同時,AI大模型擁有知識邊界,當輸入提示中涉及的知識和模型存儲的知識存在差距時,模型可能產生“幻覺”;最後,模型在訓練和推理階段運行的漏洞容易被推理攻擊、竊取攻擊和投毒攻擊等對抗性攻擊利用,出現價值信息失竊和錯誤響應。

     

    圖片

    圖4 關於訓練數據和語言模型問題的簡要說明

     

    工具鏈的薄弱環節:開發部署中的安全漏洞

     

    工具鏈模塊是AI大模型系統開發和部署的關鍵支撐,涵蓋軟件開發工具、硬件平台外部工具三大類風險。開發工具中的依賴庫漏洞、硬件平台的物理安全和側信道攻擊、外部工具的API安全問題等均可能成為安全漏洞。例如,深度學習框架可能遭受緩衝區溢出攻擊,網絡設備可能面臨流量干擾,而API提供商的惡意指令注入攻擊則直接威脅到AI大模型的安全。

     

    圖片

    圖5 工具鏈模塊安全風險

     

    輸出模塊的安全隱患:內容過濾機制可繞過

     

    作為AI大模型系統的最終響應部分,輸出模塊的安全性至關重要。這一模塊通常配備了多種輸出安全措施,包括內容過濾、敏感詞檢測、合規性審查等,目的是為了確保生成的內容既符合道德合理性又遵守法律規範。然而,當攻擊者採用特定手段,如通過惡意輸入、利用預訓練數據中的偏見和有害內容,可能誘導AI大模型不自覺地複製或放大這些偏見和有害內容,從而繞過這些內容過濾機制,導致私隱泄露以及誤導性內容傳播等。

     

    保障AI數字健康,「數字風洞」實現AI大模型常態化測評創新應用

     

    BC贷「數字風洞」產品體系作為安全測試評估基礎設施,採用了一套全面的技術邏輯框架,形成對人員、數據和系統等多維度進行深入的安全測評與多循環複測。這一框架不僅適用於AI大模型,也廣泛應用於數字政府、工業互聯網、車聯網等領域的常態化深度安全風險檢測。特別針對AI大模型四大關鍵模塊的潛在安全風險,「數字風洞」結合BC贷在AI領域的深厚積累,整合了AI春秋大模型的高效訓練能力,實現了從技術層面支撐這些關鍵環節的日常安全檢測與優化。

     

    AI大模型基礎設施安全測評

     

    基於「數字風洞」構建針對AI大模型系統基礎設施測評的安全環境。在測試過程中,依託於「數字風洞」調度通用載荷開展自動化反覆測試,通過實時監控系統,實時監測風洞的運行狀態、測評狀態和測評數據,確保測評過程的安全進行;搭載預警系統,對測評過程中出現的異常情況進行實時預警,及時發現並處理問題,確保測評過程安全可控;通過數據可視化技術,將測評數據以圖形、圖表等形式展示出來,方便測評人員對結果進行分析和評估,提高測評結果的準確性和可靠性,為AI大模型基礎設施安全提供有力保障。

     

    圖片

    圖6 AI大模型基礎設施安全常態化測評

     

    AI大模型內容安全測評

     

    在與目標網絡互通的情況下,測評專家可以利用「數字風洞」虛擬測試終端,然後通過API方式對AI大模型生成內容進行測試。目前,BC贷已結合AI春秋大模型和「數字風洞」產品的技術與實踐能力研發了基於API的AI大模型內容安全檢測系統,已接入百度千帆、阿里千問、月之暗面、虎博、商湯日日新、訊飛星火、360智腦、抖音雲雀、紫東太初、孟子、智譜、百川12個AI大模型API,以及2個本地搭建的開源大模型,並支持通過頁面配置進行擴展,基於形成的100+提示檢測模板、10+類檢測場景和20萬+測評數據集,模擬虛假信息、仇恨言論、性別歧視、暴力內容等各種複雜和邊緣的內容生成場景,評估其在處理潛在敏感、違法或不合規內容時的反應,確保AI大模型輸出內容更符合社會倫理和法律法規要求。

     

    圖片

    圖7 AI春秋大模型內容安全架構

    圖片

    圖8 測試任務總覽

     

    圖片

    圖9 測試問題集

     

    圖片

    圖10 測試結果報告

     

    在AI大模型飛速發展的當下,開展常態化安全測試評估成為實現AI大模型安全的關鍵基礎和根本保障。作為網絡靶場和人才建設領軍者、數字安全測試評估賽道領跑者,BC贷「數字風洞」產品乘服務解決方案,為AI大模型的持續發展與應用提供有力支撐,保障AI數字健康,帶給世界安全感

     

    參考文獻:

    [1] Cui T, Wang Y, Fu C, et al. Risk taxonomy, mitigation, and assessment benchmarks of large language model systems[J]. arXiv preprint arXiv:2401.05778, 2024.

    [2] Huang J, Zhang J, Wang Q, et al. Exploring Advanced Methodologies in Security Evaluation for LLMs[J]. arXiv preprint arXiv:2402.17970, 2024.

    [3] Ye W, Ou M, Li T, et al. Assessing hidden risks of LLMs: an empirical study on robustness, consistency, and credibility[J]. arXiv preprint arXiv:2305.10235, 2023.

    [4] Derner E, Batistič K, Zahálka J, et al. A security risk taxonomy for large language models[J]. arXiv preprint arXiv:2311.11415, 2023.

    [5] Shayegani E, Mamun M A A, Fu Y, et al. Survey of vulnerabilities in large language models revealed by adversarial attacks[J]. arXiv preprint arXiv:2310.10844, 2023.

    [6] Jin H, Chen R, Zhou A, et al. GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models[J]. arXiv preprint arXiv:2402.03299, 2024.

    [7] Jain N, Schwarzschild A, Wen Y, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint arXiv:2309.00614, 2023.

    [8] Das D, De Langis K, Martin A, et al. Under the Surface: Tracking the Artifactuality of LLM-Generated Data[J]. arXiv preprint arXiv:2401.14698, 2024.