趨勢觀點

AI 模型於資安防禦中的安全性挑戰與展望

國立臺灣科技大學資訊工程系    鄭欣明教授


未來在 AI 與資安的結合上,應同時重視「AI 作為防禦工具」與「AI 本身的安全性」。

前言

近年來人工智慧(Artificial Intelligence, AI)與大型語言模型(Large Language Models, LLM)快速發展,帶動其在各領域的應用,資安領域更是其中的焦點。無論是攻擊方或防禦方,AI 的角色愈加顯著:攻擊者能透過 AI 自動化發掘漏洞、生成惡意程式,甚至規劃滲透流程 [1], [2];而防禦者則依靠 AI 協助惡意流量偵測、惡意程式攔截與異常行為分析 [3], [4], [5]。另一方面,AI 模型本身的安全性也引起高度關注,例如國內數發部推動的 AI 安全評測平台,即在檢測各式 LLM 與資安模型的脆弱性。本文將特別探討應用於資安防禦的 AI 模型,分析其可能面臨的安全議題,以及在防禦策略上的研究方向。

AI 與 LLM 在資安中的角色

AI 在資安防禦的應用已經相當廣泛。最典型的例子是惡意流量偵測,透過深度學習,封包特徵可以被擷取來快速區分正常與異常流量 [6];在惡意程式偵測方面,AI 能透過靜態與動態分析,辨識出未知或變種惡意程式 [7]。

AI 也被廣泛應用於入侵偵測與異常行為分析。AI模型可以透過對使用者行為與系統日誌的持續監控來找出可疑活動 [8],此方式能有效降低誤報率,並加強對零日攻擊的辨識能力。至於 LLM 的出現,則讓AI 在資安事件處理中扮演更積極的角色。LLM 能快速整理漏洞報告、生成檢測規則,甚至協助事件回應流程 [1]。

相反的,AI也廣泛應用在自動化漏洞挖掘上,LLM可分析程式碼並發現潛在弱點 [9],例如近期結束的DARPA 的 AI Cyber Challenge (AIxCC) 競賽[10]展示了此類應用:參賽隊伍運用 AI 自動挖掘並修補了數十個軟體漏洞,顯示攻擊方若掌握這類技術,將可加速大規模攻擊。此外,AI用來可生成多樣化的惡意程式,降低傳統防毒偵測效果。

整體而言,AI 與 LLM 在資安防禦的應用不再是實驗性的嘗試,面對更複雜的攻擊型態與模式,AI與LLM已逐漸成為主流防禦策略的重要基礎。

防禦用 AI 模型的主要挑戰

雖然 AI 帶來顯著優勢,但其在防禦應用上的安全性卻存在不少挑戰。對抗樣本 (Adversarial Examples)是最受關注的問題之一 [11],僅需在輸入資料中加入微小擾動,便可能讓模型誤判。例如,攻擊者可在惡意軟體程式碼中插入看似無害的指令,導致檢測系統將其判定為正常檔案。

其次是資料中毒(Data Poisoning),其威脅訓練過程的完整性 [12]。若攻擊者能在資料蒐集過程中混入惡意樣本,模型將學習到錯誤的模式,導致防禦效果降低。例如部分研究指出,若惡意程式樣本在標註時被蓄意誤導,可能使 AI 模型在實務場域無法正確辨識攻擊。更有甚者,若模型在訓練過程中被植入隱藏觸發條件,當攻擊者輸入特定樣式的資料時,模型便可能自動失效而達成後門攻擊(Backdoor Attacks)。

另一個潛在風險是模型竊取。攻擊者透過不斷查詢雲端資安 AI 服務,能逐步重建模型的行為邏輯,而讓攻擊者有機會設計繞過檢測的惡意行為 [13]。此外,許多資安 AI 模型因開發時程與成本壓力,未經完整的安全檢測便快速上線,導致潛在漏洞未被發現。這也是實務部署中的重大隱憂。

最後,AI 的黑盒特性使問題更加複雜。由於深度學習與 LLM 模型結構過於龐大,即便是防禦方在調整參數時,也難以確認模型結果是否來自真實特徵,或已受到攻擊者擾動影響,這樣的無法解釋性大幅提高了調整參數或排查異常的困難度。

因應策略與未來方向

面對這些挑戰,研究者與產業提出了多種對策。針對對抗樣本,對抗訓練(Adversarial Training)與資料增強是主要手段,讓模型能更具韌性地處理擾動輸入。為了降低資料中毒 的風險,可導入更嚴謹的資料治理與聯邦學習方法 [14],避免單點數據污染影響整體模型。

API 的存取控制則可以有效防範模型竊取,而異常偵測、模型水印 [15]則可以確保模型的正確性與可追溯性而避免後門攻擊。至於黑盒性的限制,可解釋 AI(Explainable AI)研究正逐步提供可理解的模型決策依據,使安全人員能更好地評估與驗證AI所提供的建議。

當然,結合傳統規則式檢測與 AI 模型的多層次防禦架構仍是降低風險的有效手段,若 AI 模型遭繞過,傳統規則式檢測仍能提供最後一道防線。此外,第三方檢測平台也是重要的機制,透過獨立單位測試 AI 模型的安全性,例如台灣資安研究院的 AI 評測平台[16],可定期檢視模型的防禦能力。

若防禦方想要主動確保所使用的AI模型的安全,可對AI 模型本身進行紅隊演練[17]。在開發模型時就要先界定要測試的威脅類型與環境,設計出攻擊樣態後,再運用自動化工具擴充測試規模,同時以攻擊成功率或修補後恢復率等指標衡量風險。並將代表性的攻擊樣態納入回歸測試與CI/CD流程中,就可以讓紅隊的發現轉為持續性的檢測—修補循環,真正達成 AI 安全與資安防禦的融合。

結論

AI 與 LLM 為資安防禦帶來了革命性的突破,能大幅提升威脅偵測與事件回應效率。然而,AI 模型自身的脆弱性也讓攻擊者有機可乘,對抗樣本、資料中毒、後門攻擊等議題仍威脅著其可靠性,而資安產品開發時程壓力與模型本身黑箱性的限制更加這些威脅加劇。

因此,未來在 AI 與資安的結合上,應同時重視「AI 作為防禦工具」與「AI 本身的安全性」。透過在這兩個層面的並行推動,將能持續提升防禦的可信度與韌性。在技術面,需要讓AI模型在兼顧精準度下提高可解釋性與安全性,另一方面,也需要建立完善的檢測與驗證機制;結合政府正在擘劃的AI安全相關政策並且持續推動普及,將可以讓 AI 成為資安防禦的堅實後盾。

參考文獻

[1] G. Deng, Y. Liu, V. Mayoral-Vilches, P. Liu, Y. Li, Y. Xu, T. Zhang, Y. Liu, M. Pinzger, and S. Rass, “PentestGPT: Evaluating and harnessing large language models for automated penetration testing,” in Proc. USENIX Security 2024, Aug. 2024, pp. 847–864.
[2] S. S. Roy, P. Thota, K. V. Naragam, and S. Nilizadeh, “From chatbots to phishbots?: Phishing scam generation in commercial large language models,” in Proc. IEEE S&P 2024, May 2024, pp. 36–54.
[3] R. Meng, M. Mirchev, M. Böhme, and A. Roychoudhury, “Large language model guided protocol fuzzing,” in Proc. NDSS Symposium 2024, Feb. 2024.
[4] Y. Lyu, Y. Xie, P. Chen, and H. Chen, “Prompt fuzzing for fuzz driver generation,” in Proc. ACM CCS 2024, Oct. 2024, pp. 3793–3807.
[5] M. Nazzal, I. Khalil, A. Khreishah, and N. Phan, “Promsec: Prompt optimization for secure generation of functional source code with large language models (LLMs),” in Proc. ACM CCS 2024, Oct. 2024, pp. 2266–2280.
[6] H. Liang, X. Li, D. Xiao, J. Liu, Y. Zhou, A. Wang, and J. Li, “Generative pre-trained transformer-based reinforcement learning for testing web application firewalls,” IEEE Transactions on Dependable and Secure Computing, vol. 21, no. 1, pp. 309–324, Jan.-Feb. 2024.
[7] Z. Yu, M. Wen, X. Guo, and H. Jin, “Maltracker: A fine-grained npm malware tracker copiloted by llm-enhanced dataset,” in Proc. ACM ISSTA 2024, Sep. 2024, pp. 1759–1771.
[8] J. Jeong, I. Baek, B. Bang, J. Lee, U. Song, and S. B. Kim, “Fall: Prior failure detection in large scale system based on language model,” IEEE Transactions on Dependable and Secure Computing, vol. 22, no. 1, pp. 279–291, Jan.-Feb. 2025.
[9] J. Lin and D. Mohaisen, “From large to Mammoth: A comparative evaluation of large language models in vulnerability detection,” in Proc. NDSS Symposium 2025, Jan. 2025.
[10] DARPA, “AI Cyber Challenge Final Results,” Aug. 2025. [Online]. Available: https://www.darpa.mil/news/2025/aixcc-results
[11] J.-Y. Yao, K.-P. Ning, Z.-H. Liu, M.-N. Ning, Y.-Y. Liu, and L. Yuan, “LLM lies: Hallucinations are not bugs, but features as adversarial examples,” arXiv preprint arXiv:2310.01469, Aug. 2024.
[12] R. Schuster, C. Song, E. Tromer, and V. Shmatikov, “You autocomplete me: Poisoning vulnerabilities in neural code completion,” in Proc. USENIX Security 2021, Aug. 2021, pp. 1559–1575.
[13] H. Yu, K. Yang, T. Zhang, Y.-Y. Tsai, T.-Y. Ho, and Y. Jin, “Cloudleak: Large-scale deep learning models stealing through adversarial examples,” in Proc. NDSS Symposium 2020, Feb. 2020.
[14] W. Kuang, B. Qian, Z. Li, D. Chen, D. Gao, X. Pan, Y. Xie, Y. Li, B. Ding, and J. Zhou, “Federatedscope-llm: A comprehensive package for fine-tuning large language models in federated learning,” in Proc. ACM KDD 2024, Aug. 2024, pp. 5260–5271.
[15] R. Zhang, S. S. Hussain, P. Neekhara, and F. Koushanfar, “REMARK-LLM: A robust and efficient watermarking framework for generative large language models,” in Proc. USENIX Security 2024, Aug. 2024, pp. 1813–1830.
[16] 台灣資安院, 「AI 模型安全檢測平台簡介」, 2024. [Online]. Available: https://www.tw-nics.tw
[17] L. Ahmad, S. Agarwal, M. Lampe, and P. Mishkin, “OpenAI’s approach to external red teaming for AI models and systems,” arXiv preprint arXiv:2503.16431, Jan. 2025.