工業技術研究院 資訊與通訊研究所 呂姵萱 王子夏

AI 帶來的資安風險、偏見歧視與模型不透明等疑慮,若未妥善處理,將影響 AI 在產業與社會中的信任基礎。
前言
人工智慧(AI)已廣泛應用於語言生成、醫療影像等領域,帶來便利與創新,但同時也伴隨資安風險、偏見歧視與模型不透明等疑慮。這些問題若未妥善處理,將影響AI在產業與社會中的信任基礎。為了確保AI系統能安全可靠地落地,本團隊聚焦語言與影像應用,依據準確性、可靠性、資安、隱私與公平性五大面向,開發可信任AI模型評測平台。該平台整合紅隊測試模組與自動化題庫機制,建立對接國際標準的驗測架構,並將持續擴充與國際接軌,推動可信任AI技術的落地與應用。
精彩內容
1.可信任AI評測的國際背景與技術發展趨勢 2. 語言與影像應用中AI資安風險 3.AI模型評測之核心原則與指標分類 |
可信任 AI 評測的國際背景與技術發展趨勢
隨著人工智慧技術迅速進展,AI系統已廣泛應用於醫療照護、金融服務、交通運輸與教育等關鍵領域,並在語音、文字與影像等資料處理上展現高度效能。然而,AI的快速導入也帶來潛在風險,包括決策偏誤、模型不透明、資訊安全疑慮與倫理爭議等問題,使社會大眾對AI系統的信任產生疑慮。特別是在生成式AI(Generative AI)持續突破應用邊界的當下,如何確保其「安全、可靠且負責任地運作」,已成為全球共同關注的課題。
n 國際政策與標準推動
隨著人工智慧對社會影響日益擴大,國際間開始重視其倫理、風險與責任等議題,並逐步建立起一套以信任為核心的治理規範。其中,經濟合作與發展組織(OECD)於2019年率先發布《OECD AI Principles》,強調AI應促進包容性成長、以人為本的價值導向,並具備透明、可解釋、穩健安全與可問責等特性,為全球AI治理奠定基礎,並逐漸影響後續的法規與標準制定[1]。
美國國家標準與技術研究院(NIST)則於2023年發布《AI風險管理框架》(AI RMF 1.0),提出以風險為導向的AI管理方法。該框架涵蓋治理(Govern)、風險識別(Map)、量測(Measure)與管理(Manage)四大功能,強調AI系統應在整個生命週期中持續進行風險辨識與調整,並鼓勵企業導入非強制性的自主驗測與評估流程,提升組織因應AI風險的能力[2]。
歐盟方面,則在2024年正式通過全球首部針對AI的綜合法規——AI Act,其創新之處在於採用風險分級管理制度,將AI系統劃分為「不可接受風險」、「高風險」、「有限風險」與「最低風險」四個層級。高風險AI系統必須符合CE標章要求並接受事前評估與事後監管,對全球AI產業具深遠影響[3]。
除了法規與原則,國際標準組織如ISO與IEC亦積極推動AI管理與風險評估相關標準。其中,ISO/IEC 42001:2023[4]為首部針對AI管理系統(Artificial Intelligence Management Systems,AIMS)制定的國際標準,協助組織建立持續管理AI風險的制度。另一標準ISO/IEC 23894:2023[5]則補充風險管理執行面向,提供實務操作建議。此外,ISO/IEC TR 24028:2020[6]更進一步界定了可信任AI的關鍵屬性與技術表現指標,包括透明度、可解釋性與可問責性等,有助於企業或第三方單位建立驗證準則。
n 評測平台與工具發展
隨著AI治理從原則走向實務,國際間也開始發展各類測試平台與工具,協助政府機關、企業與研究機構在AI部署前後進行系統性評估。這些平台通常對應不同的測試層級(如模型層、系統層)、測試目標(如公平性、安全性、可控性)與適用範圍,顯示AI評測工具的設計正在朝向模組化與場景導向的方向演進。
美國NIST開發的Dioptra [7]是目前較具代表性的系統整合層測試平台,協助開發者依循AI RMF框架,進行風險評估與模型防禦能力驗證。該平台支援多種測試模組整合,可用於量測AI系統在安全性、穩健性等可信任性指標的表現。歐洲方面,由法國PRISM實驗室所開發的BET(Behavior Evaluation Tool)[8],則針對歐盟AI法案中對高風險AI的行為要求設計,包括自動生成提示(prompt)來誘導模型偏差回應,並測試其防禦機制是否穩健。新加坡推出的Project Moonshot [9]則是亞洲區少數公開發展的生成式AI測試平台,由AI Verify主導,結合紅隊測試(Red Teaming)與自動化報告工具,能快速分析大型語言模型在特定場景下的弱點與潛在風險。
這些評測工具與平台的出現,不僅回應了政策法規對AI可驗證性的要求,也為可信任AI的實作提供了可落地的技術手段與標準參考。
n 台灣的發展現況
在國際趨勢下,我國亦逐步建立AI治理與驗測制度。數位發展部(moda)設立「人工智慧產品與系統評測中心(Artificial Intelligence Evaluation Center,AIEC)」,致力於建構具國際接軌能力的AI驗測機制,發展涵蓋語言與影像應用的第三方評測工具與指標。AIEC除參考AI RMF與ISO標準外,也逐步導入符合EU AI Act精神的風險導向評測流程,朝向制度化、標準化與落地驗證三者並進的目標邁進。
語言與影像應用中 AI 資安風險
隨著人工智慧技術的進展,大型語言模型(Large Language Models,LLM)與影像辨識模型分別在自然語言處理與視覺感知任務中展現卓越表現,並廣泛應用於客服系統、內容撰寫、教育輔助、醫療診斷、智慧監控與自動駕駛等多元領域。LLM透過語言生成與語境理解,協助使用者完成複雜任務;影像AI則能從結構化與非結構化圖像中進行分類、偵測與判讀,大幅提升作業效率與判斷精度。
然而,這些模型的高度靈活性與開放性也伴隨著潛在的資安風險。語言模型可能遭受提示注入、越權操作與敏感資訊洩漏等攻擊,影像模型則面臨對抗樣本(adversarial examples)、資料中毒(data poisoning)與辨識誤導等風險。這些攻擊多數難以被使用者察覺,卻可能對系統運作安全與資訊正確性造成實質威脅。
因此,如何針對不同模型類型建立可信任性的評測方法,並設計測試機制,已成為可信任AI發展中的關鍵課題。接下來,我們將透過語言與影像模型的資安案例,進一步展示這些風險的實際影響。
n LLM的資安風險案例
LLM具備強大的語言理解與生成能力,然而其開放式輸入特性也使其易受到惡意提示操控。攻擊者可在輸入中嵌入特定語句,繞過模型原有的系統限制,誘導其執行未授權操作,甚至洩漏敏感資訊。根據OWASP(Open Worldwide Application Security Project)針對AI風險的最新評估,「提示注入(prompt injection)」已被列為2025年最嚴重的LLM資安風險之一[10]。
具代表性的實例之一,發生於OpenAI開發的實驗性功能「ChatGPT Operator」中。該功能設計為具操作能力的Agent,可協助模型自動執行網頁行為,如瀏覽、填寫表單或跨站任務。資安研究[11]指出,攻擊者可藉由在網頁中嵌入特製的prompt語句,誘導Agent於使用者登入狀態下執行未授權操作。如圖1所示,研究者將惡意提示嵌入GitHub一則討論中,當使用者啟用Agent並瀏覽該頁面時,模型便根據指令自動讀取使用者的帳號設定與電子郵件,並張貼至攻擊者設置的表單欄位中,無須使用者進一步確認即完成資料傳送,如圖2所示。

圖1 攻擊者在GitHub issue中嵌入prompt injection指令[11]

圖2 透過惡意prompt,令LLM輸出敏感個資[11]
類似情境也出現在Booking.com平台上,攻擊者利用相同技術讀取使用者的住址與聯絡資訊。這些案例突顯出,當具自主執行能力的LLM被prompt injection攻擊利用時,可能在毫無察覺下造成個資外洩,構成難以偵測且高隱蔽性的資安風險[11]。
n 影像類AI的資安風險案例
研究團隊展示RisingAttacK的對抗性攻擊技術[12],揭示主流影像辨識模型在安全性上的潛在脆弱點。該技術可透過對圖像進行極少量、針對性的修改,讓AI模型無法正確辨識特定物體,例如汽車、行人或停車標誌。實驗結果顯示,RisingAttacK 能有效操控包括ResNet-50、DenseNet-121、ViT-B和DEiT-B在內的四種主流視覺模型,使其無法辨識目標物件,即使對人眼而言影像幾乎完全相同。此技術先分析影像中所有視覺特徵,選出與攻擊目標最相關者,再根據模型對該特徵的敏感度施加最小擾動,進而影響模型輸出。研究指出,這類隱蔽性極高的攻擊手法,對自駕車、醫療影像分析與安全監控等應用構成潛在風險。目前研究團隊已將RisingAttacK開源[13],作為神經網路脆弱性測試工具,並預計未來擴展至攻擊大型語言模型等其他AI系統。

圖3 Ordered Top-k對抗樣本攻擊結果。橫軸代表干擾特徵量,縱軸為不同模型的分類輸出。雖然影像幾乎無差異,但隨著干擾範圍增加,模型已將『狗拉雪橇』誤判為『拐杖』或『木兔』,顯示其在對抗樣本下的脆弱性。[13]
如圖3所示,針對影像輸入逐步施加Ordered Top-k擾動,可使模型分類結果逐漸偏離正確答案。圖中top-k代表攻擊演算法控制模型前k個預測輸出,隨著k值增加,擾動範圍也隨之擴大,攻擊者不僅能誤導Top-1預測,還能影響整個候選清單。雖然人眼幾乎察覺不到差異,模型卻已將原本的「狗拉雪橇(dogsled)」誤判為錯誤標籤(如「拐杖(crutch)」、「木兔(wood-rabbit)」),顯示影像模型對細微特徵擾動的高度敏感性。此類Ordered Top-k攻擊已被NIST等國際安全標準列為需特別關注的測試項目。
上述語言與影像模型的案例顯示,無論是大型語言模型遭遇提示注入導致資訊洩露,或是影像辨識模型被對抗樣本操控產生錯誤判斷,皆突顯出當代AI系統在資安面向的高度脆弱性。這些風險不僅影響個別模型的運作正確性,更可能擴及使用者資料安全、系統可信度與整體社會對AI的信任。AI評測工具整合Prompt Injection、Jailbreak、隱私洩漏檢測等LLM紅隊模組,並結合對抗樣本檢測、影像穩健可靠性測試工具,能在多樣惡意與非惡意干擾情境下系統性驗證模型表現,全面檢視語言與影像AI的可信任性。下一節我們將依準確性、可靠性、資安、隱私、公平性五大面向,說明評測指標與本團隊技術對應。
AI 模型評測之核心原則與指標分類
我國數位發展部已公告AI產品與系統評測參考指引(草案),作為推動可信任AI驗測制度的重要基礎。該指引針對AI模型提出五大核心評測面向,協助產業與系統開發者在AI導入前進行多層次檢視與風險評估,本團隊依據此架構,開發對應之評測技術與模組,具體說明如下[14]:
1 準確性(Accuracy)
衡量AI模型輸出結果與真實情況的接近程度。該指標可反映模型是否有效學習資料中的關聯性,並避免過度擬合(僅對訓練資料有效)或低度擬合(模型無法正確反應任何資料)。本項目可導入「審議小組出題與自動化比對機制」,題目範圍由專家參考國際標準及在地需求共同擬定,並透過模組化平台自動化出題與答案比對。測試結果再經由專家審議與統計分析,確保測驗題目的代表性與結果的信度與效度,提供系統化且可追溯的評估。
2 公平性(Fairness)
評估AI系統在處理不同群體或個體時是否存在不當偏見或歧視。例如,模型不應因使用者的種族、性別、年齡、宗教、身心狀況或政治傾向而導致不公正的判斷。本團隊設計歧見偏誤檢測模組,利用涵蓋性別、種族、年齡等多元情境進行測試,檢測模型在不同群體輸出下是否呈現差異化結果,並量測其偏差程度。
3 可靠性(Reliability)
檢視AI模型在面對輸入變異(如噪音、干擾、錯誤格式資料)或非預期場景時,是否仍能維持穩定表現。可靠性強調模型的韌性與穩健性,特別是在部署於現實環境時,是否能有效應對資料變動與邊界情境。本團隊於可靠性驗證部分開發影像可靠性測試模組,能在輸入影像中加入高斯雜訊、遮擋或低解析度處理等干擾,檢測模型在不同情境下的穩健性與一致性。同時,針對語言模型亦設計長短文本對照、錯字與異體字容忍度測試,檢視模型在不同輸入品質下的反應是否保持回覆之一致性。
4 隱私(Privacy)
衡量AI系統在遭遇外部攻擊(如對抗樣本、提示注入、未授權存取)時,是否具備有效防禦與回應能力。本團隊整合Prompt Injection、Jailbreak與對抗樣本檢測模組,能模擬多種紅隊攻擊情境,檢測模型在資安防護上的脆弱性與應對表現。
AI技術加速落地,語言與影像模型的資安與可靠性風險亦日益突顯。透過針對應用特性設計的多面向評測機制,可為模型部署建立可信任的基礎。
AI 模型跨領域評測流程設計
設計跨領域AI評測工具時,需同時兼顧標準化驗測流程與應用場景差異。本團隊依循AI產品與系統評測參考指引(草案)內容建置可重複、可追溯的驗測機制。如圖4所示,題庫設計流程包含評測範圍擬定、試題設計與審議、作答評估與量化分析、建立題庫與組成試題本,最後再經由專家座談取得共識並審定辦法。確保測試題目符合國際標準與在地需求,具備信度、效度與代表性。平台進一步整合紅隊測試模組(如Prompt Injection、對抗樣本)與隱私檢測模組,能在惡意與非惡意干擾情境下驗證模型的可靠性。測試過程中,系統自動完成題目傳送、回應比對與分數計算,並產出標準化報告,確保評測結果的一致性與可追溯性。

圖4 專家審議題庫流程(工研院整理)
如圖5所示,語言AI系統在隱私性測試中,面對含有敏感資訊的提問能正確回應「無法提供」,即通過檢測;影像AI系統則透過題庫題目驗證其分類輸出與正確標籤的一致性。此設計展現了跨領域AI評測工具在標準化、模組化與可擴充性方面的技術內涵。

圖5 語言AI及影像AI系統之評測流程範例(工研院整理)
從模型評測到信任治理
未來AI評測將不僅止於技術驗證,更需納入倫理、法規與治理架構,形成全方位的信任機制。透過評測與治理制度的整合,可強化AI應用的透明性與問責性,推動安全可靠的技術落地。本團隊已建構符合國際標準的可信任AI評測平台,並針對語言與影像模型開發紅隊測試、隱私檢測與自動化題庫模組,展現在國內可信任AI驗測的關鍵角色。未來將持續擴充模組化架構,接軌國際標準,並深化至醫療、金融、交通等高風險應用場域,建立具代表性的國內可信任AI驗測基準,協助產業加速落地。
參考文獻
[1] OECD, OECD Principles on Artificial Intelligence, 2019. [Online]. Available: https://www.oecd.org/en/topics/ai-princi
[2] N National Institute of Standards and Technology (NIST), Artificial Intelligence Risk Management Framework (AI RMF 1.0), 2023. [Online]. Available: https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf
[3] European Commission, EU AI Act. [Online]. Available: https://artificialintelligenceact.eu/ai-act-explore
[4] International Organization for Standardization (ISO), ISO/IEC 42001:2023 Artificial Intelligence — Management system, 2023. [Online]. Available: https://www.iso.org/standard/42001
[5] ISO, ISO/IEC TR 23894:2023 Artificial Intelligence — Guidance on risk management, 2023. [Online]. Available: https://www.iso.org/standard/77304.html
[6] ISO, ISO/IEC TR 24028:2020 Information technology — Artificial intelligence — Overview of trustworthiness in AI, 2020. [Online]. Available: https://www.iso.org/standard/77608.html
[7] U.S. National Institute of Standards and Technology (NIST), “Dioptra AI Evaluation Platform.” [Online]. Available: https://github.com/usnistgov/dioptra
[8] Prism Evaluation, Prism Eval Platform. [Online]. Available: https://platform.prism-eval.ai/
[9] AI Verify Foundation, “Moonshot Data Repository.” [Online]. Available: https://github.com/aiverify-foundation/moonshot-data/tree/main
[10] OWASP Foundation, 2025 Top 10 Risks & Mitigations for LLMs and Gen AI Apps, 2025. [Online]. Available: https://genai.owasp.org/llm-top-10/
[11] Embrace the Red, ChatGPT Operator: Prompt Injection Exploits & Defenses, 2025. [Online]. Available: https://embracethered.com/blog/posts/2025/chatgpt-operator-prompt-injection-exploits/
[12] T. Paniagua, C. Savadikar, and T. Wu, “Adversarial Perturbations Are Formed by Iteratively Learning Linear Combinations of the Right Singular Vectors of the Adversarial Jacobian,” in Proc. 42nd Int. Conf. on Machine Learning (ICML), Vancouver, Canada, Jul. 2025.
[13] V. MCL Lab, “Ordered Top-K Whitebox Targeted Adversarial Attack,” GitHub repository, 2025. [Online]. Available: https://github.com/ivmcl/ordered-topk-attack
[14] Artificial Intelligence Evaluation Center (AIEC), “Establishment Background,” AIEC, [Online]. Available: https://www.aiec.org.tw/AboutUs/EstablishmentBackground