工業技術研究院產科國際所 研究總監 陳右怡

「可信任AI」影響範圍涉及人身安全、企業安全、產業安全、社會安全、國家安全等,如何減少風險成本是需要思考的議題。
前言
人工智慧正快速進入各行各業,同時AI技術發展日日皆有驚人的突破與創新,此時我們人類與人工智慧正在共同創造新的科技時代。而面臨人工智慧技術發展的各項議題的多元與蓬勃,AI技術面臨一個無法迴避的最大議題就是AI是否能確保信賴度、可靠度、穩定度等以減少風險成本,真正以產業技術的角色帶來產業貢獻並造福人類。本文試從各角度分析「可信任AI」技術的重點發展趨勢、機會與挑戰,期有助於各界使用、開發或應用各種AI技術。
精彩內容
1.AI治理與可信任AI之國際趨勢 2.可信任AI技術發展重點方向 3.可信任AI技術持續面臨的挑戰 4.可信任AI產業創新與新創機會 5.對產業及技術發展之策略性建議 |
AI治理與可信任AI之國際趨勢:AI Security與AI Safety並進
人工智慧的發展已到無法預測的時間,甚至奇點將提早來臨。然而現今在AI技術多元創新及應用擴散下,近三年(2022-2025)世界各國也開始逐漸正視AI信賴度、可靠度、穩定度等問題,特別是2025年初AI大模型陸續運用開源的方式來建立技術生態系並藉此訊息獲得使用者回饋,更讓人人皆可開發、使用或應用等,2025年反映出AI真正進入普及化的時代來臨了!因此從2018年由美國DARPA(Defense Advanced Research Projects Agency)提出AI黑盒子可能帶來的問題進而提出可解釋AI(eXplainable AI)、接著IBM、Microsoft、歐盟等提出負責任AI(Responsible AI),可信任AI(Trustworthy AI)等類似議題,甚至成為人工智慧治理(AI Governance)主要環節。而可信任AI面向廣泛涵蓋技術面、管理面、運作面、社會面等,故本文以可信任AI 為題,進行探討與分析。
根據長期觀察,各國政府及國際組織等也持續因應人工智慧技術所帶來的正面創新與負面衝擊下,仍嘗試取得AI創新與風險管理的平衡,因此尚未看到有完整且能落實到產業之中的AI治理框架出爐,這本來就不容易。值得注意的是,AI治理與可信任AI兩者最基本的共同目標是要能達到AI Security與AI Safety,這兩個名詞常被混用,簡單解釋兩者差異在於AI Security是以AI資安為主、AI Safety則是因為AI技術或模型本身所帶來安全性問題,由於人工智慧技術日新月異,所帶來的問題也層出不窮,這兩年各國開始設置AI Security Institute(簡稱AISI),以及也開始從AI技術或模型本身問題發展出AI評測工具或平台、開源LLM評測工具、演算法影響評估、通用AI準則等,而台灣則先於其他國家於2023年成立AI產品與系統評測中心(Artificial Intelligence Evaluation Center,AIEC),如圖1所示。

圖1 重要國家成立AI安全機構及發展AI技術評測現況(資料來源:網路公開資料;工研院產科國際所整理)
人工智慧技術發展關鍵是數據、算法、算力,其中數據是人工智慧的基本盤,因此AI Security與AI Safety的問題交集是資料。從IBM研究調查分析中發現一國AI檢測和升級成本高低與其資料外洩成本高低成正比,換句話說,一國在AI Security與AI Safety支出較多、監管罰款較高、AI檢測和升級成本較低等條件下,AI資料外洩狀況減少。比較2024-2025年為例,以國家來說,2025年美國平均AI資料外洩成本達到創紀錄的1,022萬美元,全球居冠,同時較2024年同期增加9%,部分原因是監管罰款及檢測和升級成本的增加。以產業類型而言,以醫療保健產業為全球資料外洩成本最高的產業類型,連續四年為各行業之首。通常攻擊者瞄準醫療保健行業的重點在於患者個人識別資訊(Personally Identifiable Information,PII),這些資訊可能用於身分仿冒、詐欺、金融犯罪等。如圖2所示。

圖2 全球各產業AI資料外洩成本現況分布(資料來源:IBM;工研院產科國際所整理)
除了資料外洩問題之外,導入AI模型或應用所帶來的問題也日趨普遍,例如:營運中斷(31%)、影響供應鏈(30%)、資料完整性喪失(29%)、模型反演(Model Inversion)、模型規避(Model Evasion)等,追溯這些問題的來源多半是來自第三方提供AIaaS(AI-as-a-Service)的解決方案占29%,以及使用內部及開源模型占29%,如圖3所示。此反映出發展一般企業是需要的AI評測工具或系統來確保其所使用的AI模型與應用之安全性與可靠度。

圖3 AI模型與應用問題現況(資料來源:IBM;工研院產科國際所整理)
可信任AI技術發展重點方向:從AI技術風險、新興風險、技術生命週期出發
承上述,各國政府與產業已意識AI風險需要能展開具體因應之道,同時在AI各種潛在風險擴張與未知下,AI技術發展也呈現多元路徑,以下提出三個可信任AI技術可切入發展的方向:
(一) 切入目前AI技術風險來改善AI或優化AI
如從基礎模型(Foundation Models)、多模態模型(Multimodal AI)、世界模型(World Models)、行為模型(Behavior Model)、視覺模型(Visual Foundation Model),從強化學習(Reinforcement Learning)、自監督學習(Self-Supervised Learning)、聯邦學習(Federated learning)等,也持續在不同產業領域中持續衍生AI新模型與新技術突破,同時,這些AI模型依然也承襲了AI模型的技術型風險、社會型風險、訓練數據風險、供應鏈風險、基礎設施風險等。如圖4所示。
如何從技術角度來改善AI或優化AI,進而發展可信任AI技術或新興AI技術。在AI技術創新的同時,從資料、模型、人機互動與協作等層面皆需考量系統性風險管理機制,以便建立可解釋、可控性、可追溯、可驗證、並符合倫理(Ethically-Aligned)的AI技術解決方案。

圖4 AI風險主要類型列表(資料來源:IBM、Cisco、MIT、工研院產科國際所)
(二) 挖掘AI新興風險來開發可信任AI技術
AI的自主性或半自主性的設計,在無人機、機器人、交通運輸、水電瓦斯石油等關鍵基礎設施與公共安全等領域上,可以帶來高效率、高便利的同時,但也伴隨高風險。例如(1)AI在無人機中能用於目標識別、自主導航、地形探勘等,但若遭受對抗性攻擊或數據中毒等,都可能導致更嚴重的公共安全與損害;(2)AI在自駕車、物流機器人,一旦即時感測能力延宕或失效、演算法越獄等,都可能造成交通事故或癱瘓、甚至大規模公共安全事件等,引發大眾對AI系統可靠性的質疑;(3)在水、電、瓦斯、石油等能源基礎設施方面,AI被用於預測維修、電網調度、耗能優化與緊急應變,但系統一旦被駭客入侵或模型預測錯誤,可能導致供電失衡、瓦斯外洩、甚至重大災害。
在這些領域中,AI不只是輔助工具,而是具備有部分自主決策的角色,任何模型的偏差、不透明性或演算法偏誤,都可能引發災難性後果。
(三) 從AI技術生命週期出發,發展各種Xops
AI帶來前所未有的效率與自動化能力,從AI技術或產品生命週期」出發來建構從資料收集、模型訓練、部署、運行、監控、升級等,每個階段皆可能潛藏風險,因此從DevOps精神出發,強調AI系統在不同階段導入可持續、可控且可驗證的管理流程或架構,分別說明:(1)DataOps:聚焦於資料前處理、資料品質驗證與資料流管理,確保AI模型輸入資料的準確性與代表性;(2)MLOps:強調機器學習模型在開發到部署的自動化流程、版本控制與效能監控;(3)ModelOps:強化模型部署後的治理,包括模型更新頻率、偏誤偵測、回溯重新訓練與模型生命週期管理,對於維持AI應用一致性與合規性至關重要;(4)SecOps:納入AI倫理與資安考量,分別關注模型在公平性、透明性、可解釋性方面的驗證流程,並防範模型被惡意操控、竊取或植入對抗樣本;(5)AIOps:除了槓桿所有AI開發與營運之外,近年也納入如LLM模型所帶來的問題如幻覺、假資料等,因此也會關注AI在部署、審查、內容過濾與輸出追蹤上的問題。如圖5所示。
這種從AI技術生命週期出發的模組化、可操作化的XOps方式,不僅提升AI系統效能與準確度,更能減少系統性風險。

圖5 從AI生命週期出發的XOps範圍(資料來源:工研院產科國際所)
可信任AI技術持續面臨的挑戰
人工智慧技術發展日日皆有驚人的突破與創新,並快速進入各行各業,也創造出各式各樣的風險。因此,麻省理工學院(Massachusetts Institute of Technology,MIT)於2024年建立「AI風險資料庫」,根據本研究分析從2024年8月至2025年8月,同期成長106%目前累積有1600個AI風險項目數。同時AI風險來自於AI系統本身占41%、因人類操作而導致占39%,AI風險多發生在AI部署之後占62%,如圖6所示。
根據MIT風險資料庫目前將AI潛在風險分為七大領域1 ,同時下展多個次領域 :(1)歧視與有害內容(Discrimination & Toxicity)方面,AI可能造成不公平的歧視與錯誤呈現、提供給使用者有害或具攻擊性的內容等;(2)在隱私與安(Privacy & Security)風險,包括透過獲取、洩露或推斷敏感資訊而損害隱私,以及AI系統的安全漏洞及遭受資安攻擊等;(3)在錯誤資訊(Misinformation)方面,AI可能生成或擴散虛假或誤導性內容、污染各種資訊生態體系,導致資料流失;(4)針對惡意行為者與濫用(Malicious actors & Misuse),風險包括大規模散布虛假訊息、監控與影響行動、發動網路攻擊、造成社會或國家安全危害,以及詐騙、操縱、侵害等;(5)人機互動(Human-Computer Interaction)領域,AI可能引發使用者過度依賴與不安全使用,並削弱人類自主性與決策權;(6)社會經濟與環境損害(Socioeconomic & Environmental Harms),風險涵蓋權力集中與利益分配不公、加劇不平等與降低就業品質、貶低人類努力的經濟與文化價值、市場競爭失衡、治理失敗及對環境造成傷害;(7)AI系統安全、失效與限制(AI system safety,failures,and limitations)方面,包括AI追求與人類價值目標的衝突、具備危險能力、能力不足或缺乏韌性、透明性與可解釋性不足、AI自身的福祉與權利議題以及與多代理人(Multi-Agent)互動所帶來的風險。

圖6 AI技術發展風險現況與成因(資料來源:MIT;工研院產科國際所整理)
1 資料參考來源:https://airisk.mit.edu/
人形機器人與各類型AI代理人
AI仍然全球創投的超級亮點,2025年第二季度,全球AI新創共獲得1,403筆融資,融資金額達473億美元。2025年融資總額(1,161億美元)已超過2024年全年總額(1,057億美元),如圖7所示。

圖7 全球AI新創融資金額與交易件數(資料來源:CB Insight、工研院產科國際所)
根據CB Insight調查分析,AI新創持續引領整個產業成長,代表性AI新創包括Scale(人工智慧訓練資料提供者)、xAI(模型開發商)和Thinking Machines Lab(模型開發商)完成2025年第二季數輪規模最大的融資。其他值得關注的融資案例如國防科技新創公司Anduril(25億美元)和Helsing(6.93億美元),地緣政治緊張局勢也引發大眾對此領域的興趣。
目前創投最關注的AI應用產業領域是工業人形機器人、自動編寫程式AI代理人、企業流程自動化AI代理人、AI代理人開發平台、AI無人機、建築工程AI代理人、法律AI代理人等。
對產業及技術發展之策略性建議
根據近年觀察,因為全球人工智慧技術發展多變且跨領域,外加國際政經情勢變動、國家衝突、社會利害、產業角力等,也導致人工智慧產業供應鏈隨之變化。「可信任AI」影響範圍涉及人身安全、企業安全、產業安全、社會安全、國家安全等,AI風險問題將更為複雜。
雖然目前AI發展方向與風險難以預測,全球也尚未有統一且明確的AI治理框架。但本文建議「以人為本」仍是AI技術發展的中心主軸,而機器人、無人機、自駕車、AI代理人等是全球產學研正在規劃致力投入的AI重點方向,因此需要重新思考如何做到「以人為中心」的AI人機協作機制,需遵守以Human-in-the-Loop及Human-Over-the-Loop來發展「可信任AI」技術。故特別分別說明:(1)Human-in-the-Loop中的AI角色是輔助人類決策。人類積極介入並監督AI,保留對AI完全的控制權,AI只需提供建議,AI不會主動去擔任決策者;(2)Human-Over-the-Loop:人類可調整AI執行決策。允許人類在AI執行演算法等任務時,也能調整參數等。因此,本文歸納出「可信任AI」四個發展策略途徑,以提供給有興趣投入者參考如下:(1)理解AI:理解決策型AI系統、生成式AI、基礎模型、開源模型、通用型AI等各種AI是如何運作、學習、決策和進化,並能掌握各種不同AI系統的因果關係及所有參與者的責任歸屬;(2)維護AI:發展各種AI系統、平台、模型等都要能做到可預測性、可重複性,同時能追溯訓練AI的數據其假設盲點及AI模型在某些條件下會失效或失敗,以採取適當的AI系統措施;(3)穩定AI:倘若AI發展任何問題或危害時,能夠適當採取糾正或調整措施,甚至能妥善關閉AI系統,並能辨識有危害AI系統或影響安全之不良設計、駭客攻擊、侵犯隱私等來源與問題;(4)優化AI:能找出AI模型或演算法中的缺陷與訓練數據中的偏差或偏誤等,進而能驗證AI可預測、改進模型、優化決策過程、從中獲得新 見解等。

圖8 以人機協作為基礎的可信任AI技術(資料來源:A Proposed Model AI Governance Framework,PDPC,Singapore、pwc、DAPRA;工研院產科國際所)