前言
在現今數位化與雲端化高度發展的企業環境中,資訊安全已成為企業營運不可或缺的一環。面對日益複雜的資安威脅,如勒索軟體、內部資料外洩、進階持續性威脅(Advanced Persistent Threat,APT)攻擊等,傳統的資安防護措施已難以全面應對。尤其在終端設備數量激增、遠端工作模式普及的趨勢下,端點設備不僅成為員工存取企業資源的主要入口,也成為駭客滲透企業網路的首要目標;然而,這些端點所留下的日誌資料,反過來也能成為追蹤可疑行為與潛在威脅的關鍵線索。由於端點日誌所產生的資料量龐大且格式多樣,傳統靠人工或簡單規則分析的方式不僅耗時、成本高,更難及時辨識出異常行為或隱匿的攻擊手法。因此,引入AI端點日誌異常分析與威脅偵測技術,已成為現代企業強化資安偵測能力的重要手段,透過人工智慧與機器學習模型,企業可以針對自有端點日誌特性進行客製化訓練,自動識別潛在威脅行為,例如異常權限存取、可疑檔案操作及未知程式執行等。AI端點日誌異常分析與威脅偵測技術能協助企業挖掘潛藏之可疑程序,或威脅活動以縮短攻擊的之潛伏期與應變時間。
精彩內容
1.端點日誌分析的特性與挑戰 2. AI端點日誌異常分析與威脅偵測模型簡介 3.宏觀 vs 微觀分析策略 |
端點日誌分析的特性與挑戰
在現代的工作環境中,端點設備如筆記型電腦、桌機、行動裝置、伺服器等,是企業網路架構中最貼近使用者行為的部分,也是最容易成為攻擊者入侵的起點。因此,從端點設備所蒐集到的日誌(Log)資料,是監控資安風險、進行事件鑑識與威脅獵捕的重要依據。所謂的「端點日誌分析」,即是透過對這些日誌進行彙整、解析、建模與關聯比對,來辨識異常活動或可疑行為。儘管運用相關人工智慧與機器學習之分析技術已逐漸成熟[1],但在實際部署與運作過程中,仍面臨諸多挑戰,以下將分別說明端點日誌分析的特性與挑戰。
1 資料量大且分散
端點設備數量眾多,每台設備每天可能產生數十萬筆甚至上百萬筆日誌資料,包含檔案存取紀錄、程序啟動資訊、網路連線狀態、帳號行為等。這些資料分散於不同作業系統與應用環境中,格式不一、結構不一,需經過彙整與標準化處理後才能有效進行分析。
2 高度關聯性分析
單一日誌事件可能無法展現異常徵兆,需透過跨時間、跨設備的資料關聯,例如:一台筆電於非上班時間遠端登入、短時間內存取大量機敏檔案,並將資料上傳至外部雲端空間,這些行為若能串連起來分析,才能有效識別潛在風險。
3 可訓練與適應性
透過機器學習模型來分析端點日誌,可以針對企業環境客製訓練,學習正常行為模式,並針對偏離該模式的活動提出預警。這類模型具備自我調整與強化學習的能力,可隨環境變化自動適應。
1 資料品質與一致性問題
不同設備與作業系統產出的日誌格式、時間戳記標準、欄位定義皆不同,導致彙整過程複雜。若未妥善處理資料清洗與轉換,將降低後續分析模型的準確性。
2 雜訊與誤報率高
端點日誌包含大量無害但「不尋常」的行為,例如工程師在維護系統時可能大量操作檔案或關閉防毒程式,這些行為容易被誤判為攻擊。如何降低誤報率並聚焦真正高風險事件,是技術應用的核心難題。
3 演算法與模型選擇
不同場景適用的分析方法各異,無法一體適用。選擇不當的模型可能導致過度擬合、低偵測率或過度依賴特定樣態資料。此外,建構可解釋性高的模型亦是重要挑戰,特別是在資安事件鑑識上,需能說明「為何判斷為異常」。
4 資安與隱私平衡
端點日誌中可能包含使用者行為、資料操作紀錄等敏感資訊,分析過程中如何確保資料隱私、符合法規(如個資法)規範,同時不犧牲偵測效果,是企業導入該技術必須考量的議題。
5 跨部門整合與資源投入
成功的端點日誌分析不僅是技術問題,更需跨部門協作,例如資安團隊、IT運維、法遵部門等,必須共同定義風險場景、調整回應流程,並投資於基礎建設(如資安監控中心)與專業人力,才能長期維運。
綜合以上所述,使用AI技術針對端點日誌進行分析雖具備挖掘未知異常的潛力,但實務運用上亦面臨相當的技術門檻。隨著AI與自動化技術成熟,透過客製化模型輔助企業深入理解端點行為,已逐漸成為防禦新常態。然而,若未正視其資料、模型、流程上的挑戰,仍可能導致錯誤判斷或資源浪費。因此,建構穩健、靈活且具延展性的分析架構,是企業導入此技術的關鍵成功因素。
AI 端點日誌異常分析與威脅偵測模型簡介
為協助企業導入端點日誌分析防護機制,並有效降低其技術門檻,本院研發出一套「AI端點日誌異常分析與威脅偵測模型」,此模型可依照企業實際需求,客製化端點日誌的資料處理與分析流程,並無縫整合企業日常資安維運作業,達成資安防護能力的無痛升級。「AI端點日誌異常分析與威脅偵測模型」的整體分析流程共劃分為「資料前處理」、「特徵向量化」、「分群演算法」及「資料後處理」等四個階段,詳見圖1所示。

圖1 AI 端點日誌異常分析與威脅偵測模型分析流程
資料前處理是進行端點日誌分析的第一步,主要目的是將原始、異質性高的日誌資料轉換為可供後續分析使用的結構化格式。此階段包含多項處理步驟,首先是資料彙整與清洗,將來自不同端點設備、作業系統或應用程式的日誌資料進行收集,並剔除重複、不完整或無意義的紀錄。由於日誌資料量往往極為龐大,為了降低系統負擔與提升分析效能,可針對相同類型或重複內容的日誌進行取樣,以保留具代表性的資料集,兼顧分析精度與效能。若有隱私洩露的疑慮,亦可在此階段針對直接識別欄位(如帳號、姓名)進行去識別化(如以雜湊值取代)以確保資料隱私之安全。接著進行欄位標準化與格式轉換,統一各類日誌的欄位名稱、時間格式、編碼方式等,確保資料的一致性與可比性。為了讓後續的模型識別欄位重要性,可依日誌特性於各欄位加上如:父行程(parent_)、本行程(process_)及參數(arg_)等修飾詞以強化語意,此外,針對日誌中某些以BASE64編碼之指令參數,亦提供自動化偵測與解碼功能,避免惡意行為透過編碼方式躲過偵測,BASE64偵測與解碼之示意圖詳見圖2。

圖2 自動偵測BASE64編碼之指令參數並進行解碼
透過完整且嚴謹的資料前處理,可解決資料品質與一致性問題並確保資安與隱私的平衡等兩項端點日誌分析所面臨的挑戰,大幅提升後續模型訓練與異常偵測的準確性與效能。
在完成資料前處理後,需進一步將文字型的端點日誌欄位(如程序名稱、命令列參數、檔案路徑等)轉換為機器學習可用的向量形式。可選用的向量化技術包括TF-IDF、Word2Vec及BERT,各具特色,可依分析需求選擇應用。
TF-IDF(Term Frequency-Inverse Document Frequency)是一種統計型方法,適合處理較短或結構明確的欄位,如程序之名稱與路徑。它能凸顯在單一紀錄中出現頻繁、但在整體資料中較罕見的關鍵詞,提升對異常關鍵字的辨識能力。
Word2Vec則透過語意上下文學習詞彙間的關聯,將每個詞轉為固定維度的向量,適用於需捕捉詞彙間語意關係的情境,例如父程序與子程序之間的關聯行為。其訓練模型可使用企業自有的歷史日誌資料,以反映特定環境語境。
BERT(Bidirectional Encoder Representations from Transformers)[2][3]屬於深度語言模型,具備更強的語意理解能力,適合處理語句較長或結構複雜的文字欄位,如指令加上完整的參數。BERT向量化可捕捉詞序與上下文意涵,雖運算資源需求較高,但能提供更細緻的語意表示,有助於辨識隱匿的異常行為。
在實作上,企業應考量資料特性(如欄位長度與結構複雜度)、分析目標(偏重效率或語意深度)、以及可用計算資源來考量選擇合適的向量化技術。對於結構簡單且需要高效能的場景,TF-IDF具有優勢;若需捕捉行為間的潛在語意關聯(如父程序與子程序之間的關聯行為),則選用Word2Vec更為適合;而若能提供較高的運算資源且需要細緻語意理解的關鍵安全情境下(如父程序與子程序之間的關聯行為加上完指令參數),則建議採用BERT,以取得更準確的判斷結果。
完成向量化後的日誌特徵,可進一步應用分群(Clustering)技術來進行分類與異常偵測,藉此找出潛藏的可疑行為模式。常見的分群方法包括K-Means、DBSCAN及HDBSCAN,各自適用於不同的資料特性與分析情境。
K-Means是一種基於距離的分群方法,適合處理群集邊界清晰且群數可預估的資料集。在端點日誌分析中,可用來將日誌行為分為多個常見操作群組,再將偏離這些群中心的資料視為潛在異常。不過,K-Means對離群值較敏感,且須事先設定群數(K值),對動態且複雜的端點行為模式而言可能受限。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基於密度的分群演算法,能有效辨識任意形狀的群組並自動濾除噪音資料。在應用上,DBSCAN特別適合偵測不符合主流行為密度的日誌事件,如稀有操作或不尋常的連線模式,無須預先指定群數。但其效能在高維資料下可能下降,且對距離參數較敏感。
HDBSCAN(Hierarchical DBSCAN)則為DBSCAN的進階版,結合階層式分群與密度評估,能更穩健處理密度變異大的資料分布。HDBSCAN可自動選擇最適群數,並提供每筆資料的異常機率評分(outlier score),有助於資安人員進一步排序與關注高風險事件,是進行端點日誌異常偵測的理想選擇。
實務運作時,將預設使用HDBSCAN針對向量化之日誌特徵進行分群,並將無法分群的離散向量或是Base64解碼失敗的日誌標示為異常日誌。同時,亦提供K-Means與DBSCAN等兩種分群演算法進行輔助分析與比對。
為了降低AI模型在端點日誌分析中產生的誤報率,本模型特別設計「誤判排除」機制。使用者可依據企業實務經驗與既有作業行為,彙整常見的誤判樣態,並以規則或樣式比對的方式加入排除清單中。此排除清單能在模型判定異常前即過濾掉屬於正常作業流程的特殊行為,避免將合法操作誤認為異常事件,進而提升預警的準確度與實用性,同時降低資安人員的誤報負擔。
宏觀 vs 微觀分析策略
在AI端點日誌異常分析與威脅偵測模型中,提供宏觀與微觀兩種分析策略,可提升偵測效果與事件回應效率。透過宏觀層級的場域分析,可先從整體端點環境出發,觀察系統異常分布、群組異動趨勢、行為密度變化等全域指標,迅速掌握潛在威脅的發生之區域或異常時間點。例如,藉由宏觀分析發現某部門的端點設備在凌晨時段會執行一些全域環境中非常規作業的程式或指令,有疑似異常之行為,便能鎖定該範圍進行進一步檢視。接著,再進一步執行微觀層級的主機分析,針對特定主機進行個案追蹤,觀察其多日間的行為變化。如同一台主機持續在非上班時段執行未登錄的程式並外連不明伺服器,即可快速判定為高風險個案。這種由「廣度優先」再「深度鑽研」的策略,不僅能避免過度聚焦單一點而錯失全貌,也有助於在異常事件發生初期即定位可疑主機,迅速展開鑑識與應處作業,大幅提升資安事件的偵測精度與處理效率。宏觀場域vs微觀主機之分析目標詳見圖3。

圖3 宏觀場域 vs 微觀主機之分析目標
1 降低雜訊與誤報率
宏觀場域分析可先觀察整體端點環境的異常分布,將高頻但無害的「背景雜訊」過濾掉,避免單純因為少數不尋常行為就觸發警報。接著再透過微觀主機分析,深入檢視特定主機或帳號的行為脈絡,確認異常是否真正具備攻擊特徵。這種層層篩檢的方式,有助於降低誤報率,讓資安團隊聚焦於真正高風險的事件。
2 改善演算法與模型選擇困境
不同演算法適合不同粒度的分析。宏觀分析可用於群體趨勢與行為密度檢測,適合較高層級的統計模型;而微觀分析則可搭配語意向量化與異常分群模型,針對特定主機的細節進行深度挖掘。透過宏觀與微觀交互運用,可以同時發揮不同模型的優勢,避免過度依賴單一分析方法。
3 支援跨部門合作與資源配置
宏觀分析提供決策者全局視角,幫助法遵與管理部門了解威脅的範圍與影響層級;微觀分析則為技術人員提供具體案例,協助快速鑑識與回應。這樣的分層資訊不僅讓跨部門能在各自所需的層面獲取資訊,也提升整體協作效率。
結論
在面對現今複雜且不斷演進的資安威脅環境下,企業若僅依賴傳統規則式防護機制,往往難以及時察覺潛藏於端點設備中的可疑行為。為解決這個問題,本院所研發的「AI端點日誌異常分析與威脅偵測模型」,透過系統化的四階段流程,從資料前處理、特徵向量化、分群演算法及誤判排除與報表輸出,協助企業建立一套依自身需求客製化的偵測機制,並可應用於「資安威脅偵測」、「系統異常監控」、「行為合規稽核」及「事件追溯鑑識」等四個面向。此外,搭配宏觀場域分析與微觀主機追蹤的雙層策略,更能兼顧全局掌握與深入調查,實現有效的威脅溯源與即時應處的效能。透過「AI端點日誌異常分析與威脅偵測模型」,企業能「無縫整合現有架構」,在無須大幅改動既有系統與資安防護架構的前提下,導入智慧化的分析技術,實現「無痛升級」的資安治理目標,並為未來資安風險防禦奠定更精準且智慧化的基礎。
參考文獻
[1] S. Ali, C. Boufaied, D. Bianculli, P. Branco, and L. C. Briand, “A Comprehensive Study of Machine Learning Techniques for Log Based Anomaly Detection,” Empirical Software Engineering, vol. 30(5), article 129, 2025
[2] H. Guo, S. Yuan, and X. Wu, "LogBERT: Log Anomaly Detection via BERT, " in Proc. 2021 International Joint Conference on Neural Networks (IJCNN), 2021.
[3] T. Wolf et al., "Transformers: State-of-the-Art Natural Language Processing," in Proc. 2020 Conf. on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP 2020), Online, 2020, pp. 38–45.