網路輿情監測系統面面觀

趨勢觀點

網路輿情監測系統面面觀

2017-12-27

諾克網科董事長張聖彥

輿情監測（Social listening）系統可掌握消費者動向，是企業經營不可或缺的課題。

社群媒體發達的今天，傳統口碑（word of mouth, WOM）口耳傳遞已逐漸轉化為eWOM。企業的產品或服務營收，與在社群媒體被網友討論與提及（mention）的量與正面情緒數呈正比，企業如何自行建置或選用適合的輿情監測（Social listening）系統，協助企業因時、因地、因事件之不同，蒐集、監測與分析網路輿情，以隨時動態掌握消費者的想法，成為企業經營不可或缺的課題。

資料庫或搜尋引擎？

傳統上企業使用資料庫做為資料分析平台，資料庫在建立、維護與人才的培訓上，已有一套可資運作的標準，相關的資源與分析工具也非常豐富。因此，從便於建置與維運的角度來看，企業是否可以使用資料庫做為輿情分析平台？關於這個問題企業或許可以從以下幾個面向來思考：

資料庫用來處理結構化資料，而網路輿情資料豐富而多元，包含文字、聲音、圖片、影像……等，多為非結構化資料。
資料庫欄位須事先定義，所存資料用以回答、分析已知問題的不同面向，縱使導入多維度分析，所能回答的問題仍有侷限。
以資料庫建置輿情系統，假設可以忽略資料欄的定義問題，仍將面臨非結構化資料轉換為結構化資料的效能，是否能滿足輿情分析即時性的需求？

以搜尋引擎作為網路輿情分析平台有其技術上的優勢，就資料結構而言搜尋引擎支援BigTable概念，BigTable讓用戶可以動態控制資料的分佈和格式，以及儲存位置的相關性，因此，用戶可以不用理會（相對來說是不用事先定義）資料架構（Schema），也不用煩惱資料是文字、聲音還是影像，而能將資料依量體動態部署到數十、數百乃至上千台機器，從而讓大數據（Bigdata）的部署與分析成為可能。

動態性與不可預知性（Dynamitic & Unpredictable）

使用搜尋引擎作為網路輿情分析平台是為了解決輿情的動態性與不可預知性，無法事先定義資料欄位、儲存相關資料來分析它。基於相同的理由，企業面臨的另一個議題是搜尋引擎技術的運用：關鍵字搜尋與概念搜尋技術。關鍵字（Keyword），原指單個媒體在製作使用索引時，所用到的詞彙，是圖書館學中的詞彙，因為 Google搜尋引擎的成功，被依使用者角度視為搜尋到某目標資訊所使用的詞彙；概念搜索技術，則以演算法解析自然語言，會自動描述、學習使用者的概念，再搜尋相關資料。

例如：以關鍵字搜尋技術搜尋「中華民國」，搜尋引擎只會搜尋完全符合「中華民國」四個字的相關資料，而以概念搜尋技術搜尋，則會以演算法解析為「中華」、「民國」與「中華民國」三個概念，再將三個關聯概念資訊全部搜索出來。關鍵字搜尋與概念搜尋技術各有其優缺點：關鍵字搜尋的優點是精確，其缺點是若關鍵字下得不適當，有用的資訊可能被過濾掉，關鍵字搜尋的另一個疑慮是關鍵字是下關鍵字者的主觀認知（Subjective cognition），不一定能切中事實。概念搜尋技術能彌補下關鍵字者主觀認知問題，找到原本不在預期之內的洞察資訊（Insight information），滿足輿情分析之動態性與不可預知性，然其缺點是較關鍵字搜尋相對模糊（Fuzzy）與發散。

關鍵字搜尋技術的另一個問題是在資訊的呈現，切中關鍵字的資訊以「海量」呈現給使用者，使用者再從茫茫大海中撈到所需資訊。應用概念搜尋技術，則可以將資料做分類（Classification）與聚類（Clustering），同時基於上下文的情境（Context）建立關聯，讓使用者能順藤摸瓜，快速找到所需資料。基本上，這個世界上沒有完美的技術，只有依使用者情境的最適化方案。當然，混用各家之長，似乎是一個值得思考的方向。

建立自營運機制

網路輿情監測系統最不可或缺的因子當然是資料，所需資料因企業分析情境不同，需要不同的資料與資料量體來支持分析需求，雖然我們不可能窮盡網際網路上所有資料，惟保持資料之多樣性（Diversity）、乾淨（Cleaning）與豐富（Rich），應該是輿情分析系統的基本功。資料爬蟲（Data Crawler）是用以達成上述需求的工具，其工作原理等同瀏覽器（Browser），透過瀏覽目標網頁的過程，將所需資料下載並儲存至客戶端（Client）。當然，生產環境的資料爬蟲當然不可能只像瀏覽器，至少，它必須像成千上萬個機器人協同操作瀏覽器，這樣才能即時擷取網路上隨時產生的大量資訊，以因應大數據時代的資料作分析需求。
因此，在架構上資料爬蟲應能支援多執行緒（Multithreading）技術，以支援多實例（Multi-instance）、多任務（Multi-task）的平行處理能力：每個運行實例（下圖中各個Instance）作為獨立的流程運行，在爬蟲伺服程式啟動時被依序啟動。爬蟲運行實例有各自的作業資料夾和配置文件，配置包含了若干個任務實例（下圖中各個Task），並根據配置設定不同的排程（Scheduling）和採集規則（Rule）週期性的運行各個任務實例進行資料採集作業。

除了架構上要能提供大數據需求，資料爬蟲尚應具備以下特點：

可以連接網際網路上主流媒體，如新聞、論壇、部落格、電商網站與社群媒體進行資料採集。
能將採集的文章內文和回文、評論做關聯，真正做到分析網路擴散性，而非簡單的關鍵字詞頻。
可以直接和外部工具整合，進行語意、情緒分析，與品牌、地名等實體資料的萃取。
可以將採集到的資料存儲為CSV格式導入到資料倉儲或資料庫中，或將資料存儲為 Json格式直接與各類搜尋引擎整合。
網頁資料擷取工作全部依靠配置，不需要任何嵌入式腳本。
自動實現增量（Incremental）採集，和歷史記錄的更新追蹤，可以只採集更新過的資料，也保證能採集具時間相應性需要追蹤的資料，以避免網路頻寬的浪費。

總之，因應大數據時代的資料分析需求，企業不可能投入大量人力來擷取、處理資料，企業應建立資料自營運機制，資料爬蟲應能像自行運作、偵測與除錯的有機體一樣。

善用網路擴散性，洞悉顧客價值需求

關鍵字詞頻或熱詞，作為一種詞彙現象，反映了一個國家、一個地區在一個時期人們普遍關注的問題和事物，企業藉此瞭解客戶意圖以應用於精準行銷。然而，隨著社群媒體的普及化與社群行銷操作複雜化，消費者的網路行為也愈益複雜。傳統以熱詞詞頻來量測消費者的方式已出現盲點。例如：刻意的行銷操作，可以使用網路機器人，將企業主關注的關鍵字，散佈到數以千計的網路媒體，以獲得大量的熱詞聲量，然而，這只是一個數字，並非消費者真正參與的熱度，更難以轉換為實際銷售數字。

相較於熱詞聲量，企業主更應該關注「議題」的「擴散度」，消費者若有真正參與企業主的行銷操作，行銷操作所主打的中心議題，會如上圖的擴散模型，由關鍵意見領袖（Key Opinion Leader, KOL）先向周遭傳遞，傳遞過程因共同喜好或利益，集結成「社群」而逐漸再向社群外遞延，這種由社群中心強連結向社群外弱連結的傳遞過程稱為網路擴散性，網路擴散會有時間差，藉由觀察傳遞的時間差、傳遞方向、傳遞媒介、意見領袖、社群節點與影響力，企業主將能觀察到什麼樣的行銷議題才能得到消費者的關注、命中客戶價值需求，同時觀察到議題擴散的力度，以設計適當的行銷活動延續商品或服務的擴散力。
企業除了可將輿情分析服務應用於精準行銷與公關預警，還可以應用於競品分析與產業監測，藉由洞悉顧客內心的價值需求，讓客戶想法直接參與企業創新，指引企業研發方向，從而開發符合客戶價值希望的產品或服務，是輿情分析系統最有價值的商務應用情境。