應用虛擬廣告置入技術於棒球賽事

技術探索

應用虛擬廣告置入技術於棒球賽事

2022-04-21

工業技術研究院資訊與通訊研究所 Sanket Yerule 高志忠孫偉程謝鈞惟

運動賽事轉播時，多數廣告都是以實體方式於鏡頭前露出又或者電視轉播頻道另外切換。虛擬廣告則是透過影像處理的技術，將廣告動態插入在預先錄製的電視節目或是直播節目當中，可依需求調整廣告放置的位置以及露出的時間。本運動賽事虛擬廣告服務系統，利用深度學習技術，於球賽特定事件及適當位置置入虛擬廣告，增加球賽廣告之投放彈性，並提升消費者的廣告體驗與品牌主的廣告投遞效益。本文以棒球賽事轉播為例，闡述虛擬廣告服務系統如何彈性設定廣告之投放位置，並依據場景、比賽事件，自動貼合品牌主欲投放的廣告Logo，協助國內運動賽事轉播業者於棒球賽事中導入虛擬廣告技術，並實際用來轉播多場全國棒球賽事。

精彩內容

1. 棒球賽事轉播
2. 虛擬廣告置入技術及系統
3. 系統場域實證

棒球賽事轉播

棒球賽事轉播及生態系

目前國內棒球賽事大致上會有三種轉播樣態。第一種是長期賽季的職業棒球賽事，也就是中華職棒聯盟及其各球團跟電視台的轉播單位，例如緯來體育台、MOMO TV等透過給付轉播權利金，得以讓棒球賽事在大眾面前觀賞，而轉播頻道也透過電視廣告的方式賺取收益。第二種是短期賽事的國際賽，其轉播及權利金形式與職棒賽事相同，但轉播權利金給付對象則為中華民國棒球協會及國際棒球總會，若國際賽事參與球員有包含職棒球員，則中華民國棒球協會與中華職棒聯盟協商相關權利義務。第三種則是學生棒球聯賽。由於職棒球員需要長時間養成，因此國內會舉辦各種大大小小的三級棒賽，讓學生球員得以透過實戰展示訓練成果，並藉相關個人數據透過選秀進入職棒。
由於學生棒球隊的主管單位是教育部，過去的三級棒賽多是透過教育部預算經費補助的方式，由中華民國棒球協會來承辦學生棒球聯賽，如國中棒球聯賽、高中棒球聯賽、大專棒球聯賽等。由於補助經費有限，過去的三級棒賽舉辦較少行銷，也沒有直播服務及穩定觀看群眾，因此難以透過廣告等方式收取權利金。近幾年由於直播服務平台興起，讓三級棒賽不再只是依靠教育部的補助經費，轉播廠商也加入到賽事服務，如圖1，並透過廣告費及權利金形成商業生態系，例如中信盃黑豹旗最高超過5,000人同時觀賞直播。

圖1 棒球賽事轉播生態系

虛擬廣告之挑戰及優勢

運動賽事轉播時，以往多數廣告都是以實體方式於鏡頭前露出又或者電視轉播頻道另外切換，近期雖然部分職棒場地有將設備升級為LCD廣告看板，但受限於場地環境或場記需求，能露出廣告的位置及空間有限，造成廣告價格高昂且廣告設置更換不易。運動賽事廣告行銷會放置廣告於棒球賽事本壘後方主要目的，是希望透過電視或網路轉播時讓受眾觀看並提高曝光時間，而過去並非沒有用數位虛擬貼合方式，因技術門檻高，傳統影像處理技術無法應付賽事長時間運作且貼合效果不佳。本運動賽事虛擬廣告服務系統，運用深度學習技術[1][2][3]克服上述關鍵問題，首先將畫面是哪一種場景辨識完成後，貼合場景對應的廣告於設定的位置，若廣告位置有球員的話，要把屬於球員的相對應像素排除在廣告貼合的像素，以免廣告蓋到球員，另外由於虛擬廣告置入的方式可以是靜態或動態，當偵測到投手投球時可讓廣告暫停移動，避免影響球迷觀賽體驗，讓虛擬廣告的貼合更無違和感、設定更具彈性及降低成本，與智林體育台及甘霖廣告就運動賽事轉播加值應用服務，達成新技術商業門檻使用需求。

虛擬廣告置入技術及系統

本虛擬廣告服務系統分析輸入之影像串流，可依廠商需求在不同場景將虛擬廣告置放至適當位置，下面章節依序說明系統架構以及各元件之相關功能。

系統架構

虛擬廣告服務系統主要包含四個模組，場景分類模組、投手姿態偵測模組、語義分割模組和廣告置入模組，如下圖2所示。

圖2 虛擬廣告服務系統架構

從影音來源端讀取影像畫面幀，進入場景分類模組進行場景辨識。以棒球賽事場景為例，可以分成投打對決場景、攻守交換場景以及其他場景這三種場景。利用預先訓練好的卷積神經網路（Convolutional Neural Network, CNN）模型將影像畫面幀進行分類，將結果輸入決策模組，根據分類結果，做後續是否要置放虛擬廣告的判斷。本系統在投打對決場景以及攻守交換場景進行虛擬廣告的置放。
置放虛擬廣告有一個基本的原則，就是在吸引觀眾目光的同時，不能遮擋到畫面中重要的內容。在棒球賽事中，投手投球是重要的賽事事件，隊伍得分與否主要會從這個事件為一個起始點。因此，偵測投手投球的投手動作偵測模組就扮演重要的角色，投手動作偵測模組利用物件偵測將投手偵測出來，並利用決策樹來判斷投手的動作。
當投手投球動作被偵測出來，再利用語義分割模組進行前後景的分離，產生一個前景的遮罩。最後根據偵測出來可以置放廣告的場景，搭配前景遮罩，將廠商希望置放的廣告無違和感的置入至影像幀中，透過轉播系統將處理過的畫面轉播出去，以達到廣告曝光的目的。

圖3 棒球場景類別，由左至右分別為投打對決、攻守交換以及其他（畫面來源：ELTA Sports官方Youtube頻道）

場景識別

場景識別模組將影像幀分類成投打對決、攻守交換以及其他三種場景，如圖3所示。

圖4 場景識別模組

場景識別模組的功能流程圖如圖4所示，一個批次會取得15張影像幀。這15張影像幀會被重設成960x569的解析度，再輸入至可以分類場景的卷積神經網路中。此卷積神經網路以MobileNetV2[4]為基底，透過遷移學習將此網路訓練出來。此外，同一個批次的15張影像幀也會進行物件偵測，物件偵測的結果用來計算畫面中的球員人數。
最後，根據卷積神經網路的分類結果以及球員人數，利用決策樹產生預測的場景結果，場景識別模組在4部MLB的測試資料集中，達到95％的準確率，如下圖5所示。

圖5 場景辨識模組於4部MLB測試資料集的準確率

投手動作偵測

投手動作偵測模組偵測投手動作的不同階段，例如：站立合掌、跨步、投。如果投打對決場景被場景識別模組偵測出來，投手動作偵測就會被觸發。首先會將投手從被偵測的物件中選出，被選出的投手會從影像幀中截取出來以做後續的人體骨架分析，人體骨架節點則藉助MMPose[5]這套開源的框架來取得。截取出的骨架節點後續會被拿來提取特徵，包含左臂跟右臂的位置、上手臂與軀幹的夾角、頭部的位置等。

圖6 投手動作之定義規則

投手動作的偵測是基於人工定義的規則，相關規則定義如下：
Right stance（RS）：右手、左手以及頭面向身體的右側。
Stride right（SR）：左手在右邊、右手在左邊，右手肘的夾角在160～180度之間。
Right Pitch（RP）：右手在身體的右側，左手低於肩膀。
類似的規則被應用在Left stance（LS）、Stride right（SL）、Left pitch（LP），相關圖示可參考上圖6。投手動作偵測可達98.4％的準確率，整體的處理流程如下圖7所示。

圖7 投手動作偵測模組

前景切割

運動賽事現場的虛擬廣告置入會遭遇許多挑戰，當虛擬廣告置入於實際轉播畫面中，常會發生虛擬廣告將比賽選手遮蔽問題，因此本系統採用了前景切割（Semantic instance segmentation）技術。前景切割技術主要的方法使用YOLACT[6]（You Only Look At Coefficients）模型進行實例分割（Instance Segmentation），YOLACT將實例分割任務分解為兩個較簡單的並行任務，使用一階段（one-stage）偵測模組並添加遮罩（mask）分支，最後再將其組合得到最後需偵測物體之遮罩。於運動賽事中，使用前景切割技術取得比賽選手的遮罩，比較插入之虛擬廣告與比賽選手的遮罩位置是否重疊，若有重疊則將重疊之像素（pixel）用比賽選手位置像素進行替代，進而解決添加虛擬廣告造成觀賞體驗不佳的問題。

系統整合

我們設計了使用者介面UI（User interface）供業者使用，如圖8所示，於系統介面中可以選擇輸入影像來源端的模式（影片或即時串流），也能同時顯示原始影像與添加虛擬廣告後的影像以供使用者觀看其效果。

圖8 使用者介面設定及監看頁面

在實際場域中，各個球場、轉播攝影角度都有些許差異，容易發生虛擬廣告擺放位置錯誤的問題，因此需要能動態調整虛擬廣告的相關資訊，如圖9及圖10所示，系統介面能調整廣告上下左右位置、新增及刪除廣告、廣告滾動速度等，可以根據使用者喜好調整虛擬廣告的位置及特效，設定完選項後可以立即更新畫面，預覽實際輸出串流的廣告效果。

圖9 投打畫面設定介面

圖10 換邊攻防畫面設定介面

系統場域實證

本系統在至少四路以上攝影機之運動賽事轉播畫面即時進行賽事重要與精華事件偵測及加值區域廣告畫面貼合，處理速度達到30fps以上，並完成與甘霖廣告及智林體育台於11月花蓮能高盃（花蓮縣立棒球場）、高雄國中軟式棒球錦標賽（高雄國慶青埔棒球場）及12月高中棒球聯賽鋁棒組（高雄立德棒球場）多場系統實證及技術驗證。

結論

本系統為國內第一套大型場域球賽虛擬廣告服務系統，完成核心功能開發與測試驗證，具備彈性設定軟體功能，能依據不同棒球場之棒球賽事轉播多路攝影機訊號畫面、進行賽事及球員狀態理解任務；此外，整合vMix專業導播平台資訊、API串接整合即時解析攝影機訊號資訊、影像辨識功能及資訊，可穩定於完整賽事中長時間（單天2場，共5小時6分12秒）運作，並以虛擬貼合方式將數位廣告融合於賽事場景畫面中（投打及換邊攻防畫面），於單場賽事中，可於投打對決及攻守交換場景分別插入共47分36秒及43分7秒的廣告，占整場賽事的25％及23％，再結合聲音訊號後輸出串流至直播平台。

參考文獻

[1] Z. Yang, Y. Li; J. Yang, and J. Luo, “Action Recognition With Spatio–Temporal Visual Attention on Skeleton Image Sequences,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 29, no. 8, pp. 2405–2415, 2019.
[2] L. Chen, Chris D. Nugent, “Composite activity recognition,” Human Activity Recognition and Behaviour Analysis, pp. 151–181, 2019.
[3] X. Zhu, Y. Xiong, J. Dai, L. Yuan, and Y. We, “Deep Feature Flow for Video Recognition,” in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2349-2358, 2017.
[4] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “MobileNetV2: Inverted Residuals and Linear Bottlenecks” In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4510-4520, 2018.
[5] Open-mmlab/mmpose: https://github.com/open-mmlab/mmpose/
[6] D. Bolya, C. Zhou, F. Xiao, and Y. J. Lee, “YOLACT: Real-time Instance Segmentation,” in Proc. of IEEE International Conference on Computer Vision (ICCV), pp. 9157-9166, 2019.