智慧貨架與影像結帳技術之發展現況及挑戰

技術探索

智慧貨架與影像結帳技術之發展現況及挑戰

2019-07-02

工研院資通所蕭柏宣連俊宏林昶宏

從Amazon Go於2018年正式對外營運以來，無人商店一直都是十分熱門的議題，包含無人超市、無人貨架、自助結帳系統，就連傳統的自動販賣機也新增了聯網與行動支付的功能，各種無人零售模式在市場上紛紛出現。然而隨著Amazon Go擴店放緩，中國無人貨架業者相繼退出市場，自動販賣機的成本仍然偏高，顯示目前的商業模式與技術成熟度仍不足以達成獲利目標。本文將從智慧貨架的發展現況與結帳技術的比較中探討目前所面臨的挑戰，並提出可行的解決方案。

精彩內容

1. 智慧零售發展浪潮的中最後一哩路－智慧貨架
2. 不同於販賣機的購物體驗
3. 電腦視覺智慧結帳技術
4. 智慧貨架新主流電腦視覺結帳技術

智慧零售發展浪潮的最後一哩路－智慧貨架

近年來，大型電商和科技公司在「智慧零售」或「新零售」領域不斷發展，打造出創新技術及其對應的商業營運模式，如2018年初上線的「Amazon Go無人商店」與2017年阿里巴巴於杭州所推出的「淘咖啡示範店」等，引領眾多公司投入研發零售產業之創新技術或創新營運模式。其中智慧無人貨架便是在這波智慧零售推演歷程的最後一項重要技術，讓眾多公司也紛紛投入發展。因智慧貨架具備低成本、佈建快速與客製化結帳系統之輕量化特色，可設置於目前實體店舖或販賣機無法深入的各類封閉或半封閉場域，如辦公室、封閉式廠區、社區大樓等。若以零售通路之規模與型態來描述智慧貨架，則如同人體微血管般能夠細微且全面觸及消費者的生活場域，亦是智慧零售發展當中至關重要的最後一哩路。

圖1 Bodegas 智慧貨架[1]

以智慧貨架的應用來說，美國及中國市場最為熱門，如由Google員工於2016年所創立的美國新創公司Bodegas（2018年改名為Stockwell），便以「即時獲取日常必需品」（Everyday Essentials, Instantly）的智慧貨架設計為發展主軸，體驗簡便快速的購物流程。智慧貨架在中國的辦公室場域發展更熱絡，2016～2017年達到高峰，發展出便利蜂、每日優鮮、果小美…等眾多大型基金所投資的貨架品牌，其應用技術從單純使用者自主掃碼，衍生至混合感測器以及後期的AI辨識技術。

智能貨架於中國發展至今，大多數品牌已逐漸從市場上消逝，其主因乃經營模式大多以B2VC（Venture Capital）為主，策略上多半以大量資本及高額補貼方式搶佔市場，以貨架點位數量提高公司估值以創造投資價值，但物損控制及購物體驗皆無法滿足市場需求，乃至於形成市場進入門檻低、競爭激烈之現象。隨著貨架上線後營收數字及高物損狀況無法發展長期穩定的獲利模式，大多廠商便逐漸退出市場，少數具備技術能量之貨架廠商也漸漸將RFID、重量感測及影像辨識等AI技術導入至貨架購物流程中。

不同於販賣機的購物體驗

同樣是輕量化且能深入封閉或半封閉場域的通路型態，販賣機經常被拿來與智慧貨架相提並論。以販賣機作為末端通路之優勢在於在其高保全性之實體框架，可大幅減少商品耗損，但造價成本較貨架高為其缺點，且使用者在購買前無法接觸商品，僅能透過透明隔板挑選商品；相反的，具備AI辨識功能之智慧貨架可以開架方式陳列商品，讓使用者在購買商品前觸碰、挑選商品，體驗如在實體門市的購物經驗，同時因智慧貨架不需販賣機大型金屬箱體、商品配送動件及投幣設備，使之造價僅需販賣機的1/4～1/5價格，且具備簡易維修保養的低成本特點，更有助於智慧貨架比販賣機能再接近消費者場域。就像販賣機大多放置於大樓或廠區較為空曠之公共區域，而輕量化的貨架則可再深入至辦公室、封閉廠區或社區中。

目前較為先進之智慧貨架技術大多以混合式感測或單純視覺辨識為主，其主要目的為即時判斷消費者拿取貨架上何種商品。混合式感測（Sensor Fusion）一般多為重量感測、深度影像（Depth）及影像辨識之整合，其優點在於大多數情況下辨識率較純影像辨識為高，但感測信心度不足時，如何整合不同感測器訊息並運算出正確之商品辨識結果就成為其技術難度。而單純視覺辨識方案，只需運用單純攝影機取得貨架檯面影像，透過AI運算即可得知消費者拿取商品訊息，與混合式感測相比，減少了大量感測器成本，運算效率也較高，但較容易受商品排列間隔所產生的遮蔽問題而影響辨識率。

電腦視覺智慧結帳技術

近年來，裨益於深度學習技術的發展，影像物件識別的準確率大幅地提升，透過各種深度學習的框架，如Google的TensorFlow，或是Facebook的Pytorch，初學者可以透過幾行程式碼完成一個辨識率90%的辨識模型。然而在結帳應用中，辨識率至少要達到99.9%，仍有許多問題需要被克服，例如，當商品被緊湊排列時，商品整體外觀可能被遮蔽，導致物件偵測、辨識困難，本論文提出商品排列影像合成以及局部特徵辨識兩種方法來解決遮蔽問題。為了要達到較佳的辨識率，我們透過多攝影機拍攝平台同時拍攝商品的多個視角影像。商品影像形變合成方法可以用於模擬非剛性包裝形變的狀況。此外，與一般販賣機相比，AI結帳多了許多額外的步驟，本文也提出一套對應的商品上架流程來實現，我們在接下來的子章節將個別詳述每項子技術。

1. 商品排列影像合成提升商品辨識精確度

零售業的多、快、好、省四大準則中，商品種類與數量是最為重要的，然而當商品緊湊擺放時，攝影機所呈現的畫面，商品通常是相連、甚至部分遮蔽的情形，難以用傳統的影像切割（Image Segmentation）方法如尋找梯度、灰階門檻值，將商品從背景中分離出。我們利用深度學習的物件偵測（Object Detection），Faster R-CNN[6]作為商品整體特徵辨識的方法。Faster R-CNN由Shaoqing Ren等人提出，從卷積神經網路（Convolutional Neural Network）的特徵圖（Feature Map）提出感興趣區域（Region Proposals），在RPN （Region Proposal Network）得到一些最有可能的區域，對其進行分類並找到精確的座標。在建立Faster R-CNN的訓練資料過程中，需人工一張張的標註其座標位置及分類，相當費工。為節省人力，利用影像處理達到圖片合成的效果，模擬出商品的相連擺放、遮蔽、旋轉及明暗度改變。

圖2 商品合成圖

2.局部特徵辨識技術

除了上述的物件偵測方法外，我們針對商品部分遮蔽下的辨識進一步提出局部特徵辨識的方法。局部商品特徵辨識分成特徵擷取模型訓練方法、關鍵點提取以及特徵比對等步驟。特徵與關鍵點提取概念如圖3，將攝影機所擷取下來的畫面利用全卷積網路（Fully Convolutional Network, FCN）進行特徵圖提取，而特徵圖的尺度會由大至小，以擷取商品尺度不同的特徵。導入快速關鍵點提取的技術（Binary Robust Invariant Scalable Keypoints, BRISK）[4]，希望藉此找出特徵位置，最後利用這些特徵與資料庫進行比對。

圖3 局部特徵擷取與關鍵點定位 [7]

3.多攝影機拍攝建模平台因應快速更新的零售商品

「大量的訓練資料」是深度學習的一大重點，越多的資料通常可達到更好的效果，例如世界上最大的視覺資料庫ImageNet[8]有1300萬多萬張圖片，包含了2.2萬個不同的類別，大部分的模型都是透過人力蒐集、標記好圖片資料，再進行訓練。而零售業的商品千變萬化且外觀包裝更新頻率高，反覆地進行多張拍攝不僅耗時且耗費人力，若有商品拍攝快速建模平台，如下圖4，將有助於業者降低導入電腦視覺辨識技術的成本。在單一攝影機下，不同位置的商品會因視角而有所差異，需拍攝多張圖才能得到完整的商品資訊，建模平台利用多個攝影機拍攝，建立多角度的商品環景圖。

圖4 多攝影機商品拍攝平台

4.商品形變影像合成

許多商品如太空包餅乾、袋裝餅乾是可變形的，外觀的形變也是影響辨識準確率的因素之一，我們提出利用TextCaps網路架構[4]模擬出各式各樣的圖片，即可在極少的時間內產出大量形變的商品影像資料。TextCaps架構利用 CapsNet[5]增強數據的能力為基礎，保留CapsNet的膠囊網絡（Capsule Network），將全連接解碼器網絡（Fully Connected Decoder Network）更換成反卷積網路（Deconvolutional Network），再加上一個表徵實體屬性的實例化參數，增加可控噪聲（Noise），產生出一種全新的圖像生成技術，此技術可生成比基於仿射變換（Affine Transformations）更高自由度的變形影像，模擬現實應用中可能出現的商品變形。

5.改善商品上架流程系統降低更新商品之成本

智慧貨架可透過電腦視覺辨識貨架上的商品。每組智慧貨架在銷售前，都要業者先指定商品，拍攝商品影像，透過系統自動建立一組電腦視覺模型，最後確認模型辨識準確率夠高。通常業者都管理著上百架貨架，因此，要如何降低業者自行更換貨架商品的負擔，一直是我們最先考慮的問題。圖5為基於電腦視覺智慧結帳技術的商品上架/更新流程。本流程一共分為4個步驟，分別為商品建檔、商品拍攝、貨架建模、模型佈署。在商品建檔過程中，店長先在零售進貨系統內新增商品貨號/條碼，進貨系統同步商品資料至商品拍攝系統。商品拍攝過程中，拍攝人員依照拍攝標準步驟，透過商品拍攝平台，3分鐘內完成一個新品商品影像建檔，並自動上傳至共享雲端空間。貨架建模過程中，店長選取每組貨架要建模的商品，系統主動屏蔽訓練風險大的商品，例如外觀相近的商品。透過雲端分散式建模，在半天內回傳訓練好的模型。測試系統在正常顧客取拿模式下，測試商品準確率。在佈署階段中，通過測試的模型將在當天佈署到貨架上。

圖5 商品上架/更新流程

智慧貨架新主流電腦視覺結帳技術

經過市場第一輪篩選後，顧客自主掃描結帳的第一代無人貨架業者皆已退場，目前仍活躍的無人貨架都具有智慧監控商品的能力。在智能貨架的技術中，以感測器融合方案的準確度最高，但目前感測器與其整合方案的成本偏高，純電腦視覺解決方案雖存在商品遮蔽以及辨識率未達99.9%的疑慮，但具有低硬體成本且易於維護等優點，因此目前仍為智慧貨架的主流。本文針對商品訓練樣本不足、商品遮蔽時的辨識技術難處，引進了商品偵測框架與局部商品特徵辨識技術。多攝影機拍攝平台可同時拍攝商品各個面向，大幅減少拍攝所需時間。針對如洋芋片或是口香糖的軟性包裝，更引進了影像形變合成技術，模擬軟性商品變形，提升軟型商品的辨識率。

參考文獻

[1] https://www.bodega.ai
[2] https://new.qq.com/omn/20181216/20181216A01XR9.html
[3] 市場營銷學, 黃浩,鐘大輝, p193-p195, 元華文創, 2014年11月1日
[4] Jayasundara, Vinoj, et al. "TextCaps: Handwritten Character Recognition With Very Small Datasets." 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2019.
[5] Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. "Dynamic routing between capsules." Advances in neural information processing systems. 2017.
[6] Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.
[7] Leutenegger, Stefan, Margarita Chli, and Roland Siegwart. "BRISK: Binary robust invariant scalable keypoints." 2011 IEEE international conference on computer vision (ICCV). Ieee, 2011.
[8] http://www.image-net.org/

相關連結: 回178期智慧零售與照護專輯

技術探索