技術探索

智慧影像分析技術 開啟實體零售未來契機

工研院資通所 呂坤憲 高志忠 蘇奕宇

智慧影像分析技術有助於未來實體零售提供更完善的服務體驗。智慧影像分析技術有助於未來實體零售提供更完善的服務體驗。

近年來,電子商務消費行為成長快速,在美國市場,由亞馬遜(AMZN-US)領導的網路購物在今年2月創下新的里程碑,其「非店面」或網路零售額的總市場占比有史以來首度高於一般實體通路銷售額1。面對電子商務的浪潮,實體通路商店的生存空間將逐漸被壓縮,進而迫使實體商店業者加速其升級與轉型。同時新型態的零售體驗開始受到矚目與重視,除了以往業者著重的後端商品銷售(POS)分析之外,由各項先端科技所結合而成的智慧零售更是體驗與數據蒐集分析的關鍵。透過各類數位工具來取得並分析顧客之購物歷程與商品喜好,並運用各項技術升級與優化傳統的商業模式,以求在現有的基礎上進行升級與轉型,也因此帶動了一股智慧零售科技的發展。 根據 AI News研究報導2,2018年有超過4分之1零售商(28%)部署人工智慧,凱捷諮詢(Capgemini)亦樂觀預測,人工智慧(AI)將為零售業創造3,400億美元商機,目前已有許多業者針對智慧零售領域陸續投入相關資源,包含Amazon Go概念店、阿里無人商店、繽果盒子等無人商店,以及傳統超商如統一、全家、萊爾富等超商也積極布局並導入智慧零售概念店,期望以智慧零售科技來發展新的零售業態與經營模式。

精彩內容

1. 顧客行為分析之關鍵影像技術
     ●  影像人物重識別技術-輔助人臉辨識
     ●  人與商品互動辨識技術-分析顧客行為
2. 顧客行為分析技術為優化智慧零售服務之關鍵

現階段已佈建於實體通路之零售技術系統大多使用人流計數、熱區識別、POS資訊與熱區間的參照分析等方式,乃至衍生Euclid3、RetailNext4等新創公司,分別透過分析WiFi定位數據、或是整合感測器擷取的資訊與攝影機影像分析之結果,提供店家有關消費者的商情分析資訊。這些零售科技目前大多僅就實體商店的銷售趨勢以及顧客出入店、移動路徑與停留狀況等資訊進行交叉分析並調整經營策略,無法精確到個人化的即時反應,亦無法像是電子商務網站一樣透過顧客的購物行為或歷程推測其實際需求,提供顧客最需要的產品訊息或是即時服務。

因此,實體零售商店如何在不改變現有消費行為與習慣下(如:不須主動參與配合),藉由發展影像、聲音等複合式感測與分析技術並整合人物定位技術,以掌握商店內顧客之性別、年齡,甚至是購物時的動作、表情,進而分析對商品偏好等資訊,以蒐集顧客購物歷程的資訊流並進行個體歸戶,以對各顧客進行精準有效分析,是目前新一代智慧零售技術持續努力的重要目標。 以下就我們目前在零售科技發展的二項技術,包含影像人物重識別技術以及人與商品互動辨識技術,進行介紹。

1.影像人物重識別技術-輔助人臉辨識

在電影「哈利波特─阿茲卡班的逃犯」中,開啟魔法道具-劫盜地圖(Marauder's Map)可顯示魔法學院內特定人物的即時移動軌跡,回到智慧零售實際應用中,若能有效取得顧客於商場內的移動軌跡數據,將有利用於商家對顧客行為進行精準分析與行銷。傳統利用影像辨識人物身份之作法主要以人臉進行特徵擷取與比對,以得知或確認此一人物之身份,此類作法已被廣泛應用於如特定場域之出入口或安檢等應用與場域;然而顧客於商場內會在不同攝影機拍攝範圍之間走動,且監視攝影機大多使用廣角模式拍攝,不易取得足夠像素大小且清晰之正臉影像進行身份識別,進而無法將顧客位置與身份進行綁定及歸戶,難以蒐集顧客移動軌跡數據。因此,人物重識別技術可做為人臉辨識的輔助,對於無法補捉到清晰人臉的顧客,仍可對其進行跨攝影機的軌跡追蹤,進而蒐集與分析顧戶的購物歷程與行為模式。

近幾年,得益於深度學習(Deep Learning)技術快速發展,加上多個人物影像資料集逐漸被建立,使得分析人物影像特徵如衣服顏色、紋理、人物姿態、人物配件…等,並進行人物重識別(Person Re-identification,後簡稱Re-ID)5變得可能;在此,「人物重識別」問題定義為給定一人物A的全身影像,於一人物影像集合S中找出其前n位與人物A的影像特徵最相似之人物,即Rank-1~Rank-n,如圖1所示。

圖1  人物重識別示意圖 (圖片出處:Market1501資料集)圖1 人物重識別示意圖 (圖片出處:Market1501資料集)

(1)人物重識別面臨的挑戰與研究現狀

 Re-ID技術在實際應用場景中,相對於人臉辨識,須處理更複雜的影像內容,列舉如下: 

  • 環境:攝影機拍攝人物的影像清晰度與環境光線變化、顧客身體被場景所遮蔽等影響。
  • 姿態:人物的動作,不同的姿態如站立或蹲下、因移動造成的姿態變化如走路、跑步等。
  • 視角:人物在不同攝影機拍攝範圍間走動,使得攝影機拍攝到人物之影像角度會有所不同,例如正面、背面與側面,影像還會因人物隨身配件而有差異,例如有背包之人物,其正面與背面呈現之影像特徵不同。

由上述可知Re-ID技術的困難點,而目前已有許多研究提出可能的解決方法,包含人物影像特徵的分析比對方法以及用於深度學習模型訓練與驗證之資料集。現有公開常被使用於Re-ID研究的人物影像資料集主要有三個,包含CUHK036、Market15017、DukeMTMC-reID8,其中最大的資料集DuckMTMC-reID為1,812個人物在8隻攝影機範圍內移動,共有36,441張人物影像,相對於人臉資料集包含百萬張人臉影像可用於深度學習訓練,建立大規模Re-ID資料集仍有很大的進步空間;此外,Re-ID技術常用的人物影像特徵演算法,包含表徵學習(representation learning)9、度量學習(metric learning)10、局部特徵學習(local feature learning) 11等,目的皆為提取人物全身與局部影像特徵進行損失函數(Loss)學習,進行產生模型用於人物影像特徵相似度推理(inference),相關研究方法的Re-ID辨識正確率可達約70%10

 

(2)人物重識別系統之模擬驗證

我們已自行研發一人物重識別系統,其運作流程如圖2,並於工研院內建置購物商場模擬驗證場域,透過此套系統於場域捕捉顧客影像,並取得顧客於場域內的移動軌跡;系統主要包含下幾個元件: 

  • 人物偵測(person detection):用於偵測與擷取出攝影機影像畫面中的人物影像,包含顧客進入場域時的影像,與顧客於場域內移動時的影像等。
  • 人物追蹤(person tracking):用於持續追蹤影像畫面中的人物,並蒐集人物移動軌跡數據,以便後續將同一位顧客的行為資訊進行分析與歸戶。
  • 人物重識別(person re-identification):將當前偵測到的顧客影像,與顧客進入商場時的影像圖集(gallery),進行影像特徵距離分析與信心值(confidence)排序,識別該顧客與哪一位場域內顧客相似。

圖2  人物重識別系統運作示意圖圖2 人物重識別系統運作示意圖

透過上述流程的整合,系統可於顧客入店時進行人物影像建檔,當顧客於店內移動與購物時,進行人物的追蹤並同時進行識別,最終在顧客離店時將該名顧客於店內購物歷程進行歸戶,完成偵測、追蹤、辨識、紀錄、分析的整個作業。

2.人與商品互動辨識技術-分析顧客行為

線上商店透過網站瀏覽歷程記錄所有顧客與商品的互動並加以分析,得以更佳了解顧客的喜好與習性,適時地加以推薦促成消費並提升利潤。越來越多的實體商店也想透過ICT技術紀錄與分析顧客於店內的行為,並透過全通路(Omi-channel)行銷整合線上線下購物,提升顧客整體購物的體驗,讓顧客不管最終在線上或線下都能有完整且一致資訊以提供更佳的體驗並進行消費。因此,為了瞭解顧客與商品互動的歷程,常見的作法便是以攝影機拍攝輔以影像辨識,以獲取店內顧客行為。

一般來說,進行商品互動辨識及取物動作偵測有兩種拍攝角度。一種是由貨架左右兩旁的拍攝模式Side view(bullet camera),另一種則是由上而下的Eagle view( dome camera),兩種方式(如圖3)各有優劣之處,端視業主需求而定。

圖3  人與商品互動影像(a)Side view (b)Eagle view圖3 人與商品互動影像(a)Side view (b)Eagle view

(1)Side view

Side view攝影機畫面透過使用資通所開發的骨架偵測暨整合取物狀態辨識技術,可即時辨識Empty、Occlusion、Hold Basket、Hold Cart、Hand in Shelf、Product in hand、Put into Cart/Basket等預先定義的7種行為狀態,搭配高效能的GPU運算可達到即時影像畫面的辨識與分析。此外,使用Side view的畫面進行辨識,可同時進行多人骨架分析與動作辨識(如圖4),結合影像人物辨識更能跨攝影機的紀錄該顧客的購物歷程。但是受限於攝影機數量、拍攝角度與遮蔽,在互動的商品類別僅能達到概略的分類。此外,因為骨架偵測技術運算量需求高,要以Edge進行輕量化邊緣運算仍有其困難。

圖4   多人骨架偵測暨取物狀態辨識圖4 多人骨架偵測暨取物狀態辨識

(2)Eagle view

Eagle view的取物動作偵測與辨識則主要是以貨架及商品為出發點,較易於與通路商及品牌商的獨立型貨架進行整合。貨架前的攝影機也更易於對顧客進行性別/年齡/表情/身份識別,掌握該顧客的互動行為與歷程,同時因主體距離近且較無遮蔽與交疊之影響,使用影像偵測與辨識技術進行手部偵測並搭配追蹤機制,再整合位置及商品辨識,可分析並記錄較精準的互動資訊(如圖5);但受限於架設方向與高度,能夠辨識的範圍較侷限於一定區域內的貨架。

圖5  (a)顧客性別/年齡/表情/身份辨識(b)商品互動辨識圖5 (a)顧客性別/年齡/表情/身份辨識(b)商品互動辨識

Eagle view畫面的商品互動辨識因為使用手部辨識,在少了骨架偵測的大量運算需求下,大幅提升了以Edge進行輕量化邊緣運算裝置佈署的可行性。我們所開發的顧客性別/年齡/表情/身份及商品互動辨識已可於NanoPi M4、Nvidia TX2及Nvidia Jetson Nano等裝置12上運行並維持一定效能(如表1),這些邊緣運算裝置價格約4,000~20,000新台幣,使得每一貨架的顧客與互動資訊取得成本能有效降低,同時依據實際需求亦能有彈性的進行佈署,大大提高通路及品牌商的使用意願。

表1  Side view與Eagle view之特性比較

 

Side view

Eagle view

偵測範圍覆蓋率

偵測距離

2~10公尺

0.5公尺~2公尺

功能擴充彈性

Edge輕量化可行性

資訊精準度

維運成本

營運難度

系統複製性

硬體規格

Intel5/i7 CPU with Nvidia GPU Card

Nvidia Jetson Tx2/Jetson Nano, NanoPi M4

顧客行為分析技術為優化智慧零售服務之關鍵

藉由科專研發資源的投入,以智慧影像分析為基礎應用於智慧零售場域的偵測、追蹤、辨識與分析已有一定的技術成果,透過影像人物重識別技術,可取得顧客於商場內的移動軌跡資訊,提供業者對顧客行為進行精準分析;藉由取物動作偵測及辨識,可蒐集顧客與商品互動的資訊;將技術整合便可獲取完整的購物軌跡與歷程。我們已陸續與場域主及零售、資服業者進行合作,投入實際場域進行技術與系統的驗證,藉由業者的回饋以及場域真實資料,持續優化與改進相關技術及系統,協助業者完成智慧零售的升級與轉型。

參考文獻

  1. 史上首見!美國網路購物占總銷售額比率超越實體店面
    https://news.cnyes.com/news/id/4297671
  2. Capgemini:AI將為零售業創造3,400億美元商機
    https://www.digitimes.com.tw/iot/article.asp?cat=158&id=0000551250_p7t1lnm16rue3tlc02qgi
  3. Euclid, http://euclidanalytics.com
  4. RetailNext, https://retailnext.net
  5. L. Zheng, Y. Yang, and A. G. Hauptmann, "Person Re-identification: Past, Present and Future," arXiv:1610.02984, 2016
  6. W. Li, R. Zhao, T. Xiao, and X. Wang, "DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification," in IEEE CVPR, pp. 152-159, 2014
  7. L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang, and Q. Tian, "Scalable Person Re-Identification: A Benchmark," in IEEE ICCV, pp. 1116-1124, 2015
  8. Zhedong Zheng, Liang Zheng, and Yi Yang, "Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro," In IEEE ICCV, 3774-3782, 2017
  9. M. Geng, Y. Wang, T. Xiang, and Y. Tian, "Deep Transfer Learning for Person Re-identification," arXiv:1611.05244, 2016
  10. H. Liu, J. Feng, M. Qi, J. Jiang, and S. Yan, "End-to-End Comparative Attention Networks for Person Re-Identification," IEEE Transactions on Image Processing, Vol. 26, No. 7, pp. 3492-3506, 2017
  11. R. R. Varior, B. Shuai, J. Lu, D. Xu, and G. Wang, "A Siamese Long Short-Term Memory Architecture for Human Re-Identification", In ECCV, pp. 135-153, 2016
  12. NanoPi M4、Nvidia Jetson TX2與Nvidia Jetson Nano邊緣運算裝置規格比較, https://www.hackerboards.com/compare/279,336,203