技術探索

打造智慧服務平台-運用VLM提升Kiosk互動體驗

工業技術研究院 資訊與通訊研究所  方紹宇

前言

互動式資訊服務站(Interactive Kiosk, Kiosk)如今已成為服務業中不可或缺的一環,廣泛應用於便利商店、展場、博物館及各大百貨公司。消費者透過Kiosk可以完成購票、繳費及查詢資訊等需求,不僅提升了服務效率,還大幅減輕店員的工作負擔。然而現行Kiosk的操作流程存在不一致性,且缺乏有效的引導,使得消費者常常需要花費額外時間來熟悉。

隨著人工智慧技術的快速發展,視覺語言模型(Visual Language Models, VLM)等多模態技術為Kiosk注入了更全面的感知能力。這些模型能分析消費者的外貌特徵、行為和操作畫面,進一步理解對話內容並作出即時回應。此外,檢索增強生成(Retrieval Augmented Generation, RAG)技術讓VLM可以在不重新訓練的情況下即時存取特定場域知識(例如餐點價格、庫存狀態及優惠方案),而函式呼叫(Function Calling)功能則賦予AI實現設備操作的能力,像是頁面切換或是開啟印表機設備等。

本文首先會介紹當前透過AI技術提升Kiosk服務體驗的案例,探討各式新興VLM模型在智慧點餐機上的潛在應用,並用實際研究案例進一步說明VLM是如何改善顧客的操作體驗。最後以此作為延伸,分析現有研究的技術在便利商店、百貨公司及展場等其他領域的應用潛力,期望進一步提升Kiosk的功能與智慧化程度,邁向實現AI虛擬店員的目標。

 精彩內容

 1. 現有智慧Kiosk案例分析
 2. 視覺語言模型在Kiosk中的應用潛力-以自助點餐機為例
 3. 如何打造智慧點餐機
 4. 智慧Kiosk技術的跨場域發展

現有智慧Kiosk案例分析

Kiosk的應用場景十分多元,其中常見的便是架設於餐飲、速食店中的自助點餐機,以及百貨公司、便利商店、博物館與展場中的資訊服務機台,為了提供顧客更方便有趣的服務體驗,部分商家與展場會使用AI合成與電腦視覺技術,提升Kiosk的感知能力,以提供更豐富的功能。例如擴增實境(Augmented Reality, AR)試衣技術可以讓顧客在Kiosk的螢幕前直接預覽穿衣後的樣貌,免去了排隊等試衣間以及換衣服的麻煩 [4];2018年平昌奧運會展出的Kiosk,運用人體骨架預測與人臉辨識技術,能夠感知體驗者的位置與動作,實現互動功能。體驗者可以透過螢幕參與一些小遊戲,並於結束後拍照留念,這不僅提升了互動性,也增加會場的趣味性 [3]。

在自助點餐機方面,國內Kiosk大廠與食品公司合作,推出了人工智慧物聯網(Artificial Intelligence of Things, AIOT)及軟體即服務(Software as a Service, SaaS)數據平台,推出智慧AI點餐機 [1] [2]。透過OpenAI及微軟AI技術與顧客溝通,外籍遊客只需對機台說話,畫面便會自動出現對應菜色並翻譯成顧客能理解的語言。此外,顧客也可直接詢問餐點內容,避免選擇有飲食禁忌或過敏的食材,極大提高了點餐的便利性。在Kiosk自助點餐應用上,若能以VLM技術為Kiosk加入視覺理解能力,將可提供更高層次的服務與推薦,進一步提升點餐機的感知能力。

視覺語言模型在Kiosk中的應用潛力-以自助點餐機為例

  • 視覺理解

透過內建或外置攝影機,VLM的視覺感知能力可以觀察Kiosk周圍情況並作出相應的決策。例如當系統檢測操作者年齡較大或出現看不清楚文字(如瞇眼)的情況時,會自動放大字體;遇到外籍人士系統會詢問是否切換語言;當觀察到操作者拿出錢包或信用卡時,會自動切換至結帳頁面。此外,當操作者無法用言語描述所需餐點時,只需將餐點影像置於攝影機前,系統便會自動識別餐點並跳轉至該餐點的購物頁面,進一步提升了使用的便捷性與互動體驗。

圖1 VLM模型架構

  • 多模態感知融合

VLM本身可同時處理影像與文字,並且能與其他模型或編碼器(Encoder)整合,進一步接收更多模態資訊。圖1展示了VLM模型架構。首先透過語音轉文字技術(Speech-to-Text, STT)將使用者語音轉換為文字,再由VLM進行理解與回應。多模態感知融合技術使得Kiosk能在語音、影像、文字等多種管道間自由切換,提供更直覺的操作體驗。

人工智慧代理(Artificial Intelligence Agent, AI agent)
在實際應用中,AI模型往往需要結合多種工具與系統模組來完成不同任務。此時,引入「人工智慧代理」(AI Agent)框架能有效系統化地管理模型與工具之間的溝通與調用流程。AI Agent的核心理念是讓模型不僅被動回應輸入,而是具備「主動規劃與執行任務」的能力,能根據目標、環境資訊與上下文狀況,選擇適合的工具來完成任務。

在AI Agent的框架中,視覺語言模型(VLM)可作為核心決策中樞,負責多模態資訊的理解與任務規劃。VLM能整合來自圖片以及文字的輸入訊息,形成充分的上下文理解,進而根據使用者需求或當下情境做出合理決策,並與內部或外部的工具模組協作以完成對應動作。舉例來說,當消費者在Kiosk上以語音詢問某道餐點的推薦,VLM 能辨識其意圖,並驅動AI Agent去存取後端的餐廳資料庫,以查詢即時菜單、剩餘庫存或當日優惠活動;若辨識出使用者正在尋找低過敏性餐點,Agent可以進一步檢索食材資訊並篩選合適選項。當意圖確定後,AI Agent可下指令讓Kiosk切換到特定頁面、觸發介面動畫,或將系統回應內容傳送至語音生成模型(如 TTS 系統),進行語音播報,達成自然、即時的人機互動。

此外,AI Agent架構也具有高度的可擴充性與模組化設計,能整合如推薦系統(推薦商品或搭配套餐)、支付系統(協助導引至付款)、或情境感知模組(依據時間、天氣、節慶動態調整推薦內容)等功能。這樣的架構讓Kiosk不再只是靜態的選單操作介面,而是能根據實際使用情境靈活應對,並主動提供協助的智慧互動平台。

如何打造智慧點餐機

本節將以工研院資訊與通訊研究所(以下簡稱資通所)目前研究的智慧點餐機為例,介紹將VLM應用於Kiosk中所面臨的實際挑戰,以及相對應的解決方案與技術突破。

  • 讀取即時影像串流

工研院資通所將基於VLM的場景理解技術整合至Kiosk系統,使其具備視覺理解能力,並結合語音轉文字技術,將顧客的語音指令即時轉換為文字,作為輸入提供給VLM處理。透過這樣的多模態技術融合,Kiosk不僅能夠「看懂」現場環境與人員行為,還能「聽懂」顧客的語音需求,使自助點餐機的互動體驗更加自然,猶如與真人店員進行溝通。

在視覺層面,藉由持續監測周圍場景的變化,並分析操作者的行為意圖、表情特徵及外貌特徵等資訊,這使得系統能夠根據不同的使用者情境,主動提供適當的輔助。例如,從實際案例中觀察到有不少年長者看不清螢幕上的文字,或是有外國遊客不知如何切換語言的狀況,故系統會根據Kiosk上攝影機的影像畫面識別操作者是否包含年長者或外籍人士,當偵測到操作者為年長者時,會自動放大字體以提高可讀性,而偵測到外籍人士時則會跳出切換語言的提示視窗;此外,當系統偵測到顧客拿取錢包或信用卡時,會主動切換至結帳畫面,以減少操作步驟並提升流暢度。這種即時的情境感知能力,能夠大幅提升Kiosk的使用體驗,讓顧客在操作時感受到更人性化的互動與便利性。

然而,現有的VLM架構主要針對圖片或非即時的影像片段,搭配文字提示詞(prompt)進行處理,並在推論後產生對應的輸出。這樣的架構無法直接應用於需要連續接收即時影像並同時處理語音輸入的場景。因此,資通所基於流式輸入架構 [5],開發了「即時場域理解技術」,確保系統能夠持續感知環境變化並做出即時反應,進而提高Kiosk在與使用者互動中的準確性與效率。

圖2 即時場域理解技術架構圖

透過即時場域理解技術,Kiosk系統能夠逐幀接收來自攝影機的影像串流,以及來自顧客的語音轉文字輸入。如圖2所示,各模態資訊會先經過VLM的文本與視覺編碼器轉換為特徵向量,並根據時間順序進行排序,形成向量序列,然後輸入至解碼器以生成最終的輸出結果。為了提升推論效率並降低計算負擔,資通所使用了鍵–值快取(Key-Value Cache)技術,將過去的注意力特徵(attention features)儲存起來,以避免重複計算。如此系統能夠即時處理新輸入的影像與語音指令,確保互動的流暢度與準確性,讓Kiosk能夠實現即時感知與主動回應,為顧客帶來更加直覺且智慧的自助點餐體驗。

  • 檢索增強生成與函式呼叫

大型語言模型(VLM及Large Language Model, LLM)透過巨量資料進行預訓練,使其具備廣泛的語言理解與推理能力。儘管這些模型在預訓練階段學習過龐大的知識,在實際應用時仍然可能遇到未曾見過的新資訊。例如,在智慧點餐機的應用場景中,模型需要處理當前餐廳的菜單、促銷活動及用餐規則等動態資訊。然而,這類資訊往往會隨著時間變化,即使是同一間餐廳,也可能定期更新菜單、推出新的優惠,甚至調整點餐規則。如果單純依賴重新訓練模型來適應這些變動,不僅會帶來巨大的計算與時間成本,還可能因餐廳數據格式不同,無法輕易將某個已訓練的模型直接應用到其他餐廳。因此,需要尋找一種方法使模型能夠即時掌握餐廳的最新資訊,而無需頻繁地更新模型本身。

解決這個問題的一種有效方式,是在模型處理問題時,同時提供與當前環境相關的資訊。如圖3所示,當顧客說出「我想點最熱銷的漢堡」時,若僅將這段話直接輸入模型,模型可能會根據預訓練時學習到的普遍知識來回答,甚至產生「幻覺」,回覆一個實際上不存在於餐廳菜單中的選項。此時,若在輸入中額外提供餐廳的最新菜單資訊,例如:「請根據下列餐廳現有菜單資訊進行推薦:……」,則模型便能基於這些提供的資訊來進行準確的推薦。這種方法使得模型的回答能夠動態適應不同的餐廳環境,而不需要重新訓練。

圖3 在輸入時額外加入餐廳資訊來讓模型能夠正確進行判斷

然而,語言模型能夠處理的上下文長度有限,要一次性輸入所有餐廳的菜單、促銷與規則資訊,顯然是個巨大的挑戰。因此,資通所採用了檢索增強生成(Retrieval Augmented Generation, RAG)技術,來選取最相關的資訊供模型使用。藉由基礎的嵌入模型將餐廳的各類關鍵資訊(如餐點名稱、描述、圖片、優惠活動、用餐規則等)轉換為特徵向量,並存入向量資料庫。在特徵空間中,語義相近的文本與影像將具有較小的向量距離,這使得系統能夠透過計算相似度來檢索最符合查詢需求的資訊。例如,當顧客詢問「飲料」時,即使某些飲品的名稱與描述中未明確出現「飲料」一詞(如泡沫紅茶),系統仍能基於語義相似性將其檢索出來。相較於傳統的關鍵字匹配需要在資料欄位中新增許多標籤來協助搜尋,向量資料庫能夠更靈活地處理語義查詢,從而避免繁瑣的標註工作,使得檢索更加直觀且高效。

圖4 檢索增強生成與函式呼叫系統架構

圖4呈現智慧點餐機系統中的檢索增強生成與函式呼叫(Function Calling)架構。當使用者說出點餐請求時,系統首先透過STT模型將語音轉換為文字,並利用嵌入模型將其轉換為特徵向量,接著與向量資料庫進行相似度計算,檢索出前K筆最相關的資訊,並將其附加到提示詞中一併輸入VLM模型中。模型的輸出格式會被規範以確保符合系統需求,並透過回覆解析器將模型生成的文字轉換為具體的機台操作指令。例如當解析出「偵測到外籍人士」時,解析器會將訊號傳遞至「顯示語言切換提示」的程式,該程式接收到訊號後便會將提示視窗顯示於Kiosk螢幕上。除此之外,其他應用諸如顯示推薦餐點、執行折扣計算、更新餐廳資料庫等,皆可以此方式實踐。資通所採用了影像–文本嵌入模型(如SigLIP、BGE Visualized),使得系統能夠支援以圖搜文、以文搜圖的查詢方式,進一步提升點餐體驗與資訊檢索的靈活性。透過這樣的設計,智慧點餐機能夠動態適應不同餐廳的需求,提供即時且準確的服務,而無需頻繁重新訓練語言模型,大幅降低維護成本並提升使用者體驗。

  • 模型壓縮

參數量愈大的模型往往能學習到更豐富的知識,並在理解與推理能力上擁有較佳表現,這也帶來了更高的硬體需求,特別是在處理影像串流時,運行這類大型VLM所需的計算資源相當可觀。以一個擁有90億參數的VLM為例,若要進行即時推理,通常需要兩張NVIDIA RTX 4090顯卡進行分散式模型推理(Distributed Model Inference),才能確保運算效能達到實際應用需求。然而,滿足如此高規格硬體的成本不容小覷,這將使得系統的初期部署與後續維運成本大幅提升,進而增加了大規模導入的難度。

為了解決上述問題,工研院資通所採用了知識蒸餾技術(Knowledge Distillation, KD)[6] [7] [8],以降低運行時的計算資源需求,同時確保模型仍具備高效的推理能力。如圖5,首先使用一個較大規模的VLM(90億參數)作為教師模型(Teacher Model),針對餐廳場域的數據進行專門訓練,使其學習到符合智慧點餐機場景的語義資訊,從而具備更精準的理解與推理能力。接著,使用一個參數量較小(20億參數)的VLM作為學生模型(Student Model),讓其學習教師模型的表徵,透過蒸餾過程保留關鍵的語意理解能力,同時顯著減少模型尺寸與計算量。為進一步提升效率,訓練過程中採用了混合精度訓練(Mixed Precision Training),加速收斂並降低GPU記憶體消耗,並在推論階段透過精度量化(Quantization)與TensorRT優化,進一步壓縮模型大小並提升運行速度。

圖5 模型蒸餾示意圖

透過這些輕量化技術,系統的硬體需求從昂貴的高端伺服器降低到僅需嵌入式設備(如Jetson Orin Nano Super ),即可滿足實際應用場景的運算需求。不僅大幅降低了初期建置與長期維護的成本,也讓智慧點餐機的部署更加靈活,能夠適應更多應用環境,為餐飲業提供高效、低成本的AI解決方案。

智慧Kiosk技術的跨場域發展

工研院資通所開發的智慧點餐機技術,透過即時場域理解、檢索增強生成(RAG)以及函式呼叫等核心架構,除了應用於餐廳,也能進一步延伸至更多服務與零售場域。例如,應用在便利商店的自助服務機台(ibon、FamiPort等),VLM可協助顧客完成購票、繳費、包裹寄取等操作;當顧客需要列印或影印文件時,機台可直接連動印表機自動啟動,省去目前仍需店員手動確認的步驟,使服務更加流暢、減少顧客等待時間。此外,在大型超市(如全聯、家樂福)等零售通路,VLM亦可導入至自助結帳機台,透過即時分析顧客操作行為,自動判斷是否遇到問題並提供適當的引導或提醒,降低操作門檻,提升使用體驗。超市內部亦可設置VLM服務機台,讓顧客即時查詢當前促銷優惠、商品庫存或導引至特定商品區域,減輕店員的負擔,並強化購物體驗。

智慧點餐機技術也可進一步拓展至百貨公司、博物館以及各大展覽等場域,發揮更廣泛的應用價值。例如,應用在百貨公司的自助導覽機台,VLM可根據顧客的偏好推薦合適的品牌專櫃或當季促銷活動;在博物館與展覽場館內,VLM亦可作為智慧導覽助手,提供展品詳細解說,甚至能夠透過影像分析來識別參觀者感興趣的展區並進行個性化推薦。這些應用不僅提升了使用者體驗,也能有效降低場館內人力負擔,使服務更具彈性與智慧化。

與餐飲環境相比,上述場景的服務內容與空間設計更加多元,面對的商品類別與顧客需求也更為複雜,為了提升VLM的泛化能力,須克服包含資料蒐集與標註、模型輕量化等諸多挑戰,才能使模型適應不同場域的複雜環境,從而確保能夠正確理解顧客需求。未來將以智慧點餐機技術為基礎,持續探索並拓展其應用範圍,逐步覆蓋更多業態,提升人們的生活便利性與服務品質。

結論

隨著大型視覺語言模型(VLM)的迅速發展,自助服務設備如Kiosk迎來了新的技術突破。藉由VLM的視覺理解與語言推理能力,這些設備能夠根據顧客行為與環境狀態,主動調整界面並提供個人化服務,甚至透過AI代理(AI Agent)執行系統操作,使互動過程更加直覺且流暢。

AI Agent在智慧Kiosk的應用情境中極具發展潛力,其可被視作為一個統籌決策的中介層,根據使用者的語音、觸控或行為指令,靈活選擇調用合適的模型與模組。例如,當顧客以語音詢問某道餐點的推薦時,AI Agent可結合VLM進行多模態理解,判斷使用者需求,進一步透過檢索增強生成(RAG)技術,存取後端餐廳的知識資料庫,取得即時的菜單內容、庫存狀態與促銷資訊,並最終生成一段語音或圖文回應,呈現於Kiosk上。若涉及頁面切換或互動指令,AI Agent也可透過函式呼叫(Function Calling)直接驅動系統執行操作,提升回應效率與靈活性。

藉由VLM的多模態感知與強化學習策略,智慧Kiosk不僅能夠識別顧客需求,還能學習並模擬真人服務員的應對方式,提供更自然且具有情境理解能力的互動體驗。隨著VLM與AI Agent技術的成熟與整合,未來智慧Kiosk有望進一步拓展其功能邊界,例如導入更進階的任務規劃能力、長期使用者偏好記憶,甚至結合機器人平台,朝向全方位智慧服務機器人發展,重新定義服務業的運作模式與互動生態。

參考文獻

[1]趙筱文,“全球唯一Kiosk AI點餐機現身COMPUTEX支援語言自動翻譯,壹蘋新聞網”,6月,2024.
[2]劉燿瑜,“佳世達子公司推AI點餐機!2大神功能搞定外國旅客,Kiosk怎讓張忠謀愛店翻2倍業績?”,Next數位時代,6月,2024.
[3]RAONSQUARE有限公司,Interactive Media, IOT Kiosk - 2018 Pyeongchang Olympic(https://www.youtube.com/watch?v=kjKT9VhssjM),Youtube,7月,2018.
[4]Arvar, “Fitting clothes in AR format from Timberland”, arvar.com, 2020.
[5]J. Chen, Z. Lv, S. Wu, K. Q. Lin, C. Song, D. Gao, J.-W. Liu, Z. Gao, D. Mao, and M. Z. Shou, “VideoLLM-online: Online Video Large Language Model for Streaming Video”, arxiv, Jun. 17, 2024.
[6]H. Liu, C. Li, Q. Wu, and Y. J. Lee, “Visual Instruction Tuning”, arxiv, Dec. 11, 2023.
[7]A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and Y. Bengio, “FITNETS: HINTS FOR THIN DEEP NETS”, arxiv, Mar. 27, 2015.
[8]Yonglong Tian, Dilip Krishnan, Phillip Isola, “Contrastive Representation Distillation”, ICRL, 2020.