大模型的出現(xiàn)一下子讓機器人變聰明了,使它們不但可以更好地和人類對話,而且好像還有了常識,甚至也會推理了。這讓我們對機器人的印象大為改觀。
最近,來自新加坡國立大學(xué)、日本名古屋大學(xué)、北京交通大學(xué)和東京工業(yè)大學(xué)的多位學(xué)者在卓越計劃高起點新刊Biomimetic Intelligence and Robotics(《仿生智能與機器人(英文)》上發(fā)表了題為“Large language models for human–robot interaction: A review”的綜述文章,重點介紹了大型語言模型在增強其結(jié)構(gòu)和性能方面的最新進展,綜合分析了大語言模型在人機交互中的應(yīng)用與挑戰(zhàn)。特別是在多模態(tài)輸入處理、高層推理和計劃生成方面,大模型展現(xiàn)出了強大的能力。此外,他們還探討了將大語言模型整合到機器人系統(tǒng)中,以完成復(fù)雜任務(wù)的方法。其中,從傳統(tǒng)的概率模型到利用價值函數(shù)和度量進行最優(yōu)決策,都是當前研究的熱點。
人與機器相愛相殺的幾十年
自從機器人出現(xiàn)的那天,怎么跟它們互動就成了個問題。互動方式不外乎這么幾種:

物理交互
直接上手。通過物理觸摸,機器人可以感知我們的力量和動作,這是最自然的交流。
在早期的機器人時代,機器人沒有觸覺,所以我們需要一些特殊的設(shè)備來幫助人與機器人交流。這些設(shè)備就像“觸覺增強器”,讓機器人可以感受到人類的存在和反應(yīng)。
想象一下,你穿上了一件外骨骼,然后與機器人進行了一次親密的“握手”。這不僅僅是握手,你的外骨骼還能檢測你施加的扭矩和運動方向,它知道你的每一個動作。這樣,機器人就能根據(jù)這些信息做出反應(yīng),為你提供最合適的反饋。
另外,你還可以使用“振動手鐲”來指導(dǎo)機器人執(zhí)行任務(wù)。這個手鐲可以跟蹤你的運動軌跡,然后告訴機器人應(yīng)該怎么走。這樣,你和機器人就可以像真正的伙伴一樣,默契地完成各種任務(wù)。
當然還可以用虛擬現(xiàn)實。VR 讓觸覺進入虛擬世界,讓我們的視覺進入了一個全新的世界。以前,我們只能通過可穿戴設(shè)備與機器人進行觸覺交流,現(xiàn)在,VR 技術(shù)讓這一切變得更加有趣和直觀。
現(xiàn)在還有一些運動生成算法,它們讓機器人能夠在虛擬環(huán)境中找到最佳路徑,就像在真實世界中一樣。而且機器人還會為我們提供觸覺反饋,讓我們感受到虛擬世界的物體。
遠程操作
另一種就是通過遠程操作與機器人進行互動。實際上,這種方式已經(jīng)在很多危險或狹小的環(huán)境中派上了用場。不過這種操作需要一定的技巧和經(jīng)驗,而且雖然機器人可以代替我們進入危險區(qū)域,但它們畢竟不是真人,缺少了我們的自然肢體語言。
為了解決這個問題,科學(xué)家們設(shè)計了一些有趣的界面,讓我們的肢體動作或眼神成為控制機器人的“遙控器”。這樣,即使你的手不方便移動,也可以輕松地操作無人機或機械臂。
遠程操作讓我們能夠輕松地控制機器人,并在各種應(yīng)用中發(fā)揮潛力。這就需要更強的態(tài)勢感知能力,也就是快速感知、理解和應(yīng)對周圍環(huán)境的能力。它直接關(guān)系到我們遠程操控機器人的水平。這里可以采用增強現(xiàn)實界面,能更精確、更可靠地反映機器人看到的情況。

對話式的交互
對話就是我們平時說話交流的方式,這是最自然的方式。如果我們能讓機器人也理解并參與到我們的對話中來,那它們就能更容易地融入我們的生活,但這并不是一件簡單的事。
機器人不僅要聽懂我們的話,還得知道什么時候該說話,什么時候不該說話。有時候,它們還得告訴我們,它們想要開始、繼續(xù)或者結(jié)束對話。為了解決這些問題,科學(xué)家們想了很多辦法。他們創(chuàng)建了一個可以衡量機器人參與對話程度的模型,并且教機器人如何在對話中表現(xiàn)得更好。
在實際應(yīng)用中使用語言能力也很重要。比如機器人要通過擁擠的地方,如果前面有人擋住了去路,它們需要請求人們讓它們過去。
而有時候,人們說的話可能會有點含糊、指代不清,這會讓機器人感到困惑。不過,科學(xué)家們已經(jīng)開發(fā)出了一些系統(tǒng),用于處理在執(zhí)行任務(wù)時可能發(fā)生的對話行為,并且能夠靈活地應(yīng)對各種變化。
另一種方法是,系統(tǒng)涉及交互式過程。通過利用機器人的請求理解和對周圍物體的認識,尋求額外的信息來區(qū)分所描述的對象。這就像是在玩一個解謎游戲,機器人需要用它的“大腦”來理解我們的語言,并找出正確的答案。
除了語言之外,人類在交流時也會使用重要的非語言線索,比如眼神、肢體語言等。科學(xué)家們正在探索如何讓機器人理解這些線索,以便更好地與人類互動。
隨著大型語言模型的出現(xiàn),我們有了更多的可能性來解決這些問題,并幫助機器人更好地融入我們的生活。
大語言模型來了
過去十年里,大型語言模型確實讓自然語言處理煥然一新。它們用大量的數(shù)據(jù)和其他建模領(lǐng)域的復(fù)雜神經(jīng)網(wǎng)絡(luò)架構(gòu),展現(xiàn)了理解、生成和操控人類語言的新能力。像 GPT 這樣的模型,在文本生產(chǎn)、翻譯、情感分析和問答等任務(wù)中都表現(xiàn)得非常出色。隨著它們在各個領(lǐng)域和日常生活中的廣泛應(yīng)用,研究人員還在努力探索大模型的極限。
早期的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)語言模型通過短期記憶解決了前饋網(wǎng)絡(luò)在語言建模方面的局限性。通過反向傳播、因子分解和編碼器 - 解碼器框架的增強,RNN 語言模型得到了改進。雙向 RNN 可以讓我們考慮單詞前后的上下文。但隨著自注意力和多頭注意力機制的引入,Transformer 架構(gòu)徹底改變了自然語言處理任務(wù)。像 Transformer-XL 這樣的進步,通過在段落間循環(huán)緩存來擴展上下文長度。自適應(yīng)注意力跨度能自動學(xué)習(xí)最佳注意力跨度。還有一些變體通過使用輔助損失、稀疏注意力矩陣分解和結(jié)合 Transformer 和 RNN 的屬性等技巧來提高效率。大型語言模型在很多領(lǐng)域都能派上用場,比如通過像素關(guān)聯(lián)和強化學(xué)習(xí)來生成圖片。Transformer也很有用,在人機交互等領(lǐng)域,也能看到 Transformer 的身影。

除了按照網(wǎng)絡(luò)結(jié)構(gòu)來分類語言模型,還有一個方法是按照它們的訓(xùn)練策略來分類。基于 Transformer 的版本被廣泛用于滿足各種用戶需求。現(xiàn)在流行的模型可以追溯到兩個基本方法——GPT 和 BERT。GPT 使用自注意力機制,并在未標記的文本上進行預(yù)訓(xùn)練,展示出通過任務(wù)如文本生成和創(chuàng)意寫作進行遷移學(xué)習(xí)的潛力。GPT-2 通過更大規(guī)模的非監(jiān)督學(xué)習(xí)改進了少量和零樣本的遷移。GPT-3 進一步將規(guī)模擴大了100 倍,證明更大的模型表現(xiàn)更好,驗證了擴展定律。
BERT 也展示了使用雙向編碼和預(yù)訓(xùn)練任務(wù)(如掩碼語言建模和下一句預(yù)測)的成果。它的變體旨在提高效率,通過減少參數(shù)和訓(xùn)練時間,同時不損失性能。ALBERT 對嵌入和共享層進行分解,而 RoBERTa 優(yōu)化了預(yù)訓(xùn)練決策。DistilBERT和 TinyBERT 將大小最小化,而 SpanBERT 掩碼了跨度而不是令牌。其他模型也不斷進步,比如 GPT-4 具有前所未有的解釋能力,InstructGPT 通過反饋引入強化學(xué)習(xí),BART 結(jié)合了GPT 和 BERT 的優(yōu)點。

除了這些著名的模型外,大型語言模型還有潛力通過將模糊的人類指令翻譯成控制信號來讓機器人變得更智能,以滿足不同應(yīng)用場景中的用戶需求。
把大模型用在人機交互上


用來做問答機器人
大型語言模型現(xiàn)在能通過搜索引擎和問答系統(tǒng),很快地把我們的問題和答案對上號,讓我們能方便地查找各種知識。比如說,機器翻譯就是用了問答系統(tǒng),才能快速地在不同語言之間做翻譯。研究也發(fā)現(xiàn),只要模型夠大,用大量的文字資料訓(xùn)練出來的語言模型,效果可以趕上其他更復(fù)雜的方法。而且,加上注意力機制之后的深度神經(jīng)網(wǎng)絡(luò),能讓模型讀懂文件,回答復(fù)雜問題,哪怕之前對相關(guān)領(lǐng)域完全不了解也沒關(guān)系。
雖然模型能根據(jù)文字提示編出很長的故事,但如果提示太模糊或者沒有提示,模型可能就會產(chǎn)生偏差或者加入一些不需要的內(nèi)容。為了解決這個問題,專家們想出了控制代碼、屬性分類器和交互式查詢重寫等方法。控制代碼能控制生成的內(nèi)容,屬性分類器和查詢重寫則能讓內(nèi)容更加明確。優(yōu)化查詢的數(shù)據(jù)結(jié)構(gòu)之后,還能節(jié)省時間和內(nèi)存。
最新的研究已經(jīng)不再局限于文字了,開始探索圖像、視頻和音頻等多模態(tài)的生成。模型可以在帶有標簽的圖片數(shù)據(jù)集上進行預(yù)訓(xùn)練,不再需要手動標記。通過擴展功能,模型還能把視頻和文本聯(lián)系起來,或者用 CLIP 等框架加入音頻,強化不同模態(tài)之間的聯(lián)系。這樣一來,人機交互就能更加順暢了。現(xiàn)在的研究甚至能讓模型根據(jù)語音生成代碼、做出動作,或者從語音中生成完整的人類動作。隨著模態(tài)和結(jié)構(gòu)的不斷改進,語言模型現(xiàn)在已經(jīng)能根據(jù)具體情況,對醫(yī)學(xué)教育等領(lǐng)域中的問題給出不同的答案。但是,我們也得小心,因為有些看起來很真實的文本,其實可能是模型編造出來的。所以,我們在使用模型生成的結(jié)果時,一定要保持理性,畢竟人類才是主導(dǎo)者。
讓社交機器人具有常識
將社交機器人融入人類社會一直是研究的熱門話題。社交機器人可以通過自然的對話來幫助人們,而不會讓人感到不舒服。但是,它們?nèi)狈ν评砟芰Γ@使它們很難獲得常識,并可能導(dǎo)致危險。大型語言模型的引入極大地改變了這一局面,它們提供了經(jīng)過預(yù)訓(xùn)練的模型,這些模型可以作為廣泛的知識庫進行泛化。
社交機器人的一個重要應(yīng)用領(lǐng)域是教育。教室里的機器人可以因材施教,提供更個性化的課程。使用增強現(xiàn)實、語音機器人和 ChatGPT 的框架進一步促進了外語學(xué)習(xí)。聊天機器人憑借其出色的推理能力,還可以為孩子們生成連貫的故事。在更深層次上,語言模型可以理解模糊的內(nèi)容,比如哲學(xué)。
而在醫(yī)療保健領(lǐng)域,有了大模型加持的機器人可以和自閉癥患者聊天,還可以提供其它新穎的人機交互方法。研究表明,ChatGPT 對醫(yī)學(xué)診斷的理解是足夠深入的。
遵循指令完成任務(wù)
語言模型讓虛擬智能體能夠執(zhí)行多模態(tài)的指令和生成任務(wù),這使得它們在實體機器人應(yīng)用中具有巨大的潛力。這種技術(shù)可以助力日常任務(wù)或自動化生產(chǎn)線的實現(xiàn),讓機器人更便捷地根據(jù)指令生成高層任務(wù)和運動計劃,而不需要大量的編程工作。
這里的一個問題是,人類的指令經(jīng)常很籠統(tǒng)而且不明確。為了完成像準備早餐這樣的任務(wù),機器人需要運用常識推理將語言指令轉(zhuǎn)化為動作計劃。早期技術(shù)使用先驗知識概率模型來推斷缺失的元素,但這種方法依賴于預(yù)定義的鏈接數(shù)據(jù)。為了更靈活地執(zhí)行各種任務(wù),需要更低成本的數(shù)據(jù)抽取。因此,許多研究采用語言模型作為機器人的大腦,利用常識知識進行決策,并執(zhí)行生成的計劃。
最新研究進展表明,文字和視覺等多模態(tài)輸入可以用來理解環(huán)境和生成任務(wù)計劃,然后通過價值函數(shù)或測量標準選擇最佳方案。雖然初步的計劃可能看起來是最好的,但未預(yù)見的變化需要在線優(yōu)化。狀態(tài)反饋可以根據(jù)當前情況評估計劃的有效性。成功檢測和場景描述通過內(nèi)部對話逐步優(yōu)化跨領(lǐng)域的指令執(zhí)行。當存在不確定性時,可以通過物體配重或詢問人類來緩解不確定性。
語言模型技術(shù)還可以支持特定領(lǐng)域的任務(wù)模型。預(yù)訓(xùn)練模型甚至可以直接從指令中生成控制策略,無需進行微調(diào)。多個智能體之間的角色扮演可以協(xié)作完成非同尋常的多機器人任務(wù),推動智能控制的發(fā)展,使其能夠無縫地融入人機交互。
問題和挑戰(zhàn)
雖然大型語言模型在人機交互方面很強大,但要安全、有效地使用它們,還有一些挑戰(zhàn)需要解決。首先,要確保它們不會因為不恰當、有偏見或私密的內(nèi)容而造成危害。其次,與用戶互動時,要保護用戶的隱私,并遵守公平等道德原則。
而且大模型有時候不太理解對話的細微差別,這可能會讓用戶感到沮喪。比如,如果它誤解了用戶的查詢或回答,用戶可能會感到困惑。這對于需要正確理解用戶意圖的交互來說非常重要,比如在指導(dǎo)機器人完成任務(wù)時。
此外,大模型在不同的背景、語言和用戶之間也有應(yīng)用挑戰(zhàn)。比如,如何讓它在各種情況下都能理解和回應(yīng)用戶的指令。如果它不能很好地適應(yīng)不同的環(huán)境和用戶,那么它可能無法發(fā)揮出它的全部潛力。
還有一些其它問題需要解決。比如,如何訓(xùn)練大模型、如何設(shè)計和微調(diào)它以改善性能。這些問題的解決對于將機器人成功融入人類社會至關(guān)重要。
總的來說,盡管大模型有很多優(yōu)點,但要充分發(fā)揮它們的潛力,還需要不斷努力解決各種挑戰(zhàn)。
(來源:機器人大講堂)
轉(zhuǎn)載自:應(yīng)急管理部上海消防研究所