永利赌场-永利赌场 老品牌值得您信赖_黄金城百家乐下载_600全讯网白菜群 (中国)·官方网站

大語言模型下的人機交互

作者: 時間:2025-09-06 點擊數:

大模型的出現一下子讓機器人變聰明了,使它們不但可以更好地和人類對話,而且好像還有了常識,甚至也會推理了。這讓我們對機器人的印象大為改觀。

最近,來自新加坡國立大學、日本名古屋大學、北京交通大學和東京工業大學的多位學者在卓越計劃高起點新刊Biomimetic Intelligence and Robotics(《仿生智能與機器人(英文)》上發表了題為“Large language models for human–robot interaction: A review”的綜述文章,重點介紹了大型語言模型在增強其結構和性能方面的最新進展,綜合分析了大語言模型在人機交互中的應用與挑戰。特別是在多模態輸入處理、高層推理和計劃生成方面,大模型展現出了強大的能力。此外,他們還探討了將大語言模型整合到機器人系統中,以完成復雜任務的方法。其中,從傳統的概率模型到利用價值函數和度量進行最優決策,都是當前研究的熱點。

人與機器相愛相殺的幾十年

自從機器人出現的那天,怎么跟它們互動就成了個問題。互動方式不外乎這么幾種:

1755675901873807.png

物理交互

直接上手。通過物理觸摸,機器人可以感知我們的力量和動作,這是最自然的交流。

在早期的機器人時代,機器人沒有觸覺,所以我們需要一些特殊的設備來幫助人與機器人交流。這些設備就像“觸覺增強器”,讓機器人可以感受到人類的存在和反應。

想象一下,你穿上了一件外骨骼,然后與機器人進行了一次親密的“握手”。這不僅僅是握手,你的外骨骼還能檢測你施加的扭矩和運動方向,它知道你的每一個動作。這樣,機器人就能根據這些信息做出反應,為你提供最合適的反饋。

另外,你還可以使用“振動手鐲”來指導機器人執行任務。這個手鐲可以跟蹤你的運動軌跡,然后告訴機器人應該怎么走。這樣,你和機器人就可以像真正的伙伴一樣,默契地完成各種任務。

當然還可以用虛擬現實。VR 讓觸覺進入虛擬世界,讓我們的視覺進入了一個全新的世界。以前,我們只能通過可穿戴設備與機器人進行觸覺交流,現在,VR 技術讓這一切變得更加有趣和直觀。

現在還有一些運動生成算法,它們讓機器人能夠在虛擬環境中找到最佳路徑,就像在真實世界中一樣。而且機器人還會為我們提供觸覺反饋,讓我們感受到虛擬世界的物體。

遠程操作

另一種就是通過遠程操作與機器人進行互動。實際上,這種方式已經在很多危險或狹小的環境中派上了用場。不過這種操作需要一定的技巧和經驗,而且雖然機器人可以代替我們進入危險區域,但它們畢竟不是真人,缺少了我們的自然肢體語言。

為了解決這個問題,科學家們設計了一些有趣的界面,讓我們的肢體動作或眼神成為控制機器人的“遙控器”。這樣,即使你的手不方便移動,也可以輕松地操作無人機或機械臂。

遠程操作讓我們能夠輕松地控制機器人,并在各種應用中發揮潛力。這就需要更強的態勢感知能力,也就是快速感知、理解和應對周圍環境的能力。它直接關系到我們遠程操控機器人的水平。這里可以采用增強現實界面,能更精確、更可靠地反映機器人看到的情況。

2.png

對話式的交互

對話就是我們平時說話交流的方式,這是最自然的方式如果我們能讓機器人也理解并參與到我們的對話中來,那它們就能更容易地融入我們的生活,但這并不是一件簡單的事。

機器人不僅要聽懂我們的話,還得知道什么時候該說話,什么時候不該說話。有時候,它們還得告訴我們,它們想要開始、繼續或者結束對話。為了解決這些問題,科學家們想了很多辦法。他們創建了一個可以衡量機器人參與對話程度的模型,并且教機器人如何在對話中表現得更好。

在實際應用中使用語言能力也很重要。比如機器人要通過擁擠的地方,如果前面有人擋住了去路,它們需要請求人們讓它們過去。

而有時候,人們說的話可能會有點含糊、指代不清,這會讓機器人感到困惑。不過,科學家們已經開發出了一些系統,用于處理在執行任務時可能發生的對話行為,并且能夠靈活地應對各種變化。

另一種方法是,系統涉及交互式過程。通過利用機器人的請求理解和對周圍物體的認識,尋求額外的信息來區分所描述的對象。這就像是在玩一個解謎游戲,機器人需要用它的“大腦”來理解我們的語言,并找出正確的答案。

除了語言之外,人類在交流時也會使用重要的非語言線索,比如眼神、肢體語言等。科學家們正在探索如何讓機器人理解這些線索,以便更好地與人類互動。

隨著大型語言模型的出現,我們有了更多的可能性來解決這些問題,并幫助機器人更好地融入我們的生活。

大語言模型來了

過去十年里,大型語言模型確實讓自然語言處理煥然一新。它們用大量的數據和其他建模領域的復雜神經網絡架構,展現了理解、生成和操控人類語言的新能力。像 GPT 這樣的模型,在文本生產、翻譯、情感分析和問答等任務中都表現得非常出色。隨著它們在各個領域和日常生活中的廣泛應用,研究人員還在努力探索大模型的極限。

早期的循環神經網絡(RNN)語言模型通過短期記憶解決了前饋網絡在語言建模方面的局限性。通過反向傳播、因子分解和編碼器 - 解碼器框架的增強,RNN 語言模型得到了改進。雙向 RNN 可以讓我們考慮單詞前后的上下文。但隨著自注意力和多頭注意力機制的引入,Transformer 架構徹底改變了自然語言處理任務。像 Transformer-XL 這樣的進步,通過在段落間循環緩存來擴展上下文長度。自適應注意力跨度能自動學習最佳注意力跨度。還有一些變體通過使用輔助損失、稀疏注意力矩陣分解和結合 Transformer 和 RNN 的屬性等技巧來提高效率。大型語言模型在很多領域都能派上用場,比如通過像素關聯和強化學習來生成圖片。Transformer也很有用,在人機交互等領域,也能看到 Transformer 的身影。

1755675985307333.png

除了按照網絡結構來分類語言模型,還有一個方法是按照它們的訓練策略來分類。基于 Transformer 的版本被廣泛用于滿足各種用戶需求。現在流行的模型可以追溯到兩個基本方法——GPT 和 BERT。GPT 使用自注意力機制,并在未標記的文本上進行預訓練,展示出通過任務如文本生成和創意寫作進行遷移學習的潛力。GPT-2 通過更大規模的非監督學習改進了少量和零樣本的遷移。GPT-3 進一步將規模擴大了100 倍,證明更大的模型表現更好,驗證了擴展定律。

BERT 也展示了使用雙向編碼和預訓練任務(如掩碼語言建模和下一句預測)的成果。它的變體旨在提高效率,通過減少參數和訓練時間,同時不損失性能。ALBERT 對嵌入和共享層進行分解,而 RoBERTa 優化了預訓練決策。DistilBERT 和 TinyBERT 將大小最小化,而 SpanBERT 掩碼了跨度而不是令牌。其他模型也不斷進步,比如 GPT-4 具有前所未有的解釋能力,InstructGPT 通過反饋引入強化學習,BART 結合了GPT 和 BERT 的優點。

4.png

除了這些著名的模型外,大型語言模型還有潛力通過將模糊的人類指令翻譯成控制信號來讓機器人變得更智能,以滿足不同應用場景中的用戶需求。

把大模型用在人機交互上

1755676029813201.png

1755676046627474.png

用來做問答機器人

大型語言模型現在能通過搜索引擎和問答系統,很快地把我們的問題和答案對上號,讓我們能方便地查找各種知識。比如說,機器翻譯就是用了問答系統,才能快速地在不同語言之間做翻譯。研究也發現,只要模型夠大,用大量的文字資料訓練出來的語言模型,效果可以趕上其他更復雜的方法。而且,加上注意力機制之后的深度神經網絡,能讓模型讀懂文件,回答復雜問題,哪怕之前對相關領域完全不了解也沒關系。

雖然模型能根據文字提示編出很長的故事,但如果提示太模糊或者沒有提示,模型可能就會產生偏差或者加入一些不需要的內容。為了解決這個問題,專家們想出了控制代碼、屬性分類器和交互式查詢重寫等方法。控制代碼能控制生成的內容,屬性分類器和查詢重寫則能讓內容更加明確。優化查詢的數據結構之后,還能節省時間和內存。

最新的研究已經不再局限于文字了,開始探索圖像、視頻和音頻等多模態的生成。模型可以在帶有標簽的圖片數據集上進行預訓練,不再需要手動標記。通過擴展功能,模型還能把視頻和文本聯系起來,或者用 CLIP 等框架加入音頻,強化不同模態之間的聯系。這樣一來,人機交互就能更加順暢了。現在的研究甚至能讓模型根據語音生成代碼、做出動作,或者從語音中生成完整的人類動作。隨著模態和結構的不斷改進,語言模型現在已經能根據具體情況,對醫學教育等領域中的問題給出不同的答案。但是,我們也得小心,因為有些看起來很真實的文本,其實可能是模型編造出來的。所以,我們在使用模型生成的結果時,一定要保持理性,畢竟人類才是主導者。

讓社交機器人具有常識

將社交機器人融入人類社會一直是研究的熱門話題。社交機器人可以通過自然的對話來幫助人們,而不會讓人感到不舒服。但是,它們缺乏推理能力,這使它們很難獲得常識,并可能導致危險。大型語言模型的引入極大地改變了這一局面,它們提供了經過預訓練的模型,這些模型可以作為廣泛的知識庫進行泛化。

社交機器人的一個重要應用領域是教育。教室里的機器人可以因材施教,提供更個性化的課程。使用增強現實、語音機器人和 ChatGPT 的框架進一步促進了外語學習。聊天機器人憑借其出色的推理能力,還可以為孩子們生成連貫的故事。在更深層次上,語言模型可以理解模糊的內容,比如哲學。

而在醫療保健領域,有了大模型加持的機器人可以和自閉癥患者聊天,還可以提供其他新穎的人機交互方法。研究表明,ChatGPT 對醫學診斷的理解是足夠深入的。

遵循指令完成任務

語言模型讓虛擬智能體能夠執行多模態的指令和生成任務,這使得它們在實體機器人應用中具有巨大的潛力。這種技術可以助力日常任務或自動化生產線的實現,讓機器人更便捷地根據指令生成高層任務和運動計劃,而不需要大量的編程工作。

這里的一個問題是,人類的指令經常很籠統而且不明確。為了完成像準備早餐這樣的任務,機器人需要運用常識推理將語言指令轉化為動作計劃。早期技術使用先驗知識概率模型來推斷缺失的元素,但這種方法依賴于預定義的鏈接數據。為了更靈活地執行各種任務,需要更低成本的數據抽取。因此,許多研究采用語言模型作為機器人的大腦,利用常識知識進行決策,并執行生成的計劃。

最新研究進展表明,文字和視覺等多模態輸入可以用來理解環境和生成任務計劃,然后通過價值函數或測量標準選擇最佳方案。雖然初步的計劃可能看起來是最好的,但未預見的變化需要在線優化。狀態反饋可以根據當前情況評估計劃的有效性。成功檢測和場景描述通過內部對話逐步優化跨領域的指令執行。當存在不確定性時,可以通過物體配重或詢問人類來緩解不確定性。

語言模型技術還可以支持特定領域的任務模型。預訓練模型甚至可以直接從指令中生成控制策略,無需進行微調。多個智能體之間的角色扮演可以協作完成非同尋常的多機器人任務,推動智能控制的發展,使其能夠無縫地融入人機交互。

問題和挑戰

雖然大型語言模型在人機交互方面很強大,但要安全、有效地使用它們,還有一些挑戰需要解決。首先,要確保它們不會因為不恰當、有偏見或私密的內容而造成危害。其次,與用戶互動時,要保護用戶的隱私,并遵守公平等道德原則。

而且大模型有時候不太理解對話的細微差別,這可能會讓用戶感到沮喪。比如,如果它誤解了用戶的查詢或回答,用戶可能會感到困惑。這對于需要正確理解用戶意圖的交互來說非常重要,比如在指導機器人完成任務時。

此外,大模型在不同的背景、語言和用戶之間也有應用挑戰。比如,如何讓它在各種情況下都能理解和回應用戶的指令。如果它不能很好地適應不同的環境和用戶,那么它可能無法發揮出它的全部潛力。

還有一些其他問題需要解決。比如,如何訓練大模型、如何設計和微調它以改善性能。這些問題的解決對于將機器人成功融入人類社會至關重要。

總的來說,盡管大模型有很多優點,但要充分發揮它們的潛力,還需要不斷努力解決各種挑戰。

(來源:機器人大講堂)

轉載自:應急管理部上海消防研究所

中國人民警察大學版權所有 

百家乐官网怎样玩的| 百家乐官网2号程序| 太康县| 百家乐人生信条漫谈| 宝马会娱乐城官网| 彩会百家乐游戏| 百家乐官网赌博怎么玩| 威尼斯人娱乐网上百家乐的玩法技巧和规则 | 大发888娱乐城下载英皇国际| 适合做生意的开运方法| 赌博百家乐官网的路单| 大发888怎么玩不了| 百家乐路单破解软件| 百家乐官网大小桌布| 大发888被查封| 德晋百家乐官网的玩法技巧和规则| 大发888有手机版本吗| 百家乐最佳投注办法| 网上百家乐官网指| 娱乐城百家乐官网技巧| 真人娱乐城源码| YY百家乐的玩法技巧和规则 | 措美县| 百家乐b28博你发v| 百家乐一直下注庄家| 澳门百家乐官网的故事| 联博娱乐| 大发888真钱游戏祖比| 百家乐算号软件| 二八杠游戏机| 迷你百家乐的玩法技巧和规则| 1月24进房子风水好吗| 新朝代百家乐官网开户网站| 百家乐官网如何破解| 德州扑克比赛| 德州扑克发牌规则| 澳门百家乐是怎样赌| 赌百家乐心里技巧| 育儿| 永德县| 鹤峰县|