波多野结衣一区二区三区在线播放,天堂草原电视剧在线观看

本文提出了一種將視覺語言模型（VLM）轉(zhuǎn)換為端到端導航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離，而是使用VLM在一步中直接選擇動作。驚訝的是，我們發(fā)現(xiàn)VLM可以作為一種無需任何微調(diào)或?qū)Ш綌?shù)據(jù)的端到端策略來使用。這使得該方法具有開放性和可適用于任何下游導航任務的通用性。

01本文核心內(nèi)容

導航問題的很大一部分涉及到與回答長上下文圖像和視頻問題所需的類似認知過程，這正是當代視覺語言模型（VLMs）擅長的領(lǐng)域。然而，當這些模型被直接應用于導航任務時，局限性便顯現(xiàn)出來。具體而言，當給定一個與觀察-動作歷史相結(jié)合的任務描述時，VLMs 常常難以生成精細的空間輸出以避開障礙物，并且無法有效利用其長上下文推理能力來支持有效的導航。

為應對這些挑戰(zhàn)，先前的工作將VLMs作為模塊化系統(tǒng)的一個組成部分，以執(zhí)行高級推理和識別任務。這些系統(tǒng)通常包含一個明確的3D映射模塊和一個規(guī)劃器來處理任務中更具實體性的部分，例如運動和探索。雖然模塊化具有讓每個組件僅用于其擅長的子任務的優(yōu)勢，但也帶來了系統(tǒng)復雜性和任務專業(yè)化的劣勢。

在本研究中，我們表明，現(xiàn)成的VLM可用作零樣本和端到端的語言條件導航策略。實現(xiàn)這一目標的關(guān)鍵思路是將導航問題轉(zhuǎn)化為VLM擅長的事情：回答有關(guān)圖像的問題。

為此，我們開發(fā)了一種新穎的提示策略，使VLM能夠明確考慮探索和避障問題。這種提示具有通用性，即它可用于任何基于視覺的導航任務。

與先前的方法相比，我們未使用特定模態(tài)的experts，未訓練任何特定領(lǐng)域的模型，也未假定能夠獲取模型的概率。

我們在已確立的具身導航基準上對我們的方法進行了評估，結(jié)果表明，與現(xiàn)有的提示方法相比，我們的方法顯著提高了導航性能。

02相關(guān)工作

最常見的學習端到端導航策略的方法是利用離線數(shù)據(jù)集從頭訓練模型。然而，大規(guī)模導航數(shù)據(jù)的收集頗具挑戰(zhàn)，以致這些模型在推廣至新任務或分布外環(huán)境時往往表現(xiàn)不佳。

另一種增強泛化能力的途徑是利用機器人特定數(shù)據(jù)對現(xiàn)有的視覺語言模型進行微調(diào)。盡管此方法能生成更穩(wěn)健的端到端策略，但微調(diào)可能會破壞微調(diào)數(shù)據(jù)集中未涵蓋的特征，最終限制模型的泛化能力。

還有一種研究方向側(cè)重于零樣本使用這些模型，通過提示使模型的響應與任務規(guī)范相符。例如，使用CLIP或DETIC特征將視覺觀測與語言目標對齊，構(gòu)建環(huán)境的語義地圖，并采用傳統(tǒng)方法進行規(guī)劃。其他研究工作設(shè)計了特定模塊來處理探索任務。這些系統(tǒng)通常需要對置信度進行估計，以知曉何時停止探索，這通常通過使用令牌或?qū)ο蟾怕蕘韺崿F(xiàn)。此外，許多此類方法還采用了低級導航模塊，將動作選擇抽象為諸如快速行進法之類的預訓練點到點策略。

視覺提示方法：為了提升VLMs的任務特定性能，近期的工作包括在將圖像傳遞給VLMs之前對其進行物理修改。

為具身導航提示VLMs：CoNVOI在圖像上覆蓋數(shù)字標記，并提示VLMs輸出與上下文線索（例如，留在人行道上）一致的這些標記序列，將其用作導航路徑。與我們的工作不同，它們（i）依賴低級規(guī)劃器來避開障礙物，而非直接將VLMs的輸出作為導航動作；（ii）未利用VLMs引導代理朝向特定目標位置。PIVOT引入了一種與我們最為相似的視覺提示方法。他們通過將單步動作表示為指向圖像上帶標簽圓圈的箭頭來處理導航問題。在每個步驟中，從各向同性的高斯分布中采樣動作，其均值和方差根據(jù)VLMs的反饋迭代更新。在優(yōu)化分布后選擇最終動作。雖然PIVOT能夠處理各種現(xiàn)實世界的導航和操作任務，但它有兩個顯著缺陷：（i）未納入深度信息來評估動作提議的可行性，導致移動效率較低；（ii）選擇單個動作需要多次調(diào)用VLMs，導致較高的計算成本和延遲。

03方法架構(gòu)

我們提出了VLMnav，這一導航系統(tǒng)將目標G（可以用語言或圖像來指定）、RGB-D圖像I、姿態(tài)ξ作為輸入，并隨后輸出動作a。動作空間由機器人框架中繞偏航軸的旋轉(zhuǎn)和沿前軸的位移組成，使得所有動作都能以極坐標來表示。由于已知VLM在處理連續(xù)坐標時存在困難，我們轉(zhuǎn)而將導航問題轉(zhuǎn)換為從一組離散選項中選擇動作。我們的核心思路是以避免障礙物碰撞并促進探索的方式來選擇這些動作選項。

我們首先通過使用深度圖像來估計障礙物的距離，從而確定局部區(qū)域的可通行性。我們利用深度圖像和姿態(tài)信息來維持場景的自上而下的體素地圖，并顯著地將體素標記為已探索或未探索。這樣的地圖由動作提議器使用，以確定一組避免障礙物并促進探索的動作。然后，通過投影組件將這組可能的動作投影到第一人稱視角的RGB圖像上。最后，VLM接收此圖像和精心設(shè)計的提示作為輸入，以選擇一個動作，由代理執(zhí)行。為確定情節(jié)的終止，我們使用一個單獨的VLM調(diào)用。

04實驗

我們在兩個廣受歡迎的具身導航基準測試ObjectNav和GoatBench上對我們的方法進行了評估，這兩個基準測試均使用了來自Habitat-Matterport3D數(shù)據(jù)集的場景。此外，我們還分析了端到端VLM智能體的性能如何隨設(shè)計參數(shù)的變化而改變，例如視場、用于提示模型的上下文歷史長度以及深度感知的質(zhì)量。

設(shè)置：智能體采用半徑為0.17米、高度為1.5米的圓柱體形狀。我們?yōu)橹悄荏w配備了一個以自我為中心的RGB-D傳感器，其分辨率為(1080,1920)，水平視場角（FOV）為131°。攝像頭像中那樣向下傾斜25°，有助于確定可導航性。考慮到其成本低且效果好，我們在所有實驗中均使用GeminiFlash作為VLM。

指標：與之前的工作相同，我們使用以下指標：(i)成功率（SR）：成功完成的情節(jié)所占的比例；(ii)成功率加權(quán)逆路徑長度（SPL）：路徑效率的衡量指標。

基線：我們使用PIVOT作為基線，因為它與我們的方法最為相似。為研究我們的動作選擇方法的影響，我們將其剔除，評估“Oursw/onav”：與我們的方法相同，但不含可導航性和動作提議器組件。此基線的動作選擇是一組靜態(tài)的、等距分布的動作選擇，包括轉(zhuǎn)身動作。值得注意的是，這些動作未考慮可導航性或探索。為進一步評估視覺注釋的影響，我們還評估了基線“PromptOnly”，它能看到以文本描述的動作（“轉(zhuǎn)身”、“向右轉(zhuǎn)”、“向前移動”等），但沒有視覺注釋。這些不同的提示基線可在圖5中可視化。

05總結(jié)

在這項工作中，我們提出了VLMnav，這是一種新穎的視覺提示工程方法，能夠使現(xiàn)成的VLM充當端到端的導航策略。該方法背后的主要思路是精心挑選動作提議并將其投射到圖像上，有效地將導航問題轉(zhuǎn)化為問答問題。通過在ObjectNav和GOAT基準上的評估，我們發(fā)現(xiàn)其性能相較于迭代基線PIVOT（在視覺導航提示工程方面先前的最先進水平）有了顯著提升。我們的設(shè)計研究進一步凸顯了寬視場的重要性以及僅使用RGB圖像來部署我們的方法的可能性。

我們的方法存在一些局限性。禁用“允許滑動”參數(shù)后性能的大幅下降表明存在多次與障礙物的碰撞，這在實際部署中可能會成為問題。此外，我們發(fā)現(xiàn)像[A benchmark for multi-modal lifelongnavigation]這樣的專用系統(tǒng)表現(xiàn)優(yōu)于我們的工作。然而，隨著VLM能力的不斷提高，該方法或能夠幫助未來的VLM在具身任務中達到或超越專用系統(tǒng)的性能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

導航

導航

+關(guān)注

關(guān)注
7

文章
542

瀏覽量
42912
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
557

瀏覽量
10585
深度圖像

深度圖像

+關(guān)注

關(guān)注
0

文章
19

瀏覽量
3573

原文標題：實現(xiàn)端到端導航！基于視覺語言模型的導航框架VLMnav

文章出處：【微信號：gh_c87a2bc99401，微信公眾號：INDEMIND】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

如何利用Transformers了解視覺語言模型

將模型稱為 “視覺語言” 模型是什么意思？一個結(jié)合了視覺和語言模態(tài)的

發(fā)表于 03-03 09:49 ?1198次閱讀

如何利用Transformers了解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

【大語言模型：原理與工程實踐】大語言模型的評測

計算和代碼糾錯等。這些場景覆蓋日常生活和學習的多個方面，使得對話能力評測變得尤為復雜和關(guān)鍵。為了全面評估大語言模型在各種應用場景下的對話能力，研究人員和使用者需要一套綜合性的評測框架。該框架

發(fā)表于 05-07 17:12

視覺導航關(guān)鍵技術(shù)及應用

由于視覺導航技術(shù)的應用越來越普及 ,因此 ,有必要對視覺導航中的關(guān)鍵技術(shù)及應用進行研究。文章對其中的圖像處理技術(shù)和定位與跟蹤技術(shù)進行了詳細研究 ,并與此相對應 ,介紹的相關(guān)的應用。

發(fā)表于 09-25 08:09

基于視覺自動導航車的物資搬運系統(tǒng)設(shè)計

通過對基于視覺的自動導航車(AGV)設(shè)計方法的研究，提出了應用自動導航車設(shè)計物資搬運系統(tǒng)的框架結(jié)構(gòu)。系統(tǒng)利用無線收發(fā)模塊進行主從工作站間的實時無線通訊，利用CCD 攝像

發(fā)表于 06-18 09:34 ?27次下載

視覺導航技術(shù)的詳細資料概述

概述了視覺導航技術(shù)。視覺導航依據(jù)視覺圖像，利用圖像處理、計算機視覺、

發(fā)表于 08-04 17:02 ?8次下載

視覺信號輔助的自然語言文法學習

提出了視覺信號輔助下的概率文法的通用學習框架。該框架依賴于概率文法模型（Probabilistic Context-Free Grammars），具有端到端學習、完全可微的優(yōu)點。其次

發(fā)表于 01-05 14:14 ?2289次閱讀

可同步目標導向行為和記憶空間結(jié)構(gòu)的視覺導航方法

框架，同時添加碰撞預測作為模型輔助仼務;然后，在智能體學刁導航過程中，利用時間相關(guān)性網(wǎng)絡(luò)祛除冗余觀測及尋找導航節(jié)點，實現(xiàn)通過情景記憶遞増描述環(huán)境結(jié)構(gòu);最后，將空間拓撲地圖作為路徑規(guī)劃模

發(fā)表于 03-24 14:36 ?11次下載

超大Transformer語言模型的分布式訓練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細介紹Megatron的設(shè)計和實踐，探索這一框架

發(fā)表于 10-11 16:46 ?3031次閱讀

探究超大Transformer語言模型的分布式訓練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細介紹Megatron的設(shè)計和實踐，探索這一框架

發(fā)表于 10-20 09:25 ?2660次閱讀

視覺語言導航領(lǐng)域任務、方法和未來方向的綜述

視覺語言導航（VLN）是一個新興的研究領(lǐng)域，旨在構(gòu)建一種可以用自然語言與人類交流并在真實的3D環(huán)境中導航的具身代理，與計算機

發(fā)表于 09-20 14:30 ?5149次閱讀

機器人基于開源的多模態(tài)語言視覺大模型

ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

發(fā)表于 01-19 11:43 ?546次閱讀

大語言模型開發(fā)框架是什么

大語言模型開發(fā)框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面，AI部落小編為您介紹大語言

發(fā)表于 12-06 10:28 ?388次閱讀

NaVILA：加州大學與英偉達聯(lián)合發(fā)布新型視覺語言模型

日前，加州大學的研究人員攜手英偉達，共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機器人導航領(lǐng)域展現(xiàn)出了獨特的應用潛力，為智能機

發(fā)表于 12-13 10:51 ?529次閱讀

一文詳解視覺語言模型

視覺語言模型（VLM）是一種多模態(tài)、生成式 AI 模型，能夠理解和處理視頻、圖像和文本。

發(fā)表于 02-12 11:13 ?1132次閱讀

?VLM（視覺語言模型）?詳細解析

視覺語言模型（Visual Language Model, VLM）是一種結(jié)合視覺（圖像/視頻）和語言（文本）處理能力的多模態(tài)人工智能

發(fā)表于 03-17 15:32 ?1329次閱讀