深度解析CLIP在視覺(jué)語(yǔ)言理解與定位任務(wù)上的無(wú)監(jiān)督遷移研究

　　CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　論文題目：CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　發(fā)表期刊：IEEE Transactions on Multimedia 一區(qū)頂刊

　　工作內(nèi)容：基于自步課程學(xué)習(xí)實(shí)現(xiàn)多模態(tài)大模型CLIP在多模態(tài)視覺(jué)語(yǔ)言理解與定位任務(wù)上的無(wú)監(jiān)督遷移研究

第一作者：肖麟慧（中科院自動(dòng)化所博士）通訊作者：徐常勝作者單位：中國(guó)科學(xué)院自動(dòng)化所-多模態(tài)人工智能系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室；鵬城實(shí)驗(yàn)室；中國(guó)科學(xué)院大學(xué)人工智能學(xué)院 ?

圖1。我們提出的CLIP-VG的主要思想，它在自步課程自適應(yīng)的范式中使用偽語(yǔ)言標(biāo)簽來(lái)自適應(yīng)CLIP，從而實(shí)現(xiàn)在視覺(jué)定位的任務(wù)上得遷移學(xué)習(xí)。

論文摘要：

視覺(jué)定位(VG)是視覺(jué)和語(yǔ)言領(lǐng)域的一個(gè)重要課題，它涉及到在圖像中定位由表達(dá)句子所描述的特定區(qū)域。為了減少對(duì)人工標(biāo)記數(shù)據(jù)的依賴，無(wú)監(jiān)督的方法使用偽標(biāo)簽進(jìn)行學(xué)習(xí)區(qū)域定位。然而，現(xiàn)有的無(wú)監(jiān)督方法的性能高度依賴于偽標(biāo)簽的質(zhì)量，并且這些方法總是遇到多樣性有限的問(wèn)題。為了利用視覺(jué)和語(yǔ)言預(yù)訓(xùn)練模型來(lái)解決定位問(wèn)題，并合理利用偽標(biāo)簽，我們提出了一種新穎的方法CLIP-VG，它可以使用偽語(yǔ)言標(biāo)簽對(duì)CLIP進(jìn)行自步式地課程自適應(yīng)。我們提出了一個(gè)簡(jiǎn)單而高效的端到端網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)CLIP到視覺(jué)定位的遷移。在以CLIP為基礎(chǔ)的架構(gòu)的基礎(chǔ)上，我們進(jìn)一步提出了單源和多源課程自適應(yīng)算法，這些算法可以逐步找到更可靠的偽語(yǔ)言標(biāo)簽來(lái)學(xué)習(xí)最優(yōu)模型，從而實(shí)現(xiàn)偽語(yǔ)言標(biāo)簽的可靠性和多樣性之間的平衡。我們的方法在單源和多源場(chǎng)景下的RefCOCO/+/g數(shù)據(jù)集上都明顯優(yōu)于當(dāng)前最先進(jìn)的無(wú)監(jiān)督方法，提升幅度分別為從6.78%至10.67%和11.39%至14.87%。此外，我們的方法甚至優(yōu)于現(xiàn)有的弱監(jiān)督方法。代碼和模型可在https://github.com/linhuixiao/CLIP-VG上獲得。

論文引言：

視覺(jué)定位(Visual Grounding，VG)，又稱指代表達(dá)理解（Referring Expression Comprehension，REC)，或短語(yǔ)定位（Phrase Grounding, PG)，是指在特定圖像中定位文本表達(dá)句子所描述的邊界框(bounding box，即bbox)區(qū)域，這一技術(shù)已成為視覺(jué)問(wèn)答[6]、視覺(jué)語(yǔ)言導(dǎo)航[7]等視覺(jué)語(yǔ)言(Vision-Language, V-L)領(lǐng)域的關(guān)鍵技術(shù)之一。? ? ?

由于其跨模態(tài)的特性，定位需要同時(shí)理解語(yǔ)言表達(dá)和圖像的語(yǔ)義，這一直是一項(xiàng)具有挑戰(zhàn)性的任務(wù)?？紤]到其任務(wù)復(fù)雜性，現(xiàn)有的方法大多側(cè)重于全監(jiān)督設(shè)置(即，使用手工三元組數(shù)據(jù)作為監(jiān)督信號(hào))。然而，有監(jiān)督的定位要求需要高質(zhì)量的手工標(biāo)注信息。具體來(lái)說(shuō)，表達(dá)句子需要與bbox配對(duì)，同時(shí)在指代上是唯一的，并且需要具有豐富的語(yǔ)義信息。為了減少對(duì)手工勞動(dòng)密集的標(biāo)記數(shù)據(jù)的依賴，弱監(jiān)督(即，僅給定圖像和查詢對(duì)，沒(méi)有配對(duì)的bbox)和無(wú)監(jiān)督定位(即，不使用任何與任務(wù)相關(guān)的標(biāo)注信息去學(xué)習(xí)定位圖像區(qū)域)最近受到越來(lái)越多的關(guān)注。現(xiàn)有的無(wú)監(jiān)督定位方法主要是利用預(yù)訓(xùn)練的檢測(cè)器和額外的大規(guī)模語(yǔ)料庫(kù)實(shí)現(xiàn)對(duì)未配對(duì)數(shù)據(jù)的指代定位。最先進(jìn)的(SOTA)無(wú)監(jiān)督方法提出使用人工設(shè)計(jì)的模板和空間關(guān)系先驗(yàn)知識(shí)來(lái)匹配目標(biāo)和屬性檢測(cè)器獲得的結(jié)果，以及相應(yīng)的目標(biāo)bbox。這將生成表達(dá)式和bbox偽對(duì)，它們被用作為偽標(biāo)簽，進(jìn)而以監(jiān)督的方式學(xué)習(xí)定位模型。然而，這些現(xiàn)有方法中的偽標(biāo)注信息的有效性嚴(yán)重依賴于總是在特定數(shù)據(jù)集上預(yù)訓(xùn)練的目標(biāo)或?qū)傩詸z測(cè)器。這可能會(huì)限制語(yǔ)言分類和匹配模式的多樣性，以及上下文語(yǔ)義的豐富度，最終損害模型泛化能力。

在過(guò)去的幾年里，視覺(jué)語(yǔ)言預(yù)訓(xùn)練(Vision-Language Pre-trained, VLP)基礎(chǔ)模型(如CLIP)通過(guò)使用少量任務(wù)相關(guān)數(shù)據(jù)來(lái)進(jìn)行遷移或提示的范式，在許多下游任務(wù)上取得了令人振奮的結(jié)果。這些基礎(chǔ)模型的主要優(yōu)點(diǎn)是，它們可以通過(guò)自監(jiān)督約束從現(xiàn)成的web數(shù)據(jù)和各種下游任務(wù)數(shù)據(jù)(例如，BeiT3)中學(xué)習(xí)一般通用的知識(shí)。這啟發(fā)我們考慮轉(zhuǎn)移VLP模型(即，本工作中使用CLIP)，以無(wú)監(jiān)督的方式解決下游定位任務(wù)。然而由于缺乏與任務(wù)相關(guān)的標(biāo)記數(shù)據(jù)，因此，這是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。一個(gè)直接的解決方案是利用以前的無(wú)監(jiān)督定位方法中生成的偽標(biāo)簽來(lái)微調(diào)預(yù)訓(xùn)練的模型。然而，這將影響預(yù)訓(xùn)練模型的泛化能力，因?yàn)樘囟ǖ膫螛?biāo)簽和真實(shí)特定任務(wù)的標(biāo)簽之間存在差距。

在本文中，我們提出了CLIP-VG，如圖1所示，這是一種新穎的方法，可以通過(guò)利用偽語(yǔ)言標(biāo)簽來(lái)解決視覺(jué)定位問(wèn)題，對(duì)CLIP進(jìn)行自步地課程自適應(yīng)。首先，我們提出了一個(gè)簡(jiǎn)單而高效的端到端純Transformer的僅編碼器的網(wǎng)絡(luò)架構(gòu)。我們?yōu)榱藢?shí)現(xiàn)CLIP向視覺(jué)定位的任務(wù)遷移，只需要調(diào)整少量的參數(shù)，花費(fèi)最少的訓(xùn)練資源。其次，為了通過(guò)尋找可靠的偽標(biāo)簽來(lái)實(shí)現(xiàn)對(duì)基于CLIP的網(wǎng)絡(luò)架構(gòu)的更穩(wěn)定的自適應(yīng)遷移，我們提出了一種評(píng)估實(shí)例級(jí)標(biāo)簽質(zhì)量的方案和一種基于自步課程學(xué)習(xí)(SPL)的漸進(jìn)自適應(yīng)算法，即可靠性評(píng)估(III-C部分)和單源自步自適應(yīng)(SSA)算法(III-D部分)。實(shí)例級(jí)可靠性被定義為通過(guò)特定標(biāo)簽源學(xué)習(xí)的評(píng)估器模型正確預(yù)測(cè)的可能性。具體而言，我們學(xué)習(xí)了一個(gè)初步的定位模型作為可靠性評(píng)估器，以CLIP為偽標(biāo)簽的主干，然后對(duì)樣本的可靠性進(jìn)行評(píng)分，構(gòu)建可靠性直方圖(RH)。接下來(lái)，根據(jù)構(gòu)建的RH，以自步的方式執(zhí)行SSA算法，逐步采樣更可靠的偽標(biāo)簽，以提高定位的性能。為了有效地選擇偽配對(duì)的數(shù)據(jù)子集，我們?cè)O(shè)計(jì)了一種基于改進(jìn)的二叉搜索的貪心樣本選擇策略，以實(shí)現(xiàn)可靠性和多樣性之間的最優(yōu)平衡。

我們所提出的CLIP-VG的一個(gè)主要優(yōu)點(diǎn)是其漸進(jìn)式自適應(yīng)框架不依賴于偽標(biāo)簽的特定形式或質(zhì)量。因此，CLIP-VG可以靈活擴(kuò)展，訪問(wèn)多個(gè)偽標(biāo)簽源。在多源場(chǎng)景中，我們首先獨(dú)立學(xué)習(xí)每個(gè)偽標(biāo)簽源的特定源的定位模型。然后，我們提出了源級(jí)復(fù)雜度的評(píng)估標(biāo)準(zhǔn)。具體而言，在SPL的不同步驟中，我們根據(jù)每個(gè)表達(dá)式中實(shí)體的平均數(shù)量，從簡(jiǎn)單到復(fù)雜逐步選擇偽標(biāo)簽源。在SSA的基礎(chǔ)上，我們進(jìn)一步提出了特定源可靠性(SR)和跨源可靠性(CR)，以及多源自適應(yīng)(MSA)算法(第3 - e節(jié))。特定源的可靠性定義為使用當(dāng)前標(biāo)簽源學(xué)習(xí)的定位模型正確預(yù)測(cè)當(dāng)前偽標(biāo)簽的可能性近似。相應(yīng)的，交叉源可靠性的定義是通過(guò)與其他標(biāo)簽源學(xué)習(xí)的定位模型正確預(yù)測(cè)當(dāng)前源偽標(biāo)簽的可能性近似。因此，整個(gè)方法可以漸進(jìn)式地利用偽標(biāo)簽來(lái)學(xué)習(xí)易難課程范式中的定位模型，最大限度地利用不同源的偽標(biāo)簽，保證基礎(chǔ)模型的泛化能力。

在RefCOCO/+/g、RefitGame和Flickr30K Entities這五個(gè)主流測(cè)試基準(zhǔn)中，我們的模型在單源和多源場(chǎng)景下的性能都明顯優(yōu)于SOTA無(wú)監(jiān)督定位方法Pseudo-Q，分別達(dá)到6.78% ~ 10.67% 和11.39% ~ 14.87%。所提出的SSA算法和MSA算法的性能增益為3%以上。此外，我們的方法甚至優(yōu)于現(xiàn)有的弱監(jiān)督方法。與全監(jiān)督SOTA模型QRNet相比，我們僅使用其更新參數(shù)的7.7% 就獲得了相當(dāng)?shù)慕Y(jié)果，同時(shí)在訓(xùn)練和推理方面都獲得了顯著的加速，分別高達(dá)26.84倍和7.41倍。與最新報(bào)道的結(jié)果相比，我們的模型在速度和能效方面也達(dá)到了SOTA。綜上所述，本文的貢獻(xiàn)有四個(gè)方面:

據(jù)我們所知，我們是第一個(gè)使CLIP實(shí)現(xiàn)無(wú)監(jiān)督視覺(jué)定位的。我們的方法可以將CLIP的跨模態(tài)學(xué)習(xí)能力轉(zhuǎn)移到視覺(jué)定位上，而且訓(xùn)練成本很小。
我們是第一個(gè)在無(wú)監(jiān)督視覺(jué)定位中引入自步課程學(xué)習(xí)的方法。我們提出的可靠性評(píng)估和單源自步自適應(yīng)的方法可以通過(guò)在由易到難的學(xué)習(xí)范式中使用偽標(biāo)簽逐步增強(qiáng)基于CLIP的視覺(jué)定位模型。
我們首先提出了多源自步自適應(yīng)算法來(lái)擴(kuò)展了我們的方法，同時(shí)可以獲取多個(gè)偽標(biāo)簽源的信息，可以靈活地提高語(yǔ)言分類的多樣性。
我們進(jìn)行了大量的實(shí)驗(yàn)來(lái)評(píng)估我們方法的有效性。結(jié)果表明，我們的方法在無(wú)監(jiān)督環(huán)境下取得了顯著的改進(jìn)，同樣，我們的模型在全監(jiān)督環(huán)境下也具有一定的競(jìng)爭(zhēng)力。

圖2. 我們的CLIP-VG模型架構(gòu)(III-B部分)作為視覺(jué)語(yǔ)言定位模型來(lái)實(shí)現(xiàn)CLIP的自步度課程自適應(yīng)。

圖3。利用偽語(yǔ)言標(biāo)簽和自步課程學(xué)習(xí)實(shí)現(xiàn)無(wú)監(jiān)督視覺(jué)定位。(a)偽語(yǔ)言標(biāo)簽的例子(不同偽語(yǔ)言標(biāo)簽的來(lái)源在第IV-A節(jié)中進(jìn)行了描述)。(b)單源自步自適應(yīng)(Single-source self-paced Adapting, SSA)利用視覺(jué)語(yǔ)言定位模型(VLGM)對(duì)偽模板標(biāo)簽進(jìn)行可靠性評(píng)估和貪婪樣本選擇，通過(guò)尋找可靠的偽標(biāo)簽實(shí)現(xiàn)對(duì)CLIP更穩(wěn)定的自適應(yīng)遷移。(c)多源自適應(yīng)(Multi-source Self-paced Adapting, MSA)在SSA的基礎(chǔ)上進(jìn)一步提出了特定源可靠性(SR)和跨源可靠性(CR)。它依次進(jìn)行偽標(biāo)簽源選擇、可靠性評(píng)估器選擇和貪婪樣本選擇，從而達(dá)到可靠性和多樣性的最佳平衡。

表1. 在RefCOCO/+/g三個(gè)數(shù)據(jù)集上基于top-1精度的SOTA方法對(duì)比結(jié)果

表1. 在Rferit Game和Flickr兩個(gè)數(shù)據(jù)集上基于top-1精度的SOTA方法對(duì)比結(jié)果

表3. 模型的能效、推理訓(xùn)練速度優(yōu)勢(shì)對(duì)比

編輯：黃飛

閱讀全文

spl(16234) spl(16234)
網(wǎng)絡(luò)架構(gòu)(12410) 網(wǎng)絡(luò)架構(gòu)(12410)
Clip(6566) Clip(6566)
大模型(810) 大模型(810)

評(píng)論

相關(guān)推薦

基于將 CLIP 用于下游few-shot圖像分類的方案

對(duì)比性圖像語(yǔ)言預(yù)訓(xùn)練模型（CLIP）在近期展現(xiàn)出了強(qiáng)大的視覺(jué)領(lǐng)域遷移能力，可以在一個(gè)全新的下游數(shù)據(jù)集上進(jìn)行 zero-shot 圖像識(shí)別。

2022-09-27 09:46:17

3518

一種在視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中提出的新方法，來(lái)探索未知環(huán)境

視覺(jué)語(yǔ)言導(dǎo)航（vision-language navigation, VLN）任務(wù)指的是引導(dǎo)智能體或機(jī)器人在真實(shí)三維場(chǎng)景中能理解自然語(yǔ)言命令并準(zhǔn)確執(zhí)行。結(jié)合下面這張圖再形象、通俗一點(diǎn)解釋：假如智能

2019-03-05 09:38:44

4089

2017全國(guó)深度學(xué)習(xí)技術(shù)應(yīng)用大會(huì)

數(shù)據(jù)驅(qū)動(dòng)為核心的深度學(xué)習(xí)通過(guò)逐層抽象方式形成原始數(shù)據(jù)區(qū)別性表達(dá)，在自然語(yǔ)言、語(yǔ)音和計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了顯著進(jìn)展。但是，這一任務(wù)式、刺激式的學(xué)習(xí)機(jī)制依賴于大量標(biāo)注數(shù)據(jù)，如何形成解釋性強(qiáng)、數(shù)據(jù)依賴靈活

2017-03-22 17:16:00

在National儀器上對(duì)CLIP進(jìn)行了更改得到一個(gè)錯(cuò)誤

大家好，我在National儀器上對(duì)CLIP（NI6587連接器Serdes）進(jìn)行了更改，我得到一個(gè)錯(cuò)誤編譯如下：LabVIEW FPGA：La compilationaéchouéàinssed

2018-10-19 14:36:19

定位技術(shù)原理解析

【追蹤嫌犯的利器】定位技術(shù)原理解析（4）

2020-05-04 12:20:20

深度無(wú)盤多配置一些經(jīng)驗(yàn)心得

`深度無(wú)盤多配置一些經(jīng)驗(yàn)心得在論壇上看到有不少兄弟在討論說(shuō)做無(wú)盤的多配置問(wèn)題，看到有不少兄弟說(shuō)喜歡做成單包多配置，也有說(shuō)做成多包的比較好?？傊蠹叶加凶约旱目捶ǎ残U有道理的。我今天就是談下自

2011-07-19 09:22:08

深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺(jué)簡(jiǎn)介

文章目錄1 簡(jiǎn)介1.1 深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺(jué)1.2 性能考量1.3 社區(qū)支持2 結(jié)論3 參考在計(jì)算機(jī)視覺(jué)領(lǐng)域中，不同的場(chǎng)景不同的應(yīng)用程序需要不同的解決方案。在本文中，我們將快速回顧可用于在

2021-12-23 06:17:19

深度學(xué)習(xí)中的機(jī)器視覺(jué)（網(wǎng)絡(luò)壓縮、視覺(jué)問(wèn)答、可視化等）

得初學(xué)者經(jīng)?？ㄔ谝恍└拍畹?b class="flag-6" style="color: red">理解上，讀論文似懂非懂，十分吃力。另一方面，即使有了簡(jiǎn)單易用的深度學(xué)習(xí)框架，如果對(duì)深度學(xué)習(xí)常見(jiàn)概念和基本思路不了解，面對(duì)現(xiàn)實(shí)任務(wù)時(shí)不知道如何設(shè)計(jì)、診斷、及調(diào)試網(wǎng)絡(luò)，最終仍會(huì)

2019-07-21 13:00:00

深度搜索Linux操作系統(tǒng)：系統(tǒng)構(gòu)建和原理解析

深度搜索Linux操作系統(tǒng)：系統(tǒng)構(gòu)建和原理解析！比較好的一本Linux內(nèi)核書籍，從另一個(gè)角度去解釋！

2014-09-16 16:40:10

視覺(jué)定位方案求助，謝

功能：視覺(jué)定位玻璃的位置和角度，給平面4軸機(jī)器人抓取1.附件是我自己用視覺(jué)助手做的驗(yàn)證，很不穩(wěn)定2.相機(jī)是1200W，視野范圍是350*200，玻璃規(guī)格大小有很多，圖片是其中一款3.定位精度可以+1mm，吸盤抓取后放進(jìn)輸送帶有經(jīng)驗(yàn)的老師麻煩試下，有償幫助，謝

2021-10-05 17:15:58

解析深度學(xué)習(xí)：卷積神經(jīng)網(wǎng)絡(luò)原理與視覺(jué)實(shí)踐

解析深度學(xué)習(xí)：卷積神經(jīng)網(wǎng)絡(luò)原理與視覺(jué)實(shí)踐

2020-06-14 22:21:12

解析GPS模塊串口發(fā)送的數(shù)據(jù)

/ NMEA0183-C 的庫(kù)我把它遷移到我的碼云里了,方便大家下載遷移到碼云的NMEA0183-C我在KEIL C51中實(shí)現(xiàn)了GPS數(shù)據(jù)解析:...

2021-07-16 06:45:37

遷移學(xué)習(xí)

PDA、Source-Free DA上的應(yīng)用。六、遷移學(xué)習(xí)前沿應(yīng)用遷移學(xué)習(xí)在語(yǔ)義分割中的應(yīng)用遷移學(xué)習(xí)在目標(biāo)檢測(cè)中的應(yīng)用遷移學(xué)習(xí)在行人重識(shí)別中的應(yīng)用圖片與視頻風(fēng)格遷移章節(jié)目標(biāo)：掌握深度遷移學(xué)習(xí)在語(yǔ)義分割

2022-04-21 15:15:11

AUTOSAR架構(gòu)深度解析精選資料分享

AUTOSAR架構(gòu)深度解析本文轉(zhuǎn)載于：AUTOSAR架構(gòu)深度解析AUTOSAR的分層式設(shè)計(jì)，用于支持完整的軟件和硬件模塊的獨(dú)立性(Independence)，中間RTE(Runtime Environment)作為虛擬功能...

2021-07-28 07:02:13

AUTOSAR架構(gòu)深度解析精選資料推薦

AUTOSAR架構(gòu)深度解析本文轉(zhuǎn)載于：AUTOSAR架構(gòu)深度解析目錄AUTOSAR架構(gòu)深度解析AUTOSAR分層結(jié)構(gòu)及應(yīng)用軟件層功能應(yīng)用軟件層虛擬功能總線VFB及運(yùn)行環(huán)境RTE基礎(chǔ)軟件層(BSW)層

2021-07-28 07:40:15

ArkTS語(yǔ)言基礎(chǔ)類庫(kù)-解析

ArkTS語(yǔ)言基礎(chǔ)類庫(kù)是HarmonyOS系統(tǒng)上為應(yīng)用開(kāi)發(fā)者提供的常用基礎(chǔ)能力，主要包含能力如下圖所示。圖1 ArkTS語(yǔ)言基礎(chǔ)類庫(kù)能力示意圖提供[異步并發(fā)和多線程并發(fā)]的能力。支持

2024-02-20 16:44:11

C語(yǔ)言深度解析

C語(yǔ)言深度解析，本資料來(lái)源于網(wǎng)絡(luò)，對(duì)C語(yǔ)言的學(xué)習(xí)有很大的幫助，有著較為深刻的解析，可能會(huì)對(duì)讀者有一定的幫助。

2023-09-28 07:00:01

C語(yǔ)言深度剖析

C語(yǔ)言深度剖析[完整版].pdfC語(yǔ)言深度剖析[完整版].pdf (919.58 KB )

2019-03-19 05:11:41

C語(yǔ)言要點(diǎn)解析PDF下載

C語(yǔ)言要點(diǎn)解析(含便于理解的備注)C語(yǔ)言要點(diǎn)解析(含便于理解的備注).pdf 2016-10-27 17:59 上傳點(diǎn)擊文件名下載附件 1.08 MB, 下載次數(shù): 8

2018-07-19 09:15:26

CCD視覺(jué)定位系統(tǒng)在紫外激光打標(biāo)機(jī)上的應(yīng)用

CCD視覺(jué)紫外激光打標(biāo)機(jī)，紫外激光打標(biāo)機(jī)有了CCD視覺(jué)定位系統(tǒng)的加持在標(biāo)記加工領(lǐng)域更是如虎添翼，能夠?qū)⒆贤饧す獯驑?biāo)機(jī)的加工效率提升數(shù)倍，而且標(biāo)記的位置更加精準(zhǔn)。講到這里可能很多人還是不能理解什么是視覺(jué)

2022-03-08 14:20:33

LabVIEW 的Tripod 機(jī)器人視覺(jué)處理和定位研究

為對(duì)幾何體的識(shí)別和抓放過(guò)程?利用邊緣提取、濾波去噪、圓心檢測(cè)等算法采用ＬａｂＶＩＥＷ視覺(jué)模塊及其庫(kù)函數(shù)進(jìn)行了圖像的預(yù)處理、特征提取以及中心點(diǎn)定位?研究結(jié)果表明基于ＬａｂＶＩＥＷ的Ｔｒｉｐｏｄ機(jī)器人系統(tǒng)能夠準(zhǔn)確識(shí)別平臺(tái)幾何體的顏色和形狀可較為精確地定位幾何體中心滿足后續(xù)控制的要求

2019-06-01 06:00:00

NLPIR-Parser大數(shù)據(jù)技術(shù)實(shí)現(xiàn)深度文本語(yǔ)義理解

、可計(jì)算的基礎(chǔ);在確定了特征表示方式的基礎(chǔ)上，從文本大數(shù)據(jù)中學(xué)習(xí)能夠精確表達(dá)文本語(yǔ)義的特征是實(shí)現(xiàn)內(nèi)容理解的關(guān)鍵?！　〗陙?lái)，表示學(xué)習(xí)(representation?learning)或非監(jiān)督的特征學(xué)習(xí)

2018-12-18 11:58:56

NLPIR語(yǔ)義分析是對(duì)自然語(yǔ)言處理的完美理解

,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。包括大數(shù)據(jù)完整的技術(shù)鏈條：網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)

2018-10-19 11:34:47

Zstack中串口操作的深度解析(一)

本帖最后由 eehome 于 2013-1-5 10:06 編輯 Zstack中串口操作的深度解析(一)歡迎研究ZigBee的朋友和我交流。。。

2012-08-12 21:11:29

java經(jīng)典面試題深度解析

教程，需要的朋友可以看看，作為參考！課程簡(jiǎn)介：精選多年來(lái)名企在各地的Java筆試真題、面試經(jīng)驗(yàn)課程目錄：第一節(jié) String Stringbuffer Stringbuilder 深度解析第二節(jié) 完美

2017-06-20 15:16:08

labview+yolov4+tensorflow+openvion深度學(xué)習(xí)

的網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)然，深度學(xué)習(xí)的方法用來(lái)檢測(cè)，也有自己的很多缺點(diǎn)。例如：數(shù)據(jù)量要求大，工業(yè)數(shù)據(jù)收集成本高。但是隨著數(shù)據(jù)增強(qiáng)技術(shù)，無(wú)監(jiān)督學(xué)習(xí)的不斷進(jìn)步，在某些應(yīng)用場(chǎng)景上，這些缺點(diǎn)漸漸被隱藏了。例如學(xué)術(shù)界正在研究

2021-05-10 22:33:46

【TL6748 DSP申請(qǐng)】無(wú)人機(jī)光流視覺(jué)定位

申請(qǐng)理由：無(wú)人機(jī)光流視覺(jué)定位算法驗(yàn)證，開(kāi)發(fā) 。項(xiàng)目描述：無(wú)人機(jī)光流視覺(jué)定位，采集CMOS圖像，通過(guò)光流法分析圖像運(yùn)動(dòng)來(lái)獲得當(dāng)前的位置信息！現(xiàn)在已經(jīng)在STM32上初步運(yùn)行了光流算法，但有些吃力！想找一個(gè)好的圖像處理同臺(tái)來(lái)流暢的完成圖像的解析！

2015-10-09 15:10:01

【TL6748 DSP申請(qǐng)】飛行器視覺(jué)圖像處理

全球定位系統(tǒng)（GPS）來(lái)說(shuō)很難精確定位，需要有新的信息來(lái)輔助精確定位。視覺(jué)圖像感知是一種很好的技術(shù)途徑。圖像處理除了需要對(duì)算法研究外，算法實(shí)現(xiàn)也很重要。公司正著力準(zhǔn)備將國(guó)

2015-09-10 11:10:13

【書籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型：從理論到實(shí)踐

更多的自然語(yǔ)言處理研究人員和對(duì)大語(yǔ)言模型感興趣的讀者能夠快速了解大模型的理論基礎(chǔ)，并開(kāi)展大模型實(shí)踐，復(fù)旦大學(xué)張奇教授團(tuán)隊(duì)結(jié)合他們在自然語(yǔ)言處理領(lǐng)域的研究經(jīng)驗(yàn)，以及分布式系統(tǒng)和并行計(jì)算的教學(xué)經(jīng)驗(yàn)，在

2024-03-11 15:16:39

【瑞芯微RK1808計(jì)算棒試用申請(qǐng)】基于機(jī)器學(xué)習(xí)的視覺(jué)機(jī)械臂研究與設(shè)計(jì)

項(xiàng)目名稱：基于機(jī)器學(xué)習(xí)的視覺(jué)機(jī)械臂研究與設(shè)計(jì)試用計(jì)劃：申請(qǐng)理由本人在深度學(xué)習(xí)領(lǐng)域有四年開(kāi)發(fā)經(jīng)驗(yàn)，申請(qǐng)理由：基于視覺(jué)的機(jī)械臂伺服控制系統(tǒng)，并根據(jù)計(jì)算機(jī)視覺(jué)相關(guān)的理論知識(shí)，構(gòu)建了一個(gè)完整的對(duì)于機(jī)械臂

2019-09-23 15:39:37

人工智能AI-深度學(xué)習(xí)C#&LabVIEW視覺(jué)控制演示效果

不斷變化的，因此深度學(xué)習(xí)是人工智能AI的重要組成部分?？梢哉f(shuō)人腦視覺(jué)系統(tǒng)和神經(jīng)網(wǎng)絡(luò)。2、目標(biāo)檢測(cè)、目標(biāo)跟蹤、圖像增強(qiáng)、強(qiáng)化學(xué)習(xí)、模型壓縮、視頻理解、人臉技術(shù)、三維視覺(jué)、SLAM、GAN、GNN等。

2020-11-27 11:54:42

什么是深度學(xué)習(xí)？使用FPGA進(jìn)行深度學(xué)習(xí)的好處？

FPGA實(shí)現(xiàn)。易于適應(yīng)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)深度學(xué)習(xí)是一個(gè)非?；钴S的研究領(lǐng)域，每天都在設(shè)計(jì)新的 DNN。其中許多結(jié)合了現(xiàn)有的標(biāo)準(zhǔn)計(jì)算，但有些需要全新的計(jì)算方法。特別是在具有特殊結(jié)構(gòu)的網(wǎng)絡(luò)難以在 GPU 上

2023-02-17 16:56:59

什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語(yǔ)言處理？

領(lǐng)域，包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和其他幾個(gè)學(xué)科。首先，人工智能涉及使計(jì)算機(jī)具有自我意識(shí)，利用計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解和模仿其他感官。其次，人工智能涉及模仿人類的認(rèn)知功能

2022-03-22 11:19:16

全網(wǎng)唯一一套labview深度學(xué)習(xí)教程：tensorflow+目標(biāo)檢測(cè)：龍哥教你學(xué)視覺(jué)—LabVIEW深度學(xué)習(xí)教程

缺點(diǎn)。例如：數(shù)據(jù)量要求大，工業(yè)數(shù)據(jù)收集成本高。但是隨著數(shù)據(jù)增強(qiáng)技術(shù)，無(wú)監(jiān)督學(xué)習(xí)的不斷進(jìn)步，在某些應(yīng)用場(chǎng)景上，這些缺點(diǎn)漸漸被隱藏了。例如學(xué)術(shù)界正在研究的，自動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)，自動(dòng)數(shù)據(jù)標(biāo)注等等。所以作者認(rèn)為

2020-08-10 10:38:12

前百度深度學(xué)習(xí)研究院科學(xué)家分享：機(jī)器視覺(jué)開(kāi)發(fā)實(shí)戰(zhàn)經(jīng)驗(yàn)

其實(shí)就是計(jì)算機(jī)科學(xué)的一個(gè)分支，將來(lái)也是會(huì)成為人類社會(huì)基礎(chǔ)設(shè)施的一部分。現(xiàn)在我們邀請(qǐng)來(lái)百度深度學(xué)習(xí)研究院科學(xué)家，為大家分享人工智能視覺(jué)開(kāi)發(fā)的經(jīng)驗(yàn)。點(diǎn)擊報(bào)名直播觀看：http

2018-07-20 11:06:52

四元數(shù)數(shù)控：機(jī)器視覺(jué)在農(nóng)業(yè)行業(yè)的應(yīng)用有哪些？

基于機(jī)器視覺(jué)的穴孔位置的定位研究是目前的研究熱點(diǎn)。2.機(jī)器視覺(jué)在棉花氮素營(yíng)養(yǎng)診斷中的應(yīng)用農(nóng)作物生長(zhǎng)發(fā)育進(jìn)程和產(chǎn)量形成受肥料影響很大，基于機(jī)器視覺(jué)的作物生長(zhǎng)監(jiān)測(cè)與診斷技術(shù)是近地面遙感監(jiān)測(cè)的方法之一，其優(yōu)質(zhì)

2020-10-12 11:03:03

四元數(shù)數(shù)控：深圳機(jī)器視覺(jué)引導(dǎo)定位是什么？

過(guò)來(lái)的實(shí)際物品進(jìn)行比較。機(jī)器視覺(jué)引導(dǎo)在許多任務(wù)中都能夠?qū)崿F(xiàn)比人工定位高得多的速度和精度，比如將元件放入貨盤或從貨盤中拾取元件，對(duì)輸送帶上的元件進(jìn)行包裝，對(duì)元件進(jìn)行定位和對(duì)位，以便將其與其他部件裝配

2021-11-24 11:32:58

基于深度學(xué)習(xí)的異常檢測(cè)的研究方法

ABSTRACT1.基于深度學(xué)習(xí)的異常檢測(cè)的研究方法進(jìn)行結(jié)構(gòu)化和全面的概述2.回顧這些方法在各個(gè)領(lǐng)域這個(gè)中的應(yīng)用情況，并評(píng)估他們的有效性。3.根據(jù)基本假設(shè)和采用的方法將最先進(jìn)的深度異常檢測(cè)技術(shù)分為

2021-07-12 06:36:22

基于深度學(xué)習(xí)的異常檢測(cè)的研究方法

異常檢測(cè)的深度學(xué)習(xí)研究綜述原文：arXiv:1901.03407摘要異常檢測(cè)是一個(gè)重要的問(wèn)題，在不同的研究領(lǐng)域和應(yīng)用領(lǐng)域都得到了很好的研究。本文的研究目的有兩個(gè)：首先，我們對(duì)基于深度學(xué)習(xí)的異常檢測(cè)

2021-07-12 07:10:19

基于labview機(jī)器視覺(jué)的圖像定位

大家好，畢業(yè)設(shè)計(jì)做基于labview機(jī)器視覺(jué)的圖像定位系統(tǒng)，打算調(diào)用筆記本的攝像頭進(jìn)行圖像采集，再進(jìn)行圖像處理，視覺(jué)模塊和采集模塊已經(jīng)下載了，可是不知道怎么采集圖像，求大家支招.

2017-03-31 14:54:31

基于稀疏編碼的遷移學(xué)習(xí)及其在行人檢測(cè)中的應(yīng)用

方法遷移到行人分類中.在MIT行人數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明:該方法能有效地刻畫出行人的特征,提高行人分類的性能,在標(biāo)記樣本少的情況下仍具有良好的分類效果,因此可應(yīng)用于行人檢測(cè)中【關(guān)鍵詞】：行人檢測(cè)

2010-04-24 09:48:05

基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)設(shè)計(jì)

FPGA 上實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò) (CNN)。CNN 是一類深度神經(jīng)網(wǎng)絡(luò)，在處理大規(guī)模圖像識(shí)別任務(wù)以及與機(jī)器學(xué)習(xí)類似的其他問(wèn)題方面已大獲成功。在當(dāng)前案例中,針對(duì)在 FPGA 上實(shí)現(xiàn) CNN 做一個(gè)可行性研究

2019-06-19 07:24:41

學(xué)習(xí)機(jī)器視覺(jué)要學(xué)習(xí)哪一門語(yǔ)言？

馬上要進(jìn)行機(jī)械視覺(jué)的學(xué)習(xí)。想問(wèn)一下大佬們關(guān)于機(jī)械視覺(jué)，我要學(xué)習(xí)哪一門語(yǔ)言？c 還是Python 還是Java或者說(shuō)是嵌入式。選哪一個(gè)？對(duì)以后機(jī)械視覺(jué)的課題研究幫助更大？在線等，很急

2019-04-15 15:30:38

室內(nèi)無(wú)線定位算法解析

可以在1米之內(nèi)。LED定位需要改造LED燈具，增加芯片，增加成本，紅外線只能視距傳播，穿透性極差也極易受燈光、煙霧等環(huán)境因素影響明顯。定位效果有限?！　?、地磁和計(jì)算機(jī)視覺(jué)定位　　目前這兩類產(chǎn)品大多

2020-08-11 08:00:28

想設(shè)計(jì)炫酷的移動(dòng)機(jī)器人？視覺(jué)定位設(shè)計(jì)方案分享給你！

針對(duì)移動(dòng)機(jī)器人的局部視覺(jué)定位問(wèn)題進(jìn)行了研究。首先通過(guò)移動(dòng)機(jī)器人視覺(jué)定位與目標(biāo)跟蹤系統(tǒng)求出目標(biāo)質(zhì)心特征點(diǎn)的位置時(shí)間序列，然后在分析二次成像法獲取目標(biāo)深度信息的缺陷的基礎(chǔ)上，提出了一種獲取目標(biāo)的空間

2019-06-01 08:00:00

智能輪椅導(dǎo)航定位的研究現(xiàn)狀及趨勢(shì)

電動(dòng)輪椅,融合多種領(lǐng)域的研究,包括機(jī)器視覺(jué),機(jī)器人導(dǎo)航和定位.模式識(shí)別,多傳感器融合及用戶接口等。目前美國(guó)、德國(guó).日本、及中國(guó)等多個(gè)國(guó)家都在進(jìn)行這方面的研究。輪椅的安全導(dǎo)航,是智能輪椅要解決的中心

2023-09-25 07:13:35

機(jī)器學(xué)習(xí)簡(jiǎn)介與經(jīng)典機(jī)器學(xué)習(xí)算法人才培養(yǎng)

、Source-Free DA上的應(yīng)用。六、遷移學(xué)習(xí)前沿應(yīng)用遷移學(xué)習(xí)在語(yǔ)義分割中的應(yīng)用遷移學(xué)習(xí)在目標(biāo)檢測(cè)中的應(yīng)用遷移學(xué)習(xí)在行人重識(shí)別中的應(yīng)用圖片與視頻風(fēng)格遷移章節(jié)目標(biāo)：掌握深度遷移學(xué)習(xí)在語(yǔ)義分割、目標(biāo)檢測(cè)

2022-04-28 18:56:07

求視覺(jué)定位-------旋轉(zhuǎn)中心的最佳算法

求 視覺(jué)定位-------旋轉(zhuǎn)中心的最佳算法，

2021-06-11 09:44:31

求labview視覺(jué)定位坐標(biāo)建立教程

想要學(xué)習(xí)labview視覺(jué)定位，怎么建立坐標(biāo)系，通過(guò)坐標(biāo)系來(lái)定位抓取和放置功能

2019-04-11 13:22:58

百度深度學(xué)習(xí)研究院科學(xué)家深度講解人工智能

的研發(fā)經(jīng)驗(yàn)。在過(guò)去的工作中，他發(fā)表過(guò)論文十余篇，申請(qǐng)中國(guó)專利超過(guò)100項(xiàng)，其中已經(jīng)授權(quán)的有95項(xiàng)。他曾任職百度深度學(xué)習(xí)研究院，負(fù)責(zé)人臉識(shí)別方向，曾經(jīng)多次帶領(lǐng)團(tuán)隊(duì)在主流的人臉檢測(cè)、人臉識(shí)別競(jìng)賽上取得

2018-07-19 10:01:11

經(jīng)典算法大全（51個(gè)C語(yǔ)言算法+單片機(jī)常用算法+機(jī)器學(xué)十大算法）

　　十、從頭到尾徹底理解傅里葉變換算法、上　　十、從頭到尾徹底理解傅里葉變換算法、下　　十一、從頭到尾徹底解析Hash表算法　　十二、快速排序算法之所有版本的c/c++實(shí)現(xiàn)　　十三、通過(guò)浙大上機(jī)復(fù)試

2018-10-23 14:31:12

自動(dòng)駕駛系統(tǒng)要完成哪些計(jì)算機(jī)視覺(jué)任務(wù)？

Geiger 的研究主要集中在用于自動(dòng)駕駛系統(tǒng)的三維視覺(jué)理解、分割、重建、材質(zhì)與動(dòng)作估計(jì)等方面。他主導(dǎo)了自動(dòng)駕駛領(lǐng)域著名數(shù)據(jù)集 KITTI 及多項(xiàng)自動(dòng)駕駛計(jì)算機(jī)視覺(jué)任務(wù)的基準(zhǔn)體系建設(shè)，KITTI 是目前最大的用于自動(dòng)駕駛的計(jì)算機(jī)視覺(jué)公開(kāi)數(shù)據(jù)集。

2020-07-30 06:49:20

視頻教程：Java常見(jiàn)面試題目深度解析！

視頻教程：Java常見(jiàn)面試題目深度解析！Java作為目前比較火的計(jì)算機(jī)語(yǔ)言之一，連續(xù)幾年蟬聯(lián)最受程序員歡迎的計(jì)算機(jī)語(yǔ)言榜首，因此每年新入職Java程序員也數(shù)不勝數(shù)。很多java程序員在學(xué)成之后，會(huì)面

2017-07-11 10:55:04

計(jì)算機(jī)視覺(jué)/深度學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)集匯總

、定位、檢測(cè)等研究工作大多基于此數(shù)據(jù)集展開(kāi)。Imagenet數(shù)據(jù)集文檔詳細(xì)，有專門的團(tuán)隊(duì)維護(hù)，使用非常方便，在計(jì)算機(jī)視覺(jué)領(lǐng)域研究論文中應(yīng)用非常廣，幾乎成為了目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗(yàn)的“標(biāo)準(zhǔn)

2018-08-29 10:36:45

計(jì)算機(jī)視覺(jué)必讀：區(qū)分目標(biāo)跟蹤、網(wǎng)絡(luò)壓縮、圖像分類、人臉識(shí)別

深度學(xué)習(xí)目前已成為發(fā)展最快、最令人興奮的機(jī)器學(xué)習(xí)領(lǐng)域之一。本文以計(jì)算機(jī)視覺(jué)的重要概念為線索，介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)任務(wù)中的應(yīng)用，包括網(wǎng)絡(luò)壓縮、細(xì)粒度圖像分類、看圖說(shuō)話、視覺(jué)問(wèn)答、圖像理解、紋理生成

2019-06-08 08:00:00

計(jì)算機(jī)視覺(jué)論文速覽

AI視野·今日CS.CV 計(jì)算機(jī)視覺(jué)論文速覽transformer、新模型、視覺(jué)語(yǔ)言模型、多模態(tài)、clip、視角合成

2021-08-31 08:46:46

語(yǔ)義理解和研究資源是自然語(yǔ)言處理的兩大難題

，怎樣把我們的常識(shí)“灌”到AI系統(tǒng)中，是我們需要不斷細(xì)化來(lái)解決的問(wèn)題途徑。資源則是針對(duì)現(xiàn)在的研究對(duì)象資源的問(wèn)題。無(wú)監(jiān)督學(xué)習(xí)、Zero-shot學(xué)習(xí)、Few-shot學(xué)習(xí)、元學(xué)習(xí)、遷移學(xué)習(xí)等方式，其實(shí)

2019-09-19 14:10:38

談?wù)?b class="flag-6" style="color: red">深度無(wú)盤緩存工具設(shè)置技巧

了無(wú)盤緩存軟件，而剛推出的深度無(wú)盤網(wǎng)吧系統(tǒng)，以驚人的速度研發(fā)出了深度無(wú)盤緩存工具以及服務(wù)端自帶的IO讀緩存。而本人一直對(duì)深度情有獨(dú)鐘，做為一名網(wǎng)吧維護(hù)員，深度出無(wú)盤后，一直在深入研究深度無(wú)盤網(wǎng)吧系統(tǒng)

2011-07-15 13:24:41

通過(guò)HarmonyOS分布式能力實(shí)現(xiàn)任務(wù)的跨設(shè)備遷移設(shè)計(jì)資料分享

HarmonyOS頁(yè)面的分布式遷移和分布式文件的讀取當(dāng)前，在不同的設(shè)備上遷移一個(gè)任務(wù)的操作通常十分復(fù)雜，比如路上在手機(jī)里寫了一半的郵件，回到家想切換到平板電腦更方便的處理；或者有時(shí)需要調(diào)用不同設(shè)備中

2022-03-25 16:59:38

無(wú)監(jiān)督訓(xùn)練加微小調(diào)整，只用一個(gè)模型即可解決多種NLP

基于一個(gè)可伸縮的、任務(wù)無(wú)關(guān)的系統(tǒng)，OpenAI在一組包含不同的語(yǔ)言任務(wù)中獲得了最優(yōu)的實(shí)驗(yàn)結(jié)果，方法是兩種現(xiàn)有理念的結(jié)合：遷移學(xué)習(xí)和無(wú)監(jiān)督的預(yù)訓(xùn)練。

2018-06-13 18:00:32

5705

一個(gè)深度學(xué)習(xí)模型能完成幾項(xiàng)NLP任務(wù)？

對(duì)于機(jī)器翻譯、文本摘要、Q&A、文本分類等自然語(yǔ)言處理任務(wù)來(lái)說(shuō)，深度學(xué)習(xí)的出現(xiàn)一遍遍刷新了state-of-the-art的模型性能記錄，給研究帶來(lái)諸多驚喜。但這些任務(wù)一般都有各自的度量基準(zhǔn)，性能也只在一組標(biāo)準(zhǔn)數(shù)據(jù)集上測(cè)試。

2018-06-26 15:19:09

4233

基于深度學(xué)習(xí)的任務(wù)圖像理解：人臉識(shí)別與人物解析”

新加坡國(guó)立大學(xué)在讀博士生趙健分享了“基于深度學(xué)習(xí)的任務(wù)圖像理解：人臉識(shí)別與人物解析”，介紹了他博士期間在這個(gè)領(lǐng)域的多個(gè)代表工作—DA-GAN、PIM和3D-PIM，ICCV 2017

2018-09-02 10:27:12

6003

面向自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)的答辯PPT

現(xiàn)實(shí)中的自然語(yǔ)言處理面臨著多領(lǐng)域、多語(yǔ)種上的多種類型的任務(wù)，為每個(gè)任務(wù)都單獨(dú)進(jìn)行數(shù)據(jù)標(biāo)注是不大可行的，而遷移學(xué)習(xí)可以將學(xué)習(xí)的知識(shí)遷移到相關(guān)的場(chǎng)景下

2019-03-02 09:16:24

2885

嵌入式Linux與物聯(lián)網(wǎng)軟件開(kāi)發(fā)C語(yǔ)言內(nèi)核深度解析書籍的介紹

嵌入式Linux與物聯(lián)網(wǎng)軟件開(kāi)發(fā)——C語(yǔ)言內(nèi)核深度解析 C語(yǔ)言是嵌入式Linux領(lǐng)域的主要開(kāi)發(fā)語(yǔ)言。對(duì)于學(xué)習(xí)嵌入式、單片機(jī)、Linux驅(qū)動(dòng)開(kāi)發(fā)等技術(shù)來(lái)說(shuō)，C語(yǔ)言是必須要過(guò)的一關(guān)。C語(yǔ)言學(xué)習(xí)的特點(diǎn)是入門容易、深入理解難、精通更是難上加難。

2019-05-15 18:10:00

谷歌TensorFlow Graphics:為3D圖像任務(wù)打造的深度學(xué)習(xí)利器

TensorFlow重磅推出一個(gè)全新的圖形工具TensorFlow Graphics，結(jié)合計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(jué)技術(shù)，以無(wú)監(jiān)督的方式解決復(fù)雜3D視覺(jué)任務(wù)。

2019-05-14 08:35:43

2309

機(jī)器視覺(jué)技術(shù)原理解析

機(jī)器視覺(jué)應(yīng)用的照明的最重要的任務(wù)就是使需要被觀察的特征與需要被忽略的圖像特征之間產(chǎn)生最大的對(duì)比度，從而易于特征的區(qū)分。

2019-07-05 14:11:33

6145

橋接視覺(jué)與語(yǔ)言的研究綜述

近年來(lái)，由于深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等多學(xué)科領(lǐng)域的興趣激增，視覺(jué)和語(yǔ)言任務(wù)的橋接得到了顯著的發(fā)展。

2019-08-09 18:32:01

2380

人工智能之深度強(qiáng)化學(xué)習(xí)DRL的解析

深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分，都已經(jīng)得到廣泛的研究和應(yīng)用。

2020-01-24 10:46:00

4734

3D 點(diǎn)云的無(wú)監(jiān)督膠囊網(wǎng)絡(luò) 多任務(wù)上實(shí)現(xiàn)SOTA

這是一種為 3D 點(diǎn)云提出的無(wú)監(jiān)督膠囊架構(gòu)，并且在 3D 點(diǎn)云重構(gòu)、配準(zhǔn)和無(wú)監(jiān)督分類方面優(yōu)于 SOTA 方法。理解對(duì)象是計(jì)算機(jī)視覺(jué)的核心問(wèn)題之一。傳統(tǒng)方法而言，理解對(duì)象任務(wù)可以依賴于大型帶注釋

2021-01-02 09:39:00

1863

半監(jiān)督學(xué)習(xí)，無(wú)監(jiān)督學(xué)習(xí)，遷移學(xué)習(xí)，表征學(xué)習(xí)以及小樣本學(xué)習(xí)

在大規(guī)模標(biāo)注的數(shù)據(jù)集上訓(xùn)練深度模型不僅可以使手頭的任務(wù)表現(xiàn)良好，還可以使模型學(xué)習(xí)對(duì)于下游任務(wù)的有用特征形式。但是，我們是否可以在不使用如此昂貴且細(xì)粒度的標(biāo)注數(shù)據(jù)的情況下獲得類似的特征表達(dá)能力呢？本文研究了使用噪聲標(biāo)注（在這種情況下為圖像標(biāo)題）的弱監(jiān)督預(yù)訓(xùn)練。

2021-01-18 17:08:56

7582

研究者們?cè)谌斯ど窠?jīng)網(wǎng)絡(luò) CLIP 上發(fā)現(xiàn)了「真」神經(jīng)元

今年 1 月初，OpenAI 提出了一種通用視覺(jué)系統(tǒng) CLIP，其性能媲美 ResNet-50，并在一些有挑戰(zhàn)性的數(shù)據(jù)集上超過(guò)現(xiàn)有的視覺(jué)系統(tǒng)。給出一組以語(yǔ)言形式表述的類別，CLIP 能夠立即將一張圖像與其中某個(gè)類別進(jìn)行匹配，而且它不像標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)那樣需要針對(duì)這些類別的特定數(shù)據(jù)進(jìn)行微調(diào)。

2021-03-22 17:13:48

2751

口語(yǔ)語(yǔ)言理解在任務(wù)型對(duì)話系統(tǒng)中的探討

1.1 研究背景與任務(wù)定義口語(yǔ)語(yǔ)言理解在任務(wù)型對(duì)話系統(tǒng)中扮演了一個(gè)非常重要的角色，其目的是識(shí)別出用戶的輸入文本中蘊(yùn)含的意圖和提及到的槽位，一般被分為意圖識(shí)別和槽位填充兩個(gè)子任務(wù)[1]。以句子

2021-03-31 17:48:12

2145

關(guān)于3D視覺(jué)定位技術(shù)詳細(xì)解析

3D視覺(jué)定位指的是根據(jù)事先構(gòu)建的3D模型及相關(guān)信息，計(jì)算取得某張圖像在拍攝時(shí)相機(jī)的位置和姿態(tài)。這是3D視覺(jué)的一項(xiàng)十分重要的技術(shù)，可以用來(lái)幫助實(shí)現(xiàn)人員定位與導(dǎo)航。

2021-04-03 14:39:00

8898

深度剖析3D視覺(jué)定位技術(shù)

引言所謂3D視覺(jué)定位指的是根據(jù)事先構(gòu)建的3D模型及相關(guān)信息，計(jì)算取得某張圖像在拍攝時(shí)相機(jī)的位置和姿態(tài)。這是3D視覺(jué)的一項(xiàng)十分重要的技術(shù)，可以用來(lái)幫助實(shí)現(xiàn)人員定位與導(dǎo)航。本博文將基于2019

2021-04-01 14:46:04

3857

視覺(jué)問(wèn)答與對(duì)話任務(wù)研究綜述

視覺(jué)問(wèn)答與對(duì)話是人工智能領(lǐng)堿的重要硏究任務(wù)，是計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理交叉領(lǐng)域的代表性問(wèn)題之一。視覺(jué)問(wèn)答與對(duì)話任務(wù)要求機(jī)器根據(jù)指定的視覺(jué)圖像內(nèi)容，對(duì)單輪或多輪的自然語(yǔ)言問(wèn)題進(jìn)行作答。視覺(jué)問(wèn)答與對(duì)話

2021-04-08 10:33:56

遷移學(xué)習(xí)的意圖識(shí)別在口語(yǔ)理解中的應(yīng)用

口語(yǔ)理解（SLU是人機(jī)對(duì)話系統(tǒng)的重要部分，意圖識(shí)別作為口語(yǔ)理解的一個(gè)子任務(wù)，因其可以為限定領(lǐng)域的對(duì)話擴(kuò)展領(lǐng)域而處于非常重要的地位。由于實(shí)際應(yīng)用領(lǐng)域的對(duì)話系統(tǒng)需求増加，而需要開(kāi)發(fā)的新領(lǐng)堿短時(shí)間內(nèi)又無(wú)法

2021-04-12 11:18:34

基于深度特征遷移與融合的兩階段船牌定位算法

獲取運(yùn)河過(guò)往船只的身份信息具有重要意義，快速、準(zhǔn)確地定位船牌是實(shí)現(xiàn)船只身份自動(dòng)化識(shí)別的首要任務(wù)。為提升對(duì)小尺度船牌的檢測(cè)性能，提岀一種結(jié)合深度特征遷移與融合的兩階段船牌定位算法。首先在船只檢測(cè)階段

2021-04-27 14:32:02

基于特征和實(shí)例遷移的加權(quán)多任務(wù)聚類算法

基于特征和實(shí)例遷移的加權(quán)多任務(wù)聚類算法

2021-06-07 15:18:35

ACL2021的跨視覺(jué)語(yǔ)言模態(tài)論文之跨視覺(jué)語(yǔ)言模態(tài)任務(wù)與方法

來(lái)自：復(fù)旦DISC 引言本次分享我們將介紹三篇來(lái)自ACL2021的跨視覺(jué)語(yǔ)言模態(tài)的論文。這三篇文章分別介紹了如何在圖像描述任務(wù)中生成契合用戶意圖的圖像描述、端對(duì)端的視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型和如何生成包含

2021-10-13 10:48:27

2230

用于語(yǔ)言和視覺(jué)處理的高效 Transformer能在多種語(yǔ)言和視覺(jué)任務(wù)中帶來(lái)優(yōu)異效果

白皮書《Transformer-LS：用于語(yǔ)言和視覺(jué)處理的高效 Transformer》中提出了“長(zhǎng)-短 Transformer” （Transformer-LS），這是一種高效的 Transformer 架構(gòu)，用于為語(yǔ)言和視覺(jué)任務(wù)模擬中具有線性復(fù)雜度的長(zhǎng)序列。

2021-12-28 10:42:18

1309

一種有效的無(wú)監(jiān)督深度表示器(Mix2Vec)

本文由深蘭科學(xué)院撰寫，文章將為大家細(xì)致講解一種有效的無(wú)監(jiān)督深度表示器（Mix2Vec），該方法可將異構(gòu)數(shù)據(jù)映射到統(tǒng)一的低維向量空間，避免混合異構(gòu)數(shù)據(jù)相似度度量偏差問(wèn)題。同時(shí)，該方法基于深度異構(gòu)

2022-03-24 17:22:11

1270

利用深度學(xué)習(xí)在工業(yè)圖像無(wú)監(jiān)督異常定位方面的最新成果

目前，基于深度學(xué)習(xí)的視覺(jué)檢測(cè)在監(jiān)督學(xué)習(xí)方法的幫助下取得了很大的成功。然而，在實(shí)際工業(yè)場(chǎng)景中，缺陷樣本的稀缺性、注釋成本以及缺陷先驗(yàn)知識(shí)的缺乏可能會(huì)導(dǎo)致基于監(jiān)督的方法失效。

2022-07-31 11:00:52

2303

視覺(jué)語(yǔ)言導(dǎo)航領(lǐng)域任務(wù)、方法和未來(lái)方向的綜述

視覺(jué)語(yǔ)言導(dǎo)航（VLN）是一個(gè)新興的研究領(lǐng)域，旨在構(gòu)建一種可以用自然語(yǔ)言與人類交流并在真實(shí)的3D環(huán)境中導(dǎo)航的具身代理，與計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器人等研究領(lǐng)域緊密關(guān)聯(lián)。

2022-09-20 14:30:30

2612

多語(yǔ)言任務(wù)在內(nèi)的多種NLP任務(wù)實(shí)現(xiàn)

WeLM是一個(gè)百億級(jí)別的中文模型，能夠在零樣本以及少樣本的情境下完成包括對(duì)話-采訪、閱讀理解、翻譯、改寫、續(xù)寫、多語(yǔ)言閱讀理解在內(nèi)的多種NLP任務(wù)，并具備記憶能力、自我糾正和檢查能力。

2022-10-13 11:52:43

436

深度解析2023年機(jī)器視覺(jué)行業(yè)的十大預(yù)測(cè)

高工機(jī)器人產(chǎn)業(yè)研究所（GGII）通過(guò)對(duì)機(jī)器視覺(jué)產(chǎn)業(yè)的梳理，結(jié)合宏觀數(shù)據(jù)和調(diào)研數(shù)據(jù)信息，秉承不悲觀、不樂(lè)觀，力求客觀的態(tài)度，深度解析2023年機(jī)器視覺(jué)行業(yè)的十大預(yù)測(cè)：

2022-11-29 11:18:35

2152

什么是晶振晶振工作原理解析

什么是晶振晶振工作原理解析

2022-12-30 17:13:57

3727

谷歌提出PaLI：一種多模態(tài)大模型，刷新多個(gè)任務(wù)SOTA！

PaLI 使用單獨(dú) “Image-and-text to text” 接口執(zhí)行很多圖像、語(yǔ)言以及 "圖像 + 語(yǔ)言" 任務(wù)。PaLI 的關(guān)鍵結(jié)構(gòu)之一是重復(fù)使用大型單模態(tài) backbone 進(jìn)行語(yǔ)言和視覺(jué)建模，以遷移現(xiàn)有能力并降低訓(xùn)練成本。

2023-01-29 11:25:57

665

利用視覺(jué)+語(yǔ)言數(shù)據(jù)增強(qiáng)視覺(jué)特征

傳統(tǒng)的多模態(tài)預(yù)訓(xùn)練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來(lái)同時(shí)學(xué)習(xí)視覺(jué)+語(yǔ)言的聯(lián)合特征。但是關(guān)注如何利用視覺(jué)+語(yǔ)言數(shù)據(jù)提升視覺(jué)任務(wù)（多模態(tài)->單模態(tài)）上性能的工作并不多。本文旨在針對(duì)上述問(wèn)題提出一種簡(jiǎn)單高效的方法。

2023-02-13 13:44:05

727

多維度剖析視覺(jué)-語(yǔ)言訓(xùn)練的技術(shù)路線

（如BERT\GPT等）的啟發(fā)，視覺(jué)-語(yǔ)言預(yù)訓(xùn)練 (Vision-Language Pre-training, VLP) 逐漸受到關(guān)注，成為如今 VL 任務(wù)的核心訓(xùn)練范式。本文對(duì) VLP 領(lǐng)域近期的綜述文章進(jìn)行整理，回顧其最新的研究進(jìn)展，旨在提供一份 VLP 入門指南。

2023-02-23 11:15:54

608

工業(yè)機(jī)器人抓取時(shí)如何去定位呢？

從機(jī)器視覺(jué)的角度，由簡(jiǎn)入繁從相機(jī)標(biāo)定，平面物體檢測(cè)、有紋理物體、無(wú)紋理物體、深度學(xué)習(xí)、與任務(wù)/運(yùn)動(dòng)規(guī)劃結(jié)合等6個(gè)方面深度解析文章的標(biāo)題。

2023-02-28 09:45:15

530

深度學(xué)習(xí)研究之PEFT技術(shù)解析

，實(shí)現(xiàn)高效的遷移學(xué)習(xí)。因此，PEFT 技術(shù)可以在提高模型效果的同時(shí)，大大縮短模型訓(xùn)練時(shí)間和計(jì)算成本，讓更多人能夠參與到深度學(xué)習(xí)研究中來(lái)。

2023-06-02 12:41:45

449

深度視覺(jué)系統(tǒng)解決方案|多相機(jī)檢測(cè)|高速視覺(jué)檢測(cè)|視覺(jué)引導(dǎo)定位

，本次展位號(hào)：W1館1368。此次參展，維視智造將圍繞深度視覺(jué)系統(tǒng)解決方案、多相機(jī)并行檢測(cè)、超高速視覺(jué)檢測(cè)、視覺(jué)引導(dǎo)定位、超高精密測(cè)量、線掃高速檢測(cè)6大應(yīng)用

2021-03-09 10:26:24

1073

基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎：大量數(shù)據(jù)究竟是福還是禍？

大型語(yǔ)言模型如 ChatGPT 的成功彰顯了海量數(shù)據(jù)在捕捉語(yǔ)言模式和知識(shí)方面的巨大潛力，這也推動(dòng)了基于大量數(shù)據(jù)的視覺(jué)模型研究。在計(jì)算視覺(jué)領(lǐng)域，標(biāo)注數(shù)據(jù)通常難以獲取，自監(jiān)督學(xué)習(xí)成為預(yù)訓(xùn)練的主流方法

2023-07-24 16:55:03

272

視覺(jué)深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹

Torchvision是基于Pytorch的視覺(jué)深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架，當(dāng)前支持的圖像分類、對(duì)象檢測(cè)、實(shí)例分割、語(yǔ)義分割、姿態(tài)評(píng)估模型的遷移學(xué)習(xí)訓(xùn)練與評(píng)估。支持對(duì)數(shù)據(jù)集的合成、變換、增強(qiáng)等，此外還支持預(yù)訓(xùn)練模型庫(kù)下載相關(guān)的模型，直接預(yù)測(cè)推理。

2023-09-22 09:49:51

391

NeurIPS 2023 | 全新的自監(jiān)督視覺(jué)預(yù)訓(xùn)練代理任務(wù)：DropPos

://arxiv.org/pdf/2309.03576 代碼鏈接:? https://github.com/Haochen-Wang409/DropPos 今天介紹我們?cè)?自監(jiān)督視覺(jué)預(yù)訓(xùn)練領(lǐng)域的一篇原創(chuàng)

2023-10-15 20:25:02

301

谷歌重磅新作PaLI-3：視覺(jué)語(yǔ)言新模型！更小、更快、更強(qiáng)

效果怎么樣呢？PaLI-3 在需要視覺(jué)定位文本理解和目標(biāo)定位的任務(wù)上實(shí)現(xiàn)了新的 SOTA，包括 RefCOCO 數(shù)據(jù)集上的 8 個(gè)視覺(jué)定位文本理解任務(wù)和參考表達(dá)分割任務(wù)。PaLI-3 也在一系列分類視覺(jué)任務(wù)上有出色的表現(xiàn)。

2023-10-20 16:21:21

397

如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來(lái)與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā)，利用CLIP的預(yù)訓(xùn)練模型來(lái)完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的CLIP知識(shí)來(lái)幫助理解3D場(chǎng)景。

2023-10-29 16:54:09

664

已全部加載完成

搜索歷史

深度解析CLIP在視覺(jué)語(yǔ)言理解與定位任務(wù)上的無(wú)監(jiān)督遷移研究

評(píng)論