0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌推出數(shù)據(jù)集搜索黑科技,再也不用發(fā)愁找數(shù)據(jù)!

ExMh_zhishexues ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-09-14 14:09 ? 次閱讀

旨在整合全球互聯(lián)網(wǎng)信息的谷歌,其首要目標(biāo)本來(lái)是林林總總的商業(yè)網(wǎng)站。但最近,它推出了一種新型的數(shù)據(jù)集搜索引擎,將服務(wù)目標(biāo)延展到了科研社群。這就是屬于科研工作者等數(shù)據(jù)狂的黑科技——Google Dataset Search(谷歌數(shù)據(jù)集搜索)。

谷歌數(shù)據(jù)集搜索發(fā)起了一次數(shù)據(jù)搜索的革命,它讓人們能夠迅速獲取分散在全互聯(lián)網(wǎng)的各式數(shù)據(jù)集。無(wú)論是網(wǎng)站、數(shù)字圖書(shū)館還是專(zhuān)業(yè)數(shù)據(jù)庫(kù),只要是存在于線上的共享數(shù)據(jù)集,就能夠被引擎找到。用戶(hù)鍵入搜索信息后,谷歌會(huì)分析比對(duì)相同數(shù)據(jù)集的不同版本,并盡可能地檢索有價(jià)值的相關(guān)信息。

實(shí)際上,這次革命的核心工具非常純粹,就是一個(gè)可以將各式數(shù)據(jù)集集中在一起加以描述檢索的開(kāi)放標(biāo)準(zhǔn)(http://schema.org)。數(shù)據(jù)發(fā)布者按照這個(gè)標(biāo)準(zhǔn)所定義的標(biāo)簽框架,對(duì)發(fā)布的數(shù)據(jù)內(nèi)容進(jìn)行標(biāo)簽式的描述。定義的標(biāo)簽包括發(fā)布時(shí)間、發(fā)布方、數(shù)據(jù)收集方式等等。而引擎隨后會(huì)將這些標(biāo)簽信息編入索引,并與谷歌知識(shí)譜圖結(jié)合使用,從而使本來(lái)分布零散的數(shù)據(jù)集成為一個(gè)能夠統(tǒng)一檢索的強(qiáng)大系統(tǒng)。

Figure.1Google Dataset Search使用實(shí)例

Figure.2Google Dataset Search使用實(shí)例

谷歌的人工智能科學(xué)家娜塔莎·諾伊(Natasha Noy)接受采訪時(shí)表示,創(chuàng)建數(shù)據(jù)集搜索的目標(biāo)是將數(shù)以萬(wàn)計(jì)的在線數(shù)據(jù)集統(tǒng)合展示,并非自行建立數(shù)據(jù)庫(kù)收集數(shù)據(jù),她說(shuō):“我們只是希望這些數(shù)據(jù)能夠被人們輕松獲取,并不是想將其收集挪動(dòng)到其他地方?!?/p>

目前,互聯(lián)網(wǎng)上的數(shù)據(jù)集資料分布極其零散。不同的學(xué)科領(lǐng)域各自擁有自己的首選資源庫(kù),各政府機(jī)構(gòu)和地方當(dāng)局更是如此。諾伊說(shuō):“科學(xué)家們當(dāng)然知道能在哪些專(zhuān)業(yè)數(shù)據(jù)庫(kù)找到他們自己領(lǐng)域的數(shù)據(jù),但他們有時(shí)想要的并不是這一類(lèi)數(shù)據(jù)。而一旦他們將視野拓展到專(zhuān)業(yè)領(lǐng)域之外,數(shù)據(jù)搜尋就會(huì)變得十分困難?!?/p>

諾伊舉了一個(gè)她親歷親聞的例子,一位氣象學(xué)家在為即將開(kāi)展的研究尋找海洋溫度的特定數(shù)據(jù)集,但怎么也找不到。她沒(méi)有繼續(xù)追蹤,直到她在遇到了相關(guān)方面的同事,在同事的幫助下她才找到那個(gè)數(shù)據(jù)庫(kù)。然后她的研究工作才得以繼續(xù)。諾伊說(shuō):“雖然保存數(shù)據(jù)的地方算是很顯見(jiàn),數(shù)據(jù)描述也寫(xiě)得很清晰,但仍然很難被找到?!?/p>

該搜索引擎的初始版本主要包括來(lái)自ProPublica等新聞機(jī)構(gòu)以及政府機(jī)構(gòu)的數(shù)據(jù)和數(shù)據(jù)集。 但是,如果這項(xiàng)搜索服務(wù)最終流行起來(lái),那么隨著機(jī)構(gòu)和科學(xué)家爭(zhēng)相開(kāi)放數(shù)據(jù)的訪問(wèn)權(quán)限,它所囊括的數(shù)據(jù)量肯定會(huì)呈現(xiàn)滾雪球式的成長(zhǎng)。

而近年來(lái),世界各地關(guān)于數(shù)據(jù)開(kāi)放共享的倡議正在蓬勃發(fā)展,這將有助于數(shù)據(jù)集搜索引擎的實(shí)現(xiàn)。諾伊認(rèn)為,在過(guò)去的幾年里,可共享數(shù)據(jù)的存量已經(jīng)爆炸,她將此歸功于科學(xué)文獻(xiàn)中數(shù)據(jù)的重要性在日益增長(zhǎng)——因?yàn)槠诳瘯?huì)要求作者將數(shù)據(jù)集發(fā)布出來(lái)。而除此之外,美國(guó)政府和歐洲政府的法律法規(guī)也在進(jìn)一步引導(dǎo)數(shù)據(jù)開(kāi)放共享。

開(kāi)放數(shù)據(jù)研究所(ODI)首席執(zhí)行官Jeni Tennison表示,Google參與到開(kāi)放數(shù)據(jù)行動(dòng)中來(lái),將更有利于這項(xiàng)運(yùn)動(dòng)獲得成功。數(shù)據(jù)集搜索一直是一個(gè)很困難的事情,希望谷歌能讓它變得更加容易。她進(jìn)一步說(shuō),要?jiǎng)?chuàng)建一個(gè)像樣的搜索引擎,你需要知道如何構(gòu)建對(duì)用戶(hù)友好的系統(tǒng),并了解人們?cè)阪I入某些短語(yǔ)時(shí)的真實(shí)所想。而谷歌對(duì)這些了如指掌。事實(shí)上,對(duì)于搜索引擎來(lái)說(shuō),最重要的是用戶(hù)所產(chǎn)生的行為數(shù)據(jù),這才是促進(jìn)引擎快速成長(zhǎng)的活力源泉。所以,雖然搜索引擎賴(lài)以抓取數(shù)據(jù)集的元數(shù)據(jù)標(biāo)簽是一個(gè)開(kāi)放標(biāo)準(zhǔn),任何競(jìng)爭(zhēng)對(duì)手(如Bing或Yandex等)都可以使用它來(lái)構(gòu)建自己的競(jìng)爭(zhēng)服務(wù),但谷歌從沒(méi)有喪失自己的真正優(yōu)勢(shì)。Tennison也表示:“直觀地了解人們的搜索方式很重要,譬如,他們?cè)跈z索時(shí)會(huì)使用什么樣的術(shù)語(yǔ),又會(huì)如何表述這些術(shù)語(yǔ)。從了解人們?nèi)绾嗡阉鲾?shù)據(jù),并據(jù)此進(jìn)一步推進(jìn)數(shù)據(jù)開(kāi)放的角度說(shuō),如果谷歌能夠開(kāi)放自己的用戶(hù)行為數(shù)據(jù),將會(huì)大有裨益?!?/p>

總而言之,更多的數(shù)據(jù)開(kāi)放共享是值得期待的潮流,而谷歌無(wú)疑又一次扛起了領(lǐng)頭的大旗。當(dāng)然,在谷歌完全回歸中國(guó)之前,我們距離便利還會(huì)多一個(gè)梯子的距離。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6177

    瀏覽量

    105693
  • 搜索引擎
    +關(guān)注

    關(guān)注

    0

    文章

    119

    瀏覽量

    13364

原文標(biāo)題:谷歌新推數(shù)據(jù)搜索,科學(xué)研究還爬樓么?

文章出處:【微信號(hào):zhishexueshuquan,微信公眾號(hào):知社學(xué)術(shù)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    lmp91200 spi只接收數(shù)據(jù),不用返回數(shù)據(jù)嗎?

    lmp91200 spi只接收數(shù)據(jù),不用返回數(shù)據(jù)嗎?
    發(fā)表于 01-01 08:19

    LDC1614EVM在UPLOAD固件過(guò)程中意外斷開(kāi)連接,然后就再也不能正常連接了,怎么處理?

    請(qǐng)教一下LDC1614EVM在UPLOAD固件過(guò)程中意外斷開(kāi)連接,然后就再也不能正常連接了。請(qǐng)問(wèn)應(yīng)該如何處理
    發(fā)表于 12-27 06:09

    蘋(píng)果為谷歌支付數(shù)十億美元辯護(hù),參與搜索案反壟斷審判

    近日,蘋(píng)果公司已正式要求參與谷歌即將在美國(guó)舉行的在線搜索反壟斷審判,此舉旨在為其與谷歌之間的收入分成協(xié)議進(jìn)行辯護(hù)。該協(xié)議使得谷歌成為Safari瀏覽器的默認(rèn)
    的頭像 發(fā)表于 12-26 10:41 ?173次閱讀

    谷歌取消“站點(diǎn)鏈接搜索框”,適應(yīng)新搜索需求

    近日,谷歌發(fā)布了一則通知,決定取消搜索結(jié)果中的“站點(diǎn)鏈接搜索框”。這一功能已經(jīng)陪伴了用戶(hù)十多年,它允許用戶(hù)在特定網(wǎng)站上進(jìn)行更深入的搜索,為許多網(wǎng)民提供了便利。然而,隨著時(shí)代的變遷和技術(shù)
    的頭像 發(fā)表于 10-23 11:20 ?354次閱讀

    OpenAI將推出在線搜索工具“SearchGPT”

    科技巨頭OpenAI正悄然醞釀一場(chǎng)搜索領(lǐng)域的變革,其最新推出的在線搜索工具“SearchGPT”正悄然挑戰(zhàn)著Alphabet旗下谷歌搜索
    的頭像 發(fā)表于 07-26 16:54 ?707次閱讀

    SMT32F429頻繁接收數(shù)據(jù)之后,發(fā)送會(huì)報(bào)錯(cuò)ERR_MEM(-1)的原因?

    in ../Middlewares/Third_Party/LwIP/src/core/pbuf.c 頻繁接收數(shù)據(jù)之后,發(fā)送會(huì)報(bào)錯(cuò)ERR_MEM(-1),后面就再也不能正常收發(fā)數(shù)據(jù)了。 各位大佬,請(qǐng)問(wèn)這是什么原因?qū)е碌??或者?/div>
    發(fā)表于 07-05 06:23

    PyTorch如何訓(xùn)練自己的數(shù)據(jù)

    PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架,它以其靈活性、易用性和強(qiáng)大的動(dòng)態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時(shí),數(shù)據(jù)是不可或缺的組成部分。然而,很多時(shí)候,我們可能需要使用自己的數(shù)據(jù)
    的頭像 發(fā)表于 07-02 14:09 ?1900次閱讀

    請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來(lái)識(shí)別異常的聲音,但我目前沒(méi)有辦法生成模型,我感覺(jué)可能是數(shù)據(jù)的問(wèn)題,請(qǐng)問(wèn)我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會(huì)有哪些原因?
    發(fā)表于 05-28 07:27

    谷歌將在AI搜索中加入廣告

    谷歌近日宣布,將在美國(guó)測(cè)試在人工智能生成的答案中嵌入搜索和購(gòu)物廣告。這一創(chuàng)新舉措緊隨其年度I/O大會(huì)上推出的人工智能概覽功能之后。
    的頭像 發(fā)表于 05-23 09:23 ?493次閱讀

    OpenAI計(jì)劃下周一宣布對(duì)標(biāo)谷歌搜索的競(jìng)品

    OpenAI即將在下周一揭曉一項(xiàng)重大創(chuàng)新,他們計(jì)劃推出一款全新的AI搜索產(chǎn)品,以挑戰(zhàn)當(dāng)前搜索領(lǐng)域的巨頭谷歌。這一決定無(wú)疑將加劇雙方在搜索市場(chǎng)
    的頭像 發(fā)表于 05-11 09:22 ?376次閱讀

    谷歌Vertex AI搜索在醫(yī)療保健領(lǐng)域正式推出

    谷歌公司近日宣布,其Vertex AI搜索功能在醫(yī)療保健領(lǐng)域正式亮相,并已成功與MedLM以及醫(yī)療保健數(shù)據(jù)引擎(HDE)完成集成。這一創(chuàng)新功能專(zhuān)為醫(yī)護(hù)人員設(shè)計(jì),旨在從繁雜的醫(yī)療記錄中快速且精準(zhǔn)地提取出關(guān)鍵的臨床信息。
    的頭像 發(fā)表于 03-22 14:08 ?650次閱讀

    蘋(píng)果微軟曾洽購(gòu)必應(yīng),因谷歌搜索質(zhì)量未果

    CNBC及其他媒體引述的美國(guó)司法部反壟斷公訴書(shū)詳細(xì)列舉了谷歌搜索領(lǐng)域所持的壟斷角色。訴狀中透露,盡管微軟多次試圖將必應(yīng)用戶(hù)作為Safari瀏覽器的默認(rèn)搜索引擎,但每一次均因搜索結(jié)果質(zhì)
    的頭像 發(fā)表于 02-25 10:39 ?729次閱讀

    谷歌搜索引擎優(yōu)化的各個(gè)方面和步驟

    谷歌搜索引擎是最受歡迎和廣泛使用的搜索引擎之一,為了使你的網(wǎng)站在谷歌上更好地排名并提高曝光度,你可以采取一些谷歌
    的頭像 發(fā)表于 01-25 10:29 ?925次閱讀

    自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)匯總

    發(fā)自動(dòng)駕駛論文哪少的了數(shù)據(jù),今天筆者將為大家推薦一篇最新的綜述,總結(jié)了200多個(gè)自動(dòng)駕駛領(lǐng)域的數(shù)據(jù),大家堆工作量的時(shí)候也可以一些小眾的
    的頭像 發(fā)表于 01-19 10:48 ?1029次閱讀
    自動(dòng)駕駛領(lǐng)域的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>匯總

    語(yǔ)音數(shù)據(jù)在智能語(yǔ)音搜索中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著互聯(lián)網(wǎng)的普及和移動(dòng)設(shè)備的興起,智能語(yǔ)音搜索已經(jīng)成為人們獲取信息的重要方式之一。智能語(yǔ)音搜索通過(guò)語(yǔ)音交互的方式,為用戶(hù)提供更加便捷、高效的信息查詢(xún)服務(wù)。語(yǔ)音數(shù)據(jù)在智能語(yǔ)音
    的頭像 發(fā)表于 01-18 15:09 ?577次閱讀