0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google又為科研工作者推出了一款重磅產品——數據集搜索

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-09-07 10:09 ? 次閱讀

繼 Google Scholar(Google 學術搜索)之后,Google 又為科研工作者推出了一款重磅產品—— Google Dataset Search(Google 數據集搜索)。

為什么說這款產品如此重要?因為數據從未如此重要。由于深度學習的興起,AI 研究員需要大量的數據來訓練他們的模型,吳恩達就曾表示,深度學習像火箭,計算是引擎,數據是燃料。有時候,數據可能比算法更重要。

然而,數據集和相關數據往往分布在網上的多個數據存儲區(qū)中。在大多數情況下,搜索引擎既無法提供這些數據庫相關信息的鏈接,也不會將這些信息編入索引,這會導致數據尋找變得無比繁瑣,或者在某些情況下無法實現。

一些掌握了大量數據的互聯網公司也因此擁有很大的優(yōu)勢,而高校的學者除了一些公開的知名數據集,想要擁有大量的數據則非常困難,因此 Google 的這款產品可謂是及時雨。當然,其他需要各種數據的工作者也能從中受益。

Google Dataset Search 為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面,希望借此改變用戶發(fā)布和運用數據的方式。

現在,就讓我們來一起看下這款搜索工具。

與 Google Scholar 類似,Google Dataset Search 可方便用戶查找托管在任何位置的數據集,無論是出版網站、數字圖書館還是作者的個人網頁。

為了創(chuàng)建 Dataset Search,Google 還為數據集提供方制定了一套數據指南(https://developers.google.com/search/docs/data-types/dataset)。這些指南包括有關數據集的重要信息:數據集的作者,發(fā)布時間,數據收集方式,使用數據的條款等等。然后,Google 收集并鏈接這些信息,分析同一數據集的不同版本可能在哪里,并找到可能描述或討論這一數據集的出版物。

Google 的指南是基于一個數據集的開放標準(schema.org),任何發(fā)布數據的人都可以通過這種方式描述他們的數據集。

在這個新版本中,用戶可以找到很多環(huán)境和社會科學相關的數據集,以及其他學科的數據,包括政府數據和新聞機構提供的數據,如 ProPublica。隨著越來越多的數據倉庫使用 schema.org 標準來描述他們的數據集,Google Dataset Search 能夠搜索到的數據集的種類和覆蓋面將持續(xù)增長。

目前 Google Dataset Search 已經支持多種語言,筆者嘗試了下,除了英文,還支持中文。

我們先嘗試下英文搜索,如果你想分析天氣記錄,那么就可以在 Google Dataset Search 的輸入欄里嘗試輸入“daily weather”,結果如下圖所示:

可以看到,左邊欄呈現的是各種數據源,右邊則是相應的介紹,包括數據集的名稱、下載鏈接、更新日期、提供者、說明等等,非常清晰。

現在,我們來嘗試下中文,在搜索欄輸入“房價”,第一條就是中國房價的數據集,該數據集由 CEIC 提供,涵蓋的時間段從 2017年7月1日 —2018 年 6 月 1 日,算是非常新的數據了。

打開該數據集的鏈接,嗯,是個收費網站。不過,花錢能解決的事,總比毫無頭緒來得好。

Dataset Search 的發(fā)布凸顯了 Google 對數據集的重視。最近,Google 也對自家的 Google Search 也進行了改進,使得用戶搜索結果中發(fā)現表格數據變得更加容易,不過該計劃更側重于新聞機構和數據記者,而 Dataset Search 的受眾則更加廣泛。

Google 表示,這個項目能夠帶來下列好處:

a) 形成數據共享生態(tài)系統(tǒng),鼓勵數據發(fā)布者依照最佳做法來存儲和發(fā)布數據;

b) 為科學家提供相應平臺,方便大眾引用他們創(chuàng)建的數據集,展現他們的研究成果所帶來的影響力。

當然,Google Dataset Search 的搜索質量取決于數據發(fā)布者,因此,如果大家都用開放標準來描述自己的數據,那么搜索結果肯定會越來越好。

Google Dataset Search 目前仍處于測試階段,雖然支持中文搜索,但中國大陸的用戶想要使用依然需要“梯子”,不過這么好的工具,錯過豈不可惜!

針對 Google Scholar,2014 年 6 月百度上線了“百度學術”,不過大家似乎仍對 Google Scholar 情有獨鐘。這次,百度怎么看?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1765

    瀏覽量

    57536
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24703

原文標題:Google推出數據集搜索!百度,你怎么看?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    俄羅斯科技巨頭Yandex推出一款智能音箱 售價160美元

      導讀:5月30日據國外媒體報道,俄羅斯搜索巨頭Yandex剛剛推出了一款家庭語音助理智能揚聲器,希望能夠與亞馬遜Echo和谷歌Google Home等公司的
    發(fā)表于 06-05 09:27

    分享一款驅動超聲波換能器的超聲波驅動電源

    頻率、不同驅動信號的換能器的簡便切換。超聲技術目前已在中國、美國、日本等多個國家引起了科研工作者的廣泛高度關注。超聲技術也在國民經濟生產、生活、科研等各個領域扮演者十分重要的角色。功率超聲是利用超聲波的...
    發(fā)表于 01-03 06:10

    mil與mm換算的個小軟件(對LAYOUT工作者是個不錯的工具)

    電子發(fā)燒友網站提供《mil與mm換算的個小軟件(對LAYOUT工作者是個不錯的工具).rar》資料免費下載
    發(fā)表于 01-26 16:20 ?18次下載

    基于活躍度的工作者信譽模型實現眾包平臺的質量控制

    針對現有眾包系統(tǒng)不能有效地控制眾包交互過程中工作者的活躍積極性和任務完成質量的問題,提出了種基于活躍度的工作者信譽模型來實現眾包平臺的質量控制。該模型改進了平均信譽模型,從
    發(fā)表于 11-30 09:52 ?6次下載

    Google-CH出現,搜索結果與Google搜索致,Google搜索“重返中國”?

    5月21日,個名為Google-CH的網站在微博上引起了關注。這個域名為www.google-ch.com的網站不僅可以很方便的打開,而且搜索結果也與
    的頭像 發(fā)表于 06-12 10:46 ?4117次閱讀

    推出一款最新的SOC芯片IP6515

    近日,國內知名芯片品牌INJOINIC英推出了一款最新的集成雙口DCP協議輸出的SOC芯片IP6515。
    發(fā)表于 06-26 16:44 ?7440次閱讀

    HumanEyes科技推出VR Horizons教育項目,將VR攝像頭植入工作者手中

    HumanEyes科技公司宣布推出項新的教育計劃,致力于將虛擬現實(VR)攝像頭植入教育工作者的手中,使他們能夠開發(fā)沉浸式虛擬現實課程,讓學生充分了解如何制作和分享沉浸式虛擬現實內容。
    的頭像 發(fā)表于 07-27 10:27 ?4506次閱讀

    谷歌推出數據搜索黑科技,再也不用發(fā)愁找數據!

    旨在整合全球互聯網信息的谷歌,其首要目標本來是林林總總的商業(yè)網站。但最近,它推出了種新型的數據搜索引擎,將服務目標延展到了
    的頭像 發(fā)表于 09-14 14:09 ?3790次閱讀

    武漢大學研發(fā)出一款迷你軟體機器人

    軟體機器人相較于傳統(tǒng)剛性機器人,往往具有更大的自由度和變形能力,在生產生活、醫(yī)療救援等領域具有巨大的應用潛力,受到科研工作者的廣泛關注。
    的頭像 發(fā)表于 06-24 15:39 ?2642次閱讀

    Python爬蟲:工作者常用的動態(tài)IP代理

    爬蟲工作者應該經常要與代理ip工具打交道,根據不同的抓取網站,大家要調用不同類型的動態(tài)ip代理。
    的頭像 發(fā)表于 06-28 16:29 ?3380次閱讀

    OPPO推出針對新冠肺炎的輔助診斷科研平臺 99.76%識別準確率

    11月17日,在OPPO未來科技大會上,OPPO正式宣布推出針對新冠肺炎的輔助診斷科研平臺。 OPPO研究院院長劉暢表示,該平臺能夠協助科研工作者開發(fā)快速有效的篩查工具,未來這平臺將
    的頭像 發(fā)表于 11-17 17:03 ?2184次閱讀

    訊維KVM坐席管理系統(tǒng)在科研機構多屏幕管理中的應用

    數據、圖像和視頻資料,而這些資料在多屏幕環(huán)境下能夠得到更好的展示和處理。訊維KVM坐席管理系統(tǒng)支持多屏顯示功能,可以將多個屏幕組合成個統(tǒng)工作區(qū)域,使
    的頭像 發(fā)表于 05-14 16:42 ?324次閱讀

    剖析SOLIDWORKS科研版的功能優(yōu)勢

    科研領域,高精度的建模與分析工具是科研工作者不可或缺的助手。SOLIDWORKS科研版作為一款專為科研人員和工程師設計的三維計算機輔助設計
    的頭像 發(fā)表于 07-19 15:27 ?305次閱讀
    剖析SOLIDWORKS<b class='flag-5'>科研</b>版的功能優(yōu)勢

    如何解決研究院的科研工作者在實驗室身穿防護服可以解放雙手內部高效溝通等問題—TIKOOL太酷無線內通

    HY-B50系列實現了信號全覆蓋,搭建了套各個崗位之間可以實時通訊十分靈活的內部通話系統(tǒng)。太酷HY-B50無線內通系列設備保障了通話低延遲、高音頻質量的同時有效解決科研工作人員活動受限帶來的通訊問題,IP組網的連接方式,也減少了布線施工的
    的頭像 發(fā)表于 11-23 16:08 ?175次閱讀
    如何解決研究院的<b class='flag-5'>科研工作者</b>在實驗室身穿防護服可以解放雙手內部高效溝通等問題—TIKOOL太酷無線內通

    中科馭數獲批設立博士后科研工作

    中科馭數獲批準設立博士后科研工作站,近日在北京市人力資源和社會保障局主辦的博士后人才培養(yǎng)工作會議上,中科馭數獲得由人力資源和社會保障部、全國博士后管委會聯合授予的博士后科研工作站牌匾。
    的頭像 發(fā)表于 12-19 17:15 ?270次閱讀