0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MIT推新型機器算法,可破譯消失已久的古語言

如意 ? 來源:開源中國 ? 作者:白開水不加糖 ? 2020-10-28 14:54 ? 次閱讀

麻省理工學院計算機科學與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人員最近開發(fā)出了一種新的計算機算法,可以幫助語言學家自動破譯歷史上消失已久失的古語言。

官方指出,該系統(tǒng)能夠自動破譯已消失的語言,且無需對這一語言與其他語言的關(guān)系有深入的了解。他們還表明,該系統(tǒng)自身就可以確定語言之間的關(guān)系,并可以用它來證實最近的一項表明 Iberian 語言實際上與 Basque 語言無關(guān)的學術(shù)研究。

CSAIL 方面稱,最近的研究表明,大多數(shù)曾經(jīng)存在過的語言已經(jīng)不再被使用。其中有數(shù)十種已滅絕語言也已被認為是“未破譯”的語言。這就意味著,大眾對它們的語法(grammar)、詞匯(vocabulary)或句法(syntax)都了解不足,也無法理解其文本的意思。

而研究這些“未破譯”的語言,除了是出于學術(shù)上的好奇心。還在于,不理解語言我們就會錯過與講這些語言的人有關(guān)的一整套知識體系。然而不幸的是,大多數(shù)滅絕語言的相關(guān)記錄都非常的少,導致科學家無法使用谷歌翻譯之類的機器翻譯工具或 AI 算法來對其進行解密。

因此,此次 CSAIL 團隊推出這一新算法的最終目的就是,旨在只用幾千個單詞,就可以破譯語言學家?guī)资陙黼y以理解的失傳語言。

本次研究由 MIT 教授 Regina Barzilay 牽頭,依賴于基于歷史語言學(historical linguistics)見解的幾項原則。例如,語言通常僅以某些可預測的方式發(fā)展。具體表現(xiàn)為:一種給定的語言很少會直接添加或刪除整個音節(jié),但是很可能會發(fā)生某些近似發(fā)音的替換。像母語中帶有“p”發(fā)音的單詞就可能會在其后代演變中變?yōu)椤癰”,但是由于明顯的發(fā)音差異,變?yōu)椤発”的可能性則較小。

通過整合這些原則和其他語言學約束,Barzilay 和 MIT 博士生 Jiaming Luo 開發(fā)了一種解密算法,該算法可以處理可能的轉(zhuǎn)換的巨大空間以及輸入中引導信號的稀缺性。該算法學習將語言聲音嵌入多維空間,在該多維空間中,相應矢量之間的距離反映了不同發(fā)音的差異。這種設計使他們能夠捕獲語言變化的相關(guān)模式,并將其表達為計算約束(computational constraints)。生成的模型可以將古代語言中的單詞進行細分,并將其映射到相關(guān)語言中的對應單詞。

該項目建立在 Barzilay 和 Luo 去年寫的一篇論文的基礎上, 這篇論文解密了已滅絕的 Ugaritic 和 Linear B 語言,后者以前需要數(shù)十年的時間才能被人類解碼。但是,兩個項目之間的主要區(qū)別在于,該團隊此前就已經(jīng)知道這些語言分別與希伯來語和希臘語的早期形式有關(guān)。

新算法可以推斷語言之間的關(guān)系,這是語言解密中的最大挑戰(zhàn)之一。該算法可以評估兩種語言之間的相似度,當對已知語言進行測試時,它甚至可以準確地識別出該語言屬于哪個語系(language families)。不僅如此,算法生成的模型可以將古語言中的單詞進行細分,并將其一一映射到“相關(guān)”語言中的對應單詞上去。

在未來的工作中,該團隊希望擴展到將文本與已知語言的相關(guān)單詞相關(guān)聯(lián)的范圍之外,這種方法被稱為“基于同源的破譯方法”。其表示,“例如,我們可以識別文本中涉及到的所有人或地點的信息,然后可以根據(jù)已知的歷史證據(jù)對其進行進一步的調(diào)查。這些實體識別(entity recognition)方法如今已廣泛用于各種文本處理應用程序中,并且具有很高的準確性。但是關(guān)鍵的研究問題在于,在沒有任何古代語言訓練數(shù)據(jù)的情況下,這項任務是否可行? ”
責編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4622

    瀏覽量

    93053
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    253

    瀏覽量

    23417
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14914
收藏 人收藏

    評論

    相關(guān)推薦

    自然語言處理在聊天機器人中的應用

    上歸功于自然語言處理技術(shù)的進步。 聊天機器人的工作原理 聊天機器人的核心是一個對話系統(tǒng),它能夠處理用戶的輸入(通常是文本形式),并生成相應的回復。這個系統(tǒng)通常包括以下幾個關(guān)鍵組件: 語言
    的頭像 發(fā)表于 12-05 15:24 ?478次閱讀

    自然語言處理與機器學習的關(guān)系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領(lǐng)域的一個分支,它致力于研究如何讓計算機能夠理解、解釋和生成人類語言。機器學習(Ma
    的頭像 發(fā)表于 12-05 15:21 ?534次閱讀

    訓練RNN時如何避免梯度消失

    在處理長序列數(shù)據(jù)時,RNN(循環(huán)神經(jīng)網(wǎng)絡)模型可能會面臨梯度消失的問題,這是由于反向傳播過程中,由于連續(xù)的乘法操作,梯度會指數(shù)級地衰減,導致較早的時間步的輸入對較后時間步的梯度幾乎沒有影響,難以進行
    的頭像 發(fā)表于 11-15 10:01 ?365次閱讀

    NPU與機器學習算法的關(guān)系

    在人工智能領(lǐng)域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習等機器學習任務設計的處理器,其與
    的頭像 發(fā)表于 11-15 09:19 ?513次閱讀

    自然語言處理與機器學習的區(qū)別

    在人工智能的快速發(fā)展中,自然語言處理(NLP)和機器學習(ML)成為了兩個核心的研究領(lǐng)域。它們都致力于解決復雜的問題,但側(cè)重點和應用場景有所不同。 1. 自然語言處理(NLP) 定義: 自然
    的頭像 發(fā)表于 11-11 10:35 ?640次閱讀

    機器人語言系統(tǒng)包括三個基本狀態(tài)

    機器人語言系統(tǒng)(有時也被稱為機器人語言操作系統(tǒng))確實包括三個基本狀態(tài),這些狀態(tài)是機器人程序運行和管理的核心組成部分。它們分別是: 監(jiān)控狀態(tài) :在此狀態(tài)下,系統(tǒng)負責對機器人的運行狀況進行
    的頭像 發(fā)表于 09-04 09:24 ?602次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節(jié)介紹了機器學習,從方法論上來看,機器學習屬于歸納推理;從開發(fā)設計方式來看,機器學習屬于自動編程。我們平時使用各種計算機高級語言編寫程序代碼,這屬于人工編程的范疇;
    發(fā)表于 07-25 14:33

    ROS讓機器人開發(fā)更便捷,基于RK3568J+Debian系統(tǒng)發(fā)布!

    ,簡單快捷地調(diào)用合適的算法庫,以提高開發(fā)效率,加快開發(fā)進程。 (2) 開源免費,架構(gòu)精簡 ROS系統(tǒng)是一個開源免費,架構(gòu)精簡的機器人操作系統(tǒng)。ROS被設計為盡可能精簡,以便為ROS編寫的代碼與其
    發(fā)表于 07-09 11:38

    Al大模型機器

    金航標kinghelm薩科微slkor總經(jīng)理宋仕強介紹說,薩科微Al大模型機器人有哪些的優(yōu)勢?薩科微AI大模型機器人由清華大學畢業(yè)的天才少年N博士和王博士團隊開發(fā),與同行相比具有許多優(yōu)勢:語言
    發(fā)表于 07-05 08:52

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數(shù)據(jù)中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習算法原理,包括線性回歸、邏輯回歸、支持向量機(SVM)、決策樹和K近鄰(KNN)
    的頭像 發(fā)表于 07-02 11:25 ?1134次閱讀

    機器學習的經(jīng)典算法與應用

    關(guān)于數(shù)據(jù)機器學習就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)集,在統(tǒng)計學習和機器學習領(lǐng)域都經(jīng)常被用作示例。數(shù)據(jù)集內(nèi)包含3類共150條記錄,每
    的頭像 發(fā)表于 06-27 08:27 ?1679次閱讀
    <b class='flag-5'>機器</b>學習的經(jīng)典<b class='flag-5'>算法</b>與應用

    abb工業(yè)機器人的編程語言是什么

    ABB工業(yè)機器人的編程語言主要是RAPID(Robot Application Programming Interface for Development),它是一種高級編程語言,專門為工業(yè)
    的頭像 發(fā)表于 06-16 16:49 ?2649次閱讀

    AI算法的本質(zhì)是模擬人類智能,讓機器實現(xiàn)智能化

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)AI算法是人工智能領(lǐng)域中使用的算法,用于模擬、延伸和擴展人的智能。這些算法可以通過機器學習、深度學習、強化學習等技術(shù)實現(xiàn),并被廣泛應用于語音識別、自然
    的頭像 發(fā)表于 02-07 00:07 ?5854次閱讀

    無需電池、自供電,MIT開發(fā)出新型傳感器

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)近日,麻省理工學院(MIT)的研究人員發(fā)表論文稱,該團隊開發(fā)出了一種無需電池、自供電的傳感器,可以從環(huán)境中獲取能量。由于它不需要必須充電或更換電池,也不需要特殊的布線
    的頭像 發(fā)表于 01-24 00:05 ?3514次閱讀
    無需電池、自供電,<b class='flag-5'>MIT</b>開發(fā)出<b class='flag-5'>新型</b>傳感器

    機器人基于開源的多模態(tài)語言視覺大模型

    ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發(fā)表于 01-19 11:43 ?424次閱讀
    <b class='flag-5'>機器</b>人基于開源的多模態(tài)<b class='flag-5'>語言</b>視覺大模型