337p人体粉嫩胞高清在线播放,国模无码视频一区,亚洲一区二区三区在线视频

只需一個(gè)API，直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架，包含了27個(gè)預(yù)訓(xùn)練模型。簡(jiǎn)單易用，功能強(qiáng)大。

One API to rule them all。

前幾日，著名最先進(jìn)的自然語言處理預(yù)訓(xùn)練模型庫項(xiàng)目pytorch-pretrained-bert改名Pytorch-Transformers重裝襲來，1.0.0版橫空出世。

只需一個(gè)API，直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架，包含了27個(gè)預(yù)訓(xùn)練模型。

簡(jiǎn)單易用，功能強(qiáng)大。目前已經(jīng)包含了PyTorch實(shí)現(xiàn)、預(yù)訓(xùn)練模型權(quán)重、運(yùn)行腳本和以下模型的轉(zhuǎn)換工具：

BERT，論文：“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”，論文作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee，Kristina Toutanova

OpenAI 的GPT，論文：“Improving Language Understanding by Generative Pre-Training”，論文作者：Alec Radford, Karthik Narasimhan, Tim Salimans， Ilya Sutskever

OpenAI的GPT-2，論文：“Language Models are Unsupervised Multitask Learners”，論文作者：Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei，Ilya Sutskever

谷歌和CMU的Transformer-XL，論文：“Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”，論文作者：Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.

谷歌和CMU的XLNet，論文：“XLNet: Generalized Autoregressive Pretraining for Language Understanding”，論文作者：Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Facebook的XLM，論文：“Cross-lingual Language Model Pretraining”，論文作者：Guillaume Lample，Alexis Conneau

這些實(shí)現(xiàn)都在幾個(gè)數(shù)據(jù)集（參見示例腳本）上進(jìn)行了測(cè)試，性能與原始實(shí)現(xiàn)相當(dāng)，例如BERT中文全詞覆蓋在SQuAD數(shù)據(jù)集上的F1分?jǐn)?shù)為93；OpenAI GPT 在RocStories上的F1分?jǐn)?shù)為88；Transformer-XL在WikiText 103上的困惑度為18.3；XLNet在STS-B的皮爾遜相關(guān)系數(shù)為0.916。

項(xiàng)目中提供27個(gè)預(yù)訓(xùn)練模型，下面是這些模型的完整列表，以及每個(gè)模型的簡(jiǎn)短介紹。

BERT-base和BERT-large分別是110M和340M參數(shù)模型，并且很難在單個(gè)GPU上使用推薦的批量大小對(duì)其進(jìn)行微調(diào)，來獲得良好的性能（在大多數(shù)情況下批量大小為32）。

為了幫助微調(diào)這些模型，作者提供了幾種可以在微調(diào)腳本中激活的技術(shù) run_bert_classifier.py和run_bert_squad.py：梯度累積（gradient-accumulation），多GPU訓(xùn)練（multi-gpu training），分布式訓(xùn)練（distributed training ）和16- bits 訓(xùn)練（ 16-bits training）。

注意，這里要使用分布式訓(xùn)練和16- bits 訓(xùn)練，你需要安裝NVIDIA的apex擴(kuò)展。

作者在doc中展示了幾個(gè)基于BERT原始實(shí)現(xiàn)和擴(kuò)展的微調(diào)示例，分別為：

九個(gè)不同GLUE任務(wù)的序列級(jí)分類器；

問答集數(shù)據(jù)集SQUAD上的令牌級(jí)分類器；

SWAG分類語料庫中的序列級(jí)多選分類器；

另一個(gè)目標(biāo)語料庫上的BERT語言模型。

這里僅展示GLUE的結(jié)果：

該項(xiàng)目是在Python 2.7和3.5+上測(cè)試（例子只在python 3.5+上測(cè)試）和PyTorch 0.4.1到1.1.0測(cè)試。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
619

瀏覽量
13581
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
808

瀏覽量
13249

原文標(biāo)題：GitHub超9千星：一個(gè)API調(diào)用27個(gè)NLP預(yù)訓(xùn)練模型

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫

深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展，在處理各種類型的任務(wù)中，預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名，始終處于這一

發(fā)表于 12-20 10:32 ?121次閱讀

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

，基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱，完整的叫法，應(yīng)該是“人工智能預(yù)訓(xùn)練大

發(fā)表于 11-25 09:29 ?1820次閱讀

從零開始訓(xùn)練一個(gè)大語言模型需要投資多少錢？

一，前言 ? 在AI領(lǐng)域，訓(xùn)練一個(gè)大型語言模型（LLM）是一

發(fā)表于 11-08 14:15 ?252次閱讀

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日（周三）20：00精彩開播期待與您云相聚，共襄學(xué)術(shù)盛宴！|直播信息報(bào)告題目預(yù)

發(fā)表于 10-18 08:09 ?239次閱讀

在PyTorch中搭建一個(gè)最簡(jiǎn)單的模型

在PyTorch中搭建一個(gè)最簡(jiǎn)單的模型通常涉及幾個(gè)關(guān)鍵步驟：定義模型結(jié)構(gòu)、加載數(shù)據(jù)、設(shè)置損失函數(shù)和優(yōu)化器，以及進(jìn)行模型

發(fā)表于 07-16 18:09 ?2086次閱讀

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念，它們?cè)谔岣?b class='flag-5'>模型性能、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定

發(fā)表于 07-11 10:12 ?1117次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?448次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念，尤其是在自然語言處理（NLP）和計(jì)算機(jī)視覺（CV）

發(fā)表于 07-03 18:20 ?2947次閱讀

解讀PyTorch模型訓(xùn)練過程

PyTorch作為一個(gè)開源的機(jī)器學(xué)習(xí)庫，以其動(dòng)態(tài)計(jì)算圖、易于使用的API和強(qiáng)大的靈活性，在深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文將深入解讀PyTorch模型

發(fā)表于 07-03 16:07 ?1099次閱讀

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一

發(fā)表于 07-01 16:13 ?1353次閱讀

大語言模型：原理與工程時(shí)間+小白初識(shí)大語言模型

的分布式表示，基于預(yù)訓(xùn)練的詞嵌入表示。獨(dú)熱表示就是在一個(gè)大的向量空間中，其中一個(gè)位1，其余都為

發(fā)表于 05-12 23:57

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

進(jìn)行損失計(jì)算，得到下一個(gè)目標(biāo)的預(yù)測(cè)。也會(huì)設(shè)計(jì)一些其他輔助訓(xùn)練任務(wù)，與主任務(wù)共同訓(xùn)練。選擇合適的預(yù)訓(xùn)練

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

就無法修改，因此難以靈活應(yīng)用于下游文本的挖掘中。詞嵌入表示：將每個(gè)詞映射為一個(gè)低維稠密的實(shí)值向量。不同的是，基于預(yù)訓(xùn)練的詞嵌入表示先在語料庫中利用某種語言

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實(shí)踐】核心技術(shù)綜述

的具體需求，這通常需要較少量的標(biāo)注數(shù)據(jù)。多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí): LLMs利用在預(yù)訓(xùn)練中積累的知識(shí)，可以通過遷移學(xué)習(xí)在相關(guān)任務(wù)上快速適應(yīng)，有時(shí)還可以在一個(gè)

發(fā)表于 05-05 10:56

谷歌模型訓(xùn)練軟件有哪些功能和作用

谷歌模型訓(xùn)練軟件主要是指ELECTRA，這是一種新的預(yù)訓(xùn)練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢(shì)，而且在效率上更勝

發(fā)表于 02-29 17:37 ?811次閱讀

搜索歷史

只需一個(gè)API，包含了27個(gè)預(yù)訓(xùn)練模型

評(píng)論

KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

從零開始訓(xùn)練一個(gè)大語言模型需要投資多少錢？

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

在PyTorch中搭建一個(gè)最簡(jiǎn)單的模型

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

大語言模型的預(yù)訓(xùn)練

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

解讀PyTorch模型訓(xùn)練過程

深度學(xué)習(xí)模型訓(xùn)練過程詳解

大語言模型：原理與工程時(shí)間+小白初識(shí)大語言模型

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實(shí)踐】核心技術(shù)綜述

谷歌模型訓(xùn)練軟件有哪些功能和作用

搜索歷史

只需一個(gè)API，包含了27個(gè)預(yù)訓(xùn)練模型

評(píng)論

只需一個(gè)API，包含了27個(gè)預(yù)訓(xùn)練模型