只需一個(gè)API,直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27個(gè)預(yù)訓(xùn)練模型。簡(jiǎn)單易用,功能強(qiáng)大。
One API to rule them all。
前幾日,著名最先進(jìn)的自然語言處理預(yù)訓(xùn)練模型庫項(xiàng)目pytorch-pretrained-bert改名Pytorch-Transformers重裝襲來,1.0.0版橫空出世。
只需一個(gè)API,直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27個(gè)預(yù)訓(xùn)練模型。
簡(jiǎn)單易用,功能強(qiáng)大。目前已經(jīng)包含了PyTorch實(shí)現(xiàn)、預(yù)訓(xùn)練模型權(quán)重、運(yùn)行腳本和以下模型的轉(zhuǎn)換工具:
BERT,論文:“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,論文作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee,Kristina Toutanova
OpenAI 的GPT,論文:“Improving Language Understanding by Generative Pre-Training”,論文作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever
OpenAI的GPT-2,論文:“Language Models are Unsupervised Multitask Learners”,論文作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei,Ilya Sutskever
谷歌和CMU的Transformer-XL,論文:“Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”,論文作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.
谷歌和CMU的XLNet,論文:“XLNet: Generalized Autoregressive Pretraining for Language Understanding”,論文作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
Facebook的XLM,論文:“Cross-lingual Language Model Pretraining”,論文作者:Guillaume Lample,Alexis Conneau
這些實(shí)現(xiàn)都在幾個(gè)數(shù)據(jù)集(參見示例腳本)上進(jìn)行了測(cè)試,性能與原始實(shí)現(xiàn)相當(dāng),例如BERT中文全詞覆蓋在SQuAD數(shù)據(jù)集上的F1分?jǐn)?shù)為93;OpenAI GPT 在RocStories上的F1分?jǐn)?shù)為88;Transformer-XL在WikiText 103上的困惑度為18.3;XLNet在STS-B的皮爾遜相關(guān)系數(shù)為0.916。
項(xiàng)目中提供27個(gè)預(yù)訓(xùn)練模型,下面是這些模型的完整列表,以及每個(gè)模型的簡(jiǎn)短介紹。
BERT-base和BERT-large分別是110M和340M參數(shù)模型,并且很難在單個(gè)GPU上使用推薦的批量大小對(duì)其進(jìn)行微調(diào),來獲得良好的性能(在大多數(shù)情況下批量大小為32)。
為了幫助微調(diào)這些模型,作者提供了幾種可以在微調(diào)腳本中激活的技術(shù) run_bert_classifier.py和run_bert_squad.py:梯度累積(gradient-accumulation),多GPU訓(xùn)練(multi-gpu training),分布式訓(xùn)練(distributed training )和16- bits 訓(xùn)練( 16-bits training)。
注意,這里要使用分布式訓(xùn)練和16- bits 訓(xùn)練,你需要安裝NVIDIA的apex擴(kuò)展。
作者在doc中展示了幾個(gè)基于BERT原始實(shí)現(xiàn)和擴(kuò)展的微調(diào)示例,分別為:
九個(gè)不同GLUE任務(wù)的序列級(jí)分類器;
問答集數(shù)據(jù)集SQUAD上的令牌級(jí)分類器;
SWAG分類語料庫中的序列級(jí)多選分類器;
另一個(gè)目標(biāo)語料庫上的BERT語言模型。
這里僅展示GLUE的結(jié)果:
該項(xiàng)目是在Python 2.7和3.5+上測(cè)試(例子只在python 3.5+上測(cè)試)和PyTorch 0.4.1到1.1.0測(cè)試。
-
自然語言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13581 -
pytorch
+關(guān)注
關(guān)注
2文章
808瀏覽量
13249
原文標(biāo)題:GitHub超9千星:一個(gè)API調(diào)用27個(gè)NLP預(yù)訓(xùn)練模型
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論