7.3 NLP中的常用预训练模型

论坛 期权论坛     
匿名技术用户   2021-1-15 13:55   494   0
<h2>3 NLP中的常用预训练模型</h2>
<hr>
<ul><li> <p>学习目标:</p>
  <ul><li> <p>了解当下NLP中流行的预训练模型.</p> </li><li> <p>掌握如何加载和使用预训练模型.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.1 当下NLP中流行的预训练模型:</p>
  <ul><li> <p>BERT</p> </li><li> <p>GPT</p> </li><li> <p>GPT-2</p> </li><li> <p>Transformer-XL</p> </li><li> <p>XLNet</p> </li><li> <p>XLM</p> </li><li> <p>RoBERTa</p> </li><li> <p>DistilBERT</p> </li><li> <p>ALBERT</p> </li><li> <p>T5</p> </li><li> <p>XLM-RoBERTa</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.2 BERT及其变体:</p>
  <ul><li> <p>bert-base-uncased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在小写的英文文本上进行训练而得到.</p> </li><li> <p>bert-large-uncased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在小写的英文文本上进行训练而得到.</p> </li><li> <p>bert-base-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在不区分大小写的英文文本上进行训练而得到.</p> </li><li> <p>bert-large-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在不区分大小写的英文文本上进行训练而得到.</p> </li><li> <p>bert-base-multilingual-uncased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在小写的102种语言文本上进行训练而得到.</p> </li><li> <p>bert-large-multilingual-uncased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在不区分大小写的102种语言文本上进行训练而得到.</p> </li><li> <p>bert-base-chinese: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在简体和繁体中文文本上进行训练而得到.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.3 GPT:</p>
  <ul><li> <p>openai-gpt: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 由OpenAI在英文语料上进行训练而得到.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.4 GPT-2及其变体:</p>
  <ul><li> <p>gpt2: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共117M参数量, 在OpenAI GPT-2英文语料上进行训练而得到.</p> </li><li> <p>gpt2-xl: 编码器具有48个隐层, 输出1600维张量, 25个自注意力头, 共1558M参数量, 在大型的OpenAI GPT-2英文语料上进行训练而得到.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.5 Transformer-XL:</p>
  <ul><li> <p>transfo-xl-wt103: 编码器具有18个隐层, 输出1024维张量, 16个自注意力头, 共257M参数量, 在wikitext-103英文语料进行训练而得到.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.6 XLNet及其变体:</p>
  <ul><li> <p>xlnet-base-cased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在英文语料上进行训练而得到.</p> </li><li> <p>xlnet-large-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共240参数量, 在英文语料上进行训练而得到.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.7 XLM:</p>
  <ul><li> <p>xlm-mlm-en-2048: 编码器具有12个隐层, 输出2048维张量, 16个自注意力头, 在英文文本上进行训练而得到.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.8 RoBERTa及其变体:</p>
  <ul><li> <p>roberta-base: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共125M参数量, 在英文文本上进行训练而得到.</p> </li><li> <p>roberta-large: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共355M参数量, 在英文文本上进行训练而得到.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.9 DistilBERT及其变体:</p>
  <ul><li> <p>distilbert-base-uncased: 基于bert-base-uncased的蒸馏(压缩)模型, 编码器具有6个隐层, 输出768维张量, 12个自注意力头, 共66M参数量.</p> </li><li> <p>distilbert-base-multilingual-cased: 基于bert-base-multilingual-uncased的蒸馏(压缩)模型, 编码器具有6个隐层, 输出768维张量, 12个自注意力头, 共66M参数量.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.10 ALBERT:</p>
  <ul><li> <p>albert-base-v1: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共125M参数量, 在英文文本上进行训练而得到.</p> </li><li> <p>albert-base-v2: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共125M参数量, 在英文文本上进行训练而得到, 相比v1使用了更多的数据量, 花费更长的训练时间.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.11 T5及其变体:</p>
  <ul><li> <p>t5-small: 编码器具有6个隐层, 输出512维张量, 8个自注意力头, 共60M参数量, 在C4语料上进行训练而得到.</p> </li><li> <p>t5-base: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共220M参数量, 在C4语料上进行训练而得到.</p> </li><li> <p>t5-large: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共770M参数量, 在C4语料上进行训练而得到.</p> </li></ul></li></ul>
<hr>
<ul><li> <p>2.3.12 XLM-RoBERTa及其变体:</p>
  <ul><li> <p>xlm-roberta-base:
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP