nlp语言魔方感受,nlp语言魔方感受与收获
NLP预训练语言模型(三):逐步解析Transformer结构
1、当可供训练的token较少时,较大的模型往往不易于发挥它强大的建模表征能力;另外,当模型非常大时,就需要更多的并行操作。由于特征表示能力有限,较小的Transformer往往达不到大模型的performance。
2、Transformer模型支持同步或者异步的分布式训练。Paddle官方提供了详细的配置方法。
3、预训练模型的优势如下: 预训练模型的关键技术有三个: 关于预训练模型的架构,以Bert为例:输入是词的one-hot编码向量,乘上词向量矩阵后,再经过多层transformer中的Encoder模块,最终得到输出。
4、GPT是通过Transformer来训练语言模型,它所训练的语言模型是单向的,通过上文来预测下一个单词 BERT通过Transformer来训练MLM这种真正意义上的双向的语言模型,它所训练的语言模型是根据上下文来预测当前词。