BERT 是用来预训练 Transformer 模型的

  1. 随机遮挡一个或多个单词,让 Encoder 预测被遮挡的单词
  2. 把两句话放在一起,让 Encoder 判断是不是在原文中相邻的两句话

Task1、预测被遮挡的单词

image.png

Task2、预测下一个句子

训练数据格式:

image.png

设置训练数据 Target 标签

image.png
image.png

全过程

image.png

实例(三个任务)

image.png
image.png