Text Generation

  • 参考:
  1. https://arxiv.org/pdf/2201.05273.pdf

问题定义

对于给定的输入信息xxx,生成一系列离散的Token序列 。其中xxx是词典。

文本生成任务也可以被描述为:
xxx

输入信息方式

根据输入信息的种类,可以将文本生成的应用分为如下5类:

  1. 没有提供或者是一个随机噪声向量
  2. 是一个离散特征的集合(如主题关键词、情感标签)
  3. 是结构化数据(如知识图谱、表格)
  4. 是多媒体输入(如图像、语音)
  5. 是文本序列(如应用于机器翻译、文本摘要、对话系统)

预训练模型结构

预训练模型结构主要可以分为 类:

  1. Encoder-decoder Transformer
  2. Decoder-only Transformer
  3. (待补充)

代表模型

GPT Family

论文链接:
主要评价方式:
模型Overview:
训练技巧:
结果:

BART

T5


喵喵喵?