保存成功
订阅成功
保存失败,请重试
提交成功

Transformer 深度解析及性能优化(附完整代码)

¥10会员免费看
燎原火
5

Transformer 将注意力机制(Attention)发挥到了极致,不但以 encode-decode 形式在 seq2seq 任务中取得 state-of-the-art,并且仅以 encode 形式作为 BERT 的核心组件,打榜几乎所有 NLP 任务。

  • Transformer 中使用了那些 Attention,每种 Attention 具体怎么实现呢
  • 当我们理解 Attention 后怎么合理的构建 Transformer,需要注意那些细节呢
  • BERT 在 Transformer 基础上做了那些优化,可以实现 encode-decode 吗
  • 在 Transformer 模型蒸馏中,BERT 可以分别在 encode 和 decode 端实现蒸馏吗

本 Chat 将会使用 Transformer 搭配 BERT 模型蒸馏实现指代消解,并详细解析核心代码,大家还将学习到:

  1. Transformer 及常用 Attention 详解
  2. Pre-LayerNorm 优势详解
  3. Mask 在 Transformer 中使用方式详解
  4. BERT 实现 encode-decode 详解
  5. Transformer 模型蒸馏中,BERT 在 encode 和 decode 端实现蒸馏详解
  6. 使用 JIT,模型裁剪等方式提高 Transformer 预测性能详解
  7. 附上完整代码供大家学习
77 人已订阅
会员免费看
¥10 原价订阅
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
入群与作者交流×
扫码后回复关键字 入群
Chat·作者交流群
入群码
该二维码永久有效
严选标准
知道了
Chat 状态详情
开始预订
预订结果公布04月03日

预订达标,作者开始写作

审核未达标,本场 Chat 终止

作者文章审核结果公布04月17日

审核达标,文章发布

审核未达标,本场 Chat 终止

Chat 完结
×
已购列表