13 Transformer的多头注意力,Multi-Head Self-Attention(从空间角度解释为什么做多头)

Поделиться
HTML-код
  • Опубликовано: 17 окт 2024

Комментарии • 2

  • @zixiqin6634
    @zixiqin6634 11 месяцев назад +1

    感谢大佬救我大命!!!!感激不尽!!!我本来在看contrastive learning的,看着看着论文,就有文章用了attention,然后只能临时来找补!感激!

  • @skyacaniadev2229
    @skyacaniadev2229 6 месяцев назад

    不应该是把X复制8分输入到每个头里吗?