通过代码示例深入了解绝对、相对和旋转位置嵌入
了解 Transformers 中的位置嵌入:从绝对到旋转
通过代码示例深入了解绝对、相对和旋转位置嵌入
Mina Ghashami
关注
走向数据科学
--
分享
变压器的关键组件之一是位置嵌入。你可能会问:为什么?因为 Transformer 中的 self-attention 机制是排列不变的;这意味着它计算输入中的每个标记从序列中的其他标记接收到的“注意力”量,但它不考虑标记的顺序。事实上,注意力机制将序列视为一袋令牌。因此,我们需要另一个称为位置嵌入的组件,它负责标记的顺序并影响标记嵌入。但是位置嵌入有哪些不同类型以及它们是如何实现的?
在这篇文章中,我们将了解三种主要类型的位置嵌入并深入研究它们的实现。
这是本文的目录:
1。背景和背景
2.绝对位置嵌入
以上是了解 Transformer 中的位置嵌入:从绝对到旋转的详细内容。更多信息请关注PHP中文网其他相关文章!