【导读】这是一份用图片和代码详解自注意力机制的指南,请收好。
-
图解 -
代码 -
拓展到 Transformer
0.什么是自注意力?
1.图解
-
准备输入 -
初始化权重 -
派生密钥,查询和值 -
计算输入 1 的注意力得分 -
计算 softmax -
将分数与值相乘 -
总和加权值以获得输出 1 -
对输入 2 和输入 3 重复步骤4–7
注意: 实际上,数学运算是矢量化的,即所有输入都经过数学运算。我们稍后会在“代码”部分中看到这一点。
输入1:[1,0,1,0]
输入2:[0,2,0,2]
输入3:[1,1,1,1]
注意: 我们稍后将看到值的维数也是输出的维数。
[[0,0,1],
[1,1,0],
[0,1,0],
[1,1,0]]
[[1,0,1],
[1,0,0],
[0,0,1],
[0,1,1]]
[[0,2,0],
[0,3,0],
[1,0,3],
[1,1,0]]
注意: 在神经网络设置中,这些权重通常是小数,使用适当的随机分布(如高斯,Xavier和Kaiming分布)随机初始化。
[0,0,1]
[1,0,1,0] x [1,1,0] = [0,1,1]
[0,1,0]
[1,1,0]
[0,0,1]
[0,2,0,2] x [1,1,0] = [4,4,0]
[0,1,0]
[1,1,0]
[0,0,1]
[1,1,1,1] x [1,1,0] = [2,3,1]
[0,1,0]
[1,1,0]
[0,0,1]
[1,0,1,0] [1,1,0] [0,1,1]
[0,2,0,2] x [0,1,0] = [4 ,4,0]
[1,1,1,1] [1,1,0] [2,3,1]
[0,2,0]
[1,0,1,0] [0,3,0] [1,2,3]
[0,2,0,2] x [1,0,3] = [2 ,8,0]
[1,1,1,1] [1,1,0] [2,6,3]
[1,0,1]
[1,0,1,0] [1,0,0] [1,0,2]
[0,2,0,2] x [0,0,1] = [2 ,2,2]
[1,1,1,1] [0,1,1] [2,1,3]
注意: 实际上,可以将偏差向量添加到矩阵乘法的乘积中。
[0,4,2]
[1,0,2] x [1,4,3] = [2,4,4]
[1,0,1]
注意: 以上操作被称为点产品注意,它是几种评分功能其中之一。其他评分功能包括缩放点积和添加/合并数组。
softmax([2,4,4])= [0.0,0.5,0.5]
1:0.0 * [1、2、3] = [0.0、0.0、0.0]
2:0.5 * [2、8、0] = [1.0、4.0、0.0]
3:0.5 * [2、6、3] = [1.0、3.0、1.5]
[0.0,0.0,0.0]
+ [1.0,4.0,0.0]
+ [1.0,3.0,1.5]
-----------------
= [2.0,7.0,1.5]
注意: 由于点积分数功能,查询和键的维必须始终相同。但是,值的维数可能不同于 查询和键。结果输出将遵循值的维度。
2.代码
import torch
x = [
[1, 0, 1, 0], # Input 1
[0, 2, 0, 2], # Input 2
[1, 1, 1, 1] # Input 3
]
x = torch.tensor(x, dtype=torch.float32)
w_key = [
[0, 0, 1],
[1, 1, 0],
[0, 1, 0],
[1, 1, 0]
]
w_query = [
[1, 0, 1],
[1, 0, 0],
[0, 0, 1],
[0, 1, 1]
]
w_value = [
[0, 2, 0],
[0, 3, 0],
[1, 0, 3],
[1, 1, 0]
]
w_key = torch.tensor(w_key, dtype=torch.float32)
w_query = torch.tensor(w_query, dtype=torch.float32)
w_value = torch.tensor(w_value, dtype=torch.float32)
keys = x @ w_key
querys = x @ w_query
values = x @ w_value
print(keys)
# tensor([[0., 1., 1.],
# [4., 4., 0.],
# [2., 3., 1.]])
print(querys)
# tensor([[1., 0., 2.],
# [2., 2., 2.],
# [2., 1., 3.]])
print(values)
# tensor([[1., 2., 3.],
# [2., 8., 0.],
# [2., 6., 3.]
attn_scores = querys @ keys.T
# tensor([[ 2., 4., 4.], # attention scores from Query 1
# [ 4., 16., 12.], # attention scores from Query 2
# [ 4., 12., 10.]]) # attention scores from Query 3
步骤5:计算softmax
from torch.nn.functional import softmax
attn_scores_softmax = softmax(attn_scores, dim=-1)
# tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],
# [6.0337e-06, 9.8201e-01, 1.7986e-02],
# [2.9539e-04, 8.8054e-01, 1.1917e-01]])
# For readability, approximate the above as follows
attn_scores_softmax = [
[0.0, 0.5, 0.5],
[0.0, 1.0, 0.0],
[0.0, 0.9, 0.1]
]
attn_scores_softmax = torch.tensor(attn_scores_softmax
weighted_values = values[:,None] * attn_scores_softmax.T[:,:,None]
# tensor([[[0.0000, 0.0000, 0.0000],
# [0.0000, 0.0000, 0.0000],
# [0.0000, 0.0000, 0.0000]],
#
# [[1.0000, 4.0000, 0.0000],
# [2.0000, 8.0000, 0.0000],
# [1.8000, 7.2000, 0.0000]],
#
# [[1.0000, 3.0000, 1.5000],
# [0.0000, 0.0000, 0.0000],
# [0.2000, 0.6000, 0.3000]]])
outputs = weighted_values.sum(dim=0)
# tensor([[2.0000, 7.0000, 1.5000], # Output 1
# [2.0000, 8.0000, 0.0000], # Output 2
# [2.0000, 7.8000, 0.3000]]) # Output 3
注意: PyTorch 为此提供了一个 API nn.MultiheadAttention。但是,此 API 要求你输入键、查询并估算 PyTorch 张量。此外,该模块的输出经过线性变换。
3.扩展到 Transfomers
-
尺寸 -
Bias
-
嵌入模块 -
位置编码 -
截断 -
掩蔽
-
多头 -
层堆叠
-
线性变换 -
层范数
参考文献
Attention Is All You Need https://arxiv.org/abs/1706.03762
Transfomer 图解:https://jalammar.github.io/illustrated-transformer/(jalammar.github.io)
(*本文为AI科技大本营翻译文章,转载请微信联系1092722531)
◆
精彩推荐
◆
开幕倒计时10天|2019 中国大数据技术大会(BDTC)即将震撼来袭!豪华主席阵容及百位技术专家齐聚,十余场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读。6.6 折票限时特惠(立减1400元),学生票仅 599 元!
高三学生发表AI论文,提出针对网络暴力问题的新模型AdaGCN
15篇论文全面概览BERT压缩方法
敲代码月薪 4 万?真相使我差点丢了性命!
这段 Python 代码让程序员赚 300W,公司已确认!网友:神操作!
2097352GB地图数据,AI技术酷炫渲染,《微软飞行模拟器》游戏即将上线
用Go重构C语言系统,这个抗住春晚红包的百度转发引擎承接了万亿流量
日均350000亿接入量,腾讯TubeMQ性能超过Kafka
看完这篇还不了解Nginx,那我就哭了!
网易患病员工被保安赶出公司,程序员该如何应对中年危机?
2019 年,C# 还值得学习吗?
区块链世界里不能信什么?
你点的每个“在看”,我都认真当成了AI
转载:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/103248354
查看评论