飞道的博客

基于Transformer的多变量风电功率预测TF2

359人阅读  评论(0)

        Transformer目前大火,作为一个合格的算法搬运工自然要跟上潮流,本文基于tensorflow2框架,构建transformer模型,并将其用于多变量的风电功率负荷预测。  实验结果表明,相比与传统的LSTM,该方法精度更高,缺点也很明显,该方法需要更多的数据训练效果才能超过传统方法,而且占用很高的gpu资源(测试阶段,一次性输入所有测试集数据直接会OOM,需要分批输入),cpu就更慢了。

        今天是2023年的第一天,首先总结一下2022的收获:

         接着进入正题

1 Transformer网络结构

        原始的transformer网络是用来的处理文本翻译这样的任务,输入=输出(输出是另一种形式的输出),所以原始的网络是先编码再解码的结构,数据进入网络进行编码器,得到隐含特征,然后利用解码器,将其还原成另外一种表达。而我们进行风电功率预测,由于我们的输入与输出不是同一个东西,所以我在网络中去掉了解码器,直接将编码器的输出作为提取的特征,然后接一个全连接层作为输出层,输出功率值。具体理解包括:输入层→编码器→输出层。

1.1 输入输出层

        本文采用的数据形式如图1所示,数据含有6个特征,采用滚动序列建模的方法,生成输入数据与输出数据。具体为:设定输入时间步m与输出时间步n,然后取第1到m时刻的所有数据作为输入,取第m+1到第m+n时刻的实际发电功率作为输出,作为第一个样本;然后取第2到m+1时刻的所有数据作为输入,取第m+2到第m+n+1时刻的实际发电功率作为输出,作为第二个样本。。。依次类推,通过这种滚动的方法获得输入输出数据。当m取10,n取3时,则输入层的维度为[None,10,6],输出层的维度为[None,3],模型训练好后,只需要输入过去10个时刻的所有数据,就能预测得到未来3个时刻的发电功率预测值。

图1 数据结构

1.2 编码器 

1.2.1 嵌入层

        嵌入层实际上只是一个简单的全连接层,将原本维度变换到d_model,其目的有两个:1)对原始数据进行特征变换,原始只有6个特征,假设这些特征之间是有联系的,采用一个全连接层可以让特征之间进行交互,起到变换特征的作用;2)其次的是增加网络复杂度,为了后续使用多头自注意力机制,多头的数量必须与能被特征整除,打个比方,假如原始的6个特征变换到64个,然后就能用1、2、4、8、16、32、64头数,可选择性较高,如果只是6的话,就只能设置1、2、3,采用更多的头数可以增加网络复杂度,如果风电数据有几万条,网络过于简单无法有效的学习到这么长的序列的特征。

        在程序中我将d_model设成16,则经过嵌入层之后的数据为:


  
  1. d_model= 16
  2. embedding = tf.keras.layers.Dense(d_model)
  3. x=np.random.rand( 64, 10, 6) #64是batchsize 10是输入时间步 6是6个特征
  4. y=embedding (x) #y的shape变成 64,10,16

1.2.2 位置编码

        Transformer使用的是正余弦位置编码。位置编码通过使用不同频率的正弦、余弦函数生成,然后和对应的位置的输入向量(嵌入层的输出数据)相加,位置向量维度必须和词向量的维度一致


  
  1. def get_angles( pos, i, d_model):
  2. # 这里的i等价与公式中的2i和2i+1
  3. angle_rates = 1 / np.power( 10000, ( 2 * (i/ /2)) / np.float32(d_model))
  4. return pos * angle_rates
  5. def positional_encoding( maximum_position_encoding, d_model):
  6. angle_rads = get_angles(np.arange(maximum_position_encoding)[ :, np.newaxis], np.arange(d_model)[np.newaxis, :],d_model)
  7. # apply sin to even indices in the array; 2i
  8. angle_rads[ :, 0 : : 2] = np.sin(angle_rads[ :, 0 : : 2])
  9. # apply cos to odd indices in the array; 2i+1
  10. angle_rads[ :, 1 : : 2] = np.cos(angle_rads[ :, 1 : : 2])
  11. pos_encoding = angle_rads[np.newaxis, ...]
  12. return tf.cast(pos_encoding, dtype=tf.float32)
  13. x=np.random.rand( 64, 10, 16)
  14. pos_enc=positional_encoding( 5000, 16)
  15. x +=pos_enc[ :,x.shape[ 1], :] #x的shape还是[64,10,16]

 1.2.3 self-attention自注意力机制

        自注意力网络上很多解释,这里我们简单的理解一下计算步骤:通过嵌入层与位置编码后,我们的数据是64 x 10 x 16 其中64表示batchsize 10表示时间步  16为特征维度。如果我们想要获得第i个样本的input-1(每一个样本含10个input,每个input的维度是16)的输出,那么我们进行如下几步:

1、构建3个全连接层,每个维度都是d_model,输入input-1,分别得到3个变量,即Q、K、V,可以将QKV就理解成input-1的另一种表达
1、利用input-1的Q,分别乘上input-1、input-2、....、input-16的K',此时我们获得了16个score。这个score,这就是相较于input-1、input-2、....、input-16,input-1的重要程度

        这里你会很奇怪为啥score就是input-1相较于其他input的重要程度。我的理解是:Q乘K'是点积。啥时点积?点积就是余弦相似度的分子,QK'近似等于余弦相似度,如果两个变量越相似,QK‘就越大;可推,如果一个变量最重要,那他可以近似代替其他变量,那他与其他变量的点积就会很大。(也可以理解成相关性,一样的推理)

2、然后对这些score取softmax,归一化重要程度。
3、然后将这个重要程度乘上input-1、input-2、....、input-16的值向量,求和。
4、此时我们获得了input-1的输出。

1.2.4 多头注意力

        多头注意力,可以理解为我们每个头只计算部分特征,比如第一个头只计算input-1到input-4,第二个头计算input-5到input-8,16个特征就是4个头。

1.2.5 编码器

        编码器就是输入经嵌入层+位置编码+多头注意力层+多头注意力层+多头注意力层+...+多头注意力层,得到输出特征,然后输入一个全连接层,就能得到我们的输出


  
  1. def scaled_dot_product_attention( q, k, v, mask):
  2. """Calculate the attention weights.
  3. q, k, v must have matching leading dimensions.
  4. k, v must have matching penultimate dimension, i.e.: seq_len_k = seq_len_v.
  5. The mask has different shapes depending on its type(padding or look ahead)
  6. but it must be broadcastable for addition.
  7. Args:
  8. q: query shape == (..., seq_len_q, depth)
  9. k: key shape == (..., seq_len_k, depth)
  10. v: value shape == (..., seq_len_v, depth_v)
  11. mask: Float tensor with shape broadcastable to (..., seq_len_q, seq_len_k). Defaults to None.
  12. Returns:
  13. output, attention_weights
  14. """
  15. matmul_qk = tf.matmul(q, k, transpose_b= True) # (..., seq_len_q, seq_len_k)
  16. # scale matmul_qk
  17. dk = tf.cast(tf.shape(k)[- 1], tf.float32) ## 64
  18. scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)
  19. # add the mask to the scaled tensor.
  20. if mask is not None:
  21. scaled_attention_logits = scaled_attention_logits + (mask * - 1e9)
  22. # softmax is normalized on the last axis (seq_len_k) so that the scores
  23. # add up to 1.
  24. attention_weights = tf.nn.softmax(scaled_attention_logits, axis=- 1) # (..., seq_len_q, seq_len_k)
  25. output = tf.matmul(attention_weights, v) # (..., seq_len_q, depth_v)
  26. return output, attention_weights
  27. class MultiHeadAttention(tf.keras.layers.Layer):
  28. def __init__( self, d_model, num_heads):
  29. super(MultiHeadAttention, self).__init__()
  30. self.num_heads = num_heads
  31. self.d_model = d_model
  32. assert d_model % self.num_heads == 0 # d_model self.num_heads 要能够整除
  33. self.depth = d_model // self.num_heads
  34. self.wq = tf.keras.layers.Dense(d_model)
  35. self.wk = tf.keras.layers.Dense(d_model)
  36. self.wv = tf.keras.layers.Dense(d_model)
  37. self.dense = tf.keras.layers.Dense(d_model)
  38. def split_heads( self, x, batch_size):
  39. """Split the last dimension into (num_heads, depth).
  40. Transpose the result such that the shape is (batch_size, num_heads, seq_len, depth)
  41. """
  42. x = tf.reshape(x, (batch_size, - 1, self.num_heads, self.depth))
  43. return tf.transpose(x, perm=[ 0, 2, 1, 3])
  44. def call( self, v, k, q, mask):
  45. batch_size = tf.shape(q)[ 0]
  46. q = self.wq(q) # (batch_size, seq_len, d_model)
  47. k = self.wk(k) # (batch_size, seq_len, d_model)
  48. v = self.wv(v) # (batch_size, seq_len, d_model)
  49. q = self.split_heads(q, batch_size) # (batch_size, num_heads, seq_len_q, depth)
  50. k = self.split_heads(k, batch_size) # (batch_size, num_heads, seq_len_k, depth)
  51. v = self.split_heads(v, batch_size) # (batch_size, num_heads, seq_len_v, depth)
  52. # scaled_attention.shape == (batch_size, num_heads, seq_len_q, depth)
  53. # attention_weights.shape == (batch_size, num_heads, seq_len_q, seq_len_k)
  54. scaled_attention, attention_weights = scaled_dot_product_attention(q, k, v, mask)
  55. scaled_attention = tf.transpose(scaled_attention, perm=[ 0, 2, 1, 3]) # (batch_size, seq_len_q, num_heads, depth)
  56. concat_attention = tf.reshape(scaled_attention,
  57. (batch_size, - 1, self.d_model)) # (batch_size, seq_len_q, d_model)
  58. output = self.dense(concat_attention) # (batch_size, seq_len_q, d_model)
  59. return output, attention_weights
  60. def point_wise_feed_forward_network( d_model, dff):
  61. return tf.keras.Sequential([
  62. tf.keras.layers.Dense(dff, activation= 'relu'), # (batch_size, seq_len, dff)
  63. tf.keras.layers.Dense(d_model) # (batch_size, seq_len, d_model)
  64. ])
  65. class EncoderLayer(tf.keras.layers.Layer):
  66. def __init__( self, d_model, num_heads, dff, rate=0.1):
  67. super(EncoderLayer, self).__init__()
  68. self.mha = MultiHeadAttention(d_model, num_heads)
  69. self.ffn = point_wise_feed_forward_network(d_model, dff)
  70. self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon= 1e-6)
  71. self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon= 1e-6)
  72. self.dropout1 = tf.keras.layers.Dropout(rate)
  73. self.dropout2 = tf.keras.layers.Dropout(rate)
  74. def call( self, x, training, mask):
  75. attn_output, _ = self.mha(x, x, x, mask) # (batch_size, input_seq_len, d_model)
  76. attn_output = self.dropout1(attn_output, training=training)
  77. out1 = self.layernorm1(x + attn_output) # (batch_size, input_seq_len, d_model)
  78. ffn_output = self.ffn(out1) # (batch_size, input_seq_len, d_model)
  79. ffn_output = self.dropout2(ffn_output, training=training)
  80. out2 = self.layernorm2(out1 + ffn_output) # (batch_size, input_seq_len, d_model)
  81. return out2
  82. class Encoder(tf.keras.layers.Layer):
  83. def __init__( self, num_layers, d_model, num_heads, dff, input_vocab_size,
  84. maximum_position_encoding, rate=0.1):
  85. super(Encoder, self).__init__()
  86. self.d_model = d_model
  87. self.num_layers = num_layers
  88. self.embedding = tf.keras.layers.Dense(d_model)
  89. self.pos_encoding = positional_encoding(maximum_position_encoding, self.d_model)
  90. self.enc_layers = [ EncoderLayer(d_model, num_heads, dff, rate) for _ in range(num_layers) ]
  91. self.dropout = tf.keras.layers.Dropout(rate)
  92. def call( self, x, training, mask):
  93. seq_len = tf.shape(x)[ 1]
  94. # adding embedding and position encoding.
  95. x = self.embedding(x) # (batch_size, input_seq_len, d_model)
  96. # print('------------------\n',seq_len)
  97. # x=tf.tile(tf.expand_dims(x,2),self.d_model)
  98. x *= tf.math.sqrt(tf.cast(self.d_model, tf.float32))
  99. # print(x.shape)
  100. x += self.pos_encoding[:, :seq_len, :]
  101. x = self.dropout(x, training=training)
  102. # print(x.shape)
  103. # print(mask.shape)
  104. for i in range(self.num_layers):
  105. x = self.enc_layers[i](x, training, mask)
  106. return x # (batch_size, input_seq_len, d_model)

2 实战

        经过全面的分析,现在就可以训练网络了。

2.1 BP网

目录

1 Transformer网络结构

1.1 输入输出层

1.2.1 嵌入层

1.2.2 位置编码

 1.2.3 self-attention自注意力机制

1.2.4 多头注意力

1.2.5 编码器

2 实战

2.1 BP网络

2.2 LSTM网络

2.3 Transformer模型

2.4 对比

3 代码


        训练一个BP来做对比

2.2 LSTM网络

        训练一个LSTM来做对比

 

2.3 Transformer模型

 

 

2.4 对比

        就取1000个点来画图对比

 

3 代码

        详细代码数据见评论区 


转载:https://blog.csdn.net/qq_41043389/article/details/128513767
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场