飞道的博客

【3-神经网络八股】北京大学TensorFlow2.0

376人阅读  评论(0)

课程地址:【北京大学】Tensorflow2.0_哔哩哔哩_bilibili

Python3.7和TensorFlow2.1

六讲:

  1. 神经网络计算:神经网络的计算过程,搭建第一个神经网络模型

  1. 神经网络优化:神经网络的优化方法,掌握学习率、激活函数、损失函数和正则化的使用,用Python语言写出SGD、Momentum、Adagrad、RMSProp、Adam五种反向传播优化器

  1. 神经网络八股:神经网络搭建八股,六步法写出手写数字识别训练模型

  1. 网络八股扩展:神经网络八股扩展,增加自制数据集、数据增强、断点续训、参数提取和acc/loss可视化,实现给图识物的应用程序

  1. 卷积神经网络:用基础CNN、LeNet、AlexNet、VGGNet、InceptionNet和ResNet实现图像识别

  1. 循环神经网络:用基础RNN、LSTM、GRU实现股票预测


前两讲:使用TensorFlow2的原生代码搭建神经网络

本讲:使用Keras搭建神经网络(八股:六步法,有Sequential和class两种)


神经网络搭建八股

用TensorFlow API:tf.keras搭建网络八股

keras介绍

tf.keras是TensorFlow2引入的高封装度框架,可以用于快速搭建神经网络模型

官方文档: https://tensorflow.google.cn/api_docs/python/tf

两种学习API的方法:

  1. 在PyCharm集成开发环境中查看框架源码:将鼠标放置在函数上按住Ctrl键会显示函数的基本信息,包括封装函数的类、函数入口参数、函数功能等

  1. 在TensorFlow官网中查询函数文档:通过左边的检索寻找目标函数。以查询 model.fit() 函数为例,打开tf.keras中的Model类,右方目录列出了Model类所包含的函数,点击fit()函数可以看到对于函数的介绍,包括输入参数具体介绍、函数功能等

六步法

  1. import 相关模块

  1. 指定输入网络的训练集和测试集train test,如指定训练集的输入 x_train 和标签 y_train,以及测试集的输入x_test 和标签 y_test

  1. 逐层搭建网络结构,相当于走了一遍前向传播 models.Sequential

model = tf.keras.models.Sequential()

这里还有另一种方法:class MyModel


   
  1. class MyModel( Model):
  2. def __init__( self):
  3. super(MyModel, self).__init__()
  4. 初始化网络结构,搭建出神经网络所需的各种网络结构块
  5. def call( self, x):
  6. 调用网络结构块,实现前向传播
  7. return y
  8. model = MyModel()
  1. 配置训练方法,选择训练时使用的优化器、损失函数和评价指标 model.compile

model.compile()
  1. 执行训练过程,告知训练集和测试集的输入值和标签、每个batch的大小batch_size、数据集的迭代次数epoch model.fit

model.fit()
  1. 打印网络结构,统计参数数目 model.summary

model.summary()

函数用法

Sequential()

Sequential函数是一个容器,描述了神经网络的网络结构,在Sequential函数的输入参数中描述从输入层到输出层的网络结构

model = tf.keras.models.Sequential([网络结构])    # 描述各层网络

网络结构举例:

  • 拉直层:可以变换张量的尺寸,把输入特征拉直为一维数组,只是形状转换,不含计算参数

tf.keras.layers.Flatten()
  • 全连接层:又叫Dense层


   
  1. tf.keras.layers.Dense(神经元个数,
  2.                     activation= "激活函数", # 字符串给出,可选relu、softmax、sigmoid、tanh等
  3.                     kernel_regularizer= "正则化方式") # 可选tf.keras.regularizers.l1()、tf.keras.regularizers.l2()
  • 卷积层:卷积神经网络


   
  1. tf.keras.layers.Conv2D(filters=卷积核个数,
  2.                       kernel_size=卷积核尺寸,
  3.                        strides=卷积步长,
  4.                        padding= "valid" or "same")
  • LSTM层:循环神经网络

tf.keras.layers.LSTM()

compile()

用于配置神经网络的训练方法,告知训练时使用的优化器、损失函数和准确率评测标准


   
  1. model. compile(optimizer=优化器,
  2.             loss=损失函数,
  3.               metrics=[ "准确率"])

(1)optimizer可以是字符串形式给出的优化器名字,也可以是函数形式(可以设置学习率、动量等超参数)。建议入门时,先使用左边字符串形式的优化器名字,等掌握了整个框架后,可通过TensorFlow官网查询这些函数的具体用法,调节超参数

https://tensorflow.google.cn/api_docs/python/tf/keras/optimizers/experimental/SGD

   
  1. ‘sgd’ or tf.keras.optimizers.SGD(lr=学习率,
  2.                                decay=学习率衰减率,
  3.                         momentum=动量参数)
  4. ‘adagrad’ or tf.keras.optimizers.Adagrad(lr=学习率,
  5.                                         decay=学习率衰减率)
  6. ‘adadelta’ or tf.keras.optimizers.Adadelta(lr=学习率,
  7.                                        decay=学习率衰减率)
  8. ‘adam’ or tf.keras.optimizers.Adam (lr=学习率,
  9.                                   beta_1= 0.9,
  10. beta_2= 0.999)

(2)loss可以是字符串形式给出的损失函数的名字,也可以是函数形式


   
  1. ‘mse’ or tf.keras.losses.MeanSquaredError()
  2. ‘sparse_categorical_crossentropy ' or tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False) # from_logits 是否是原始输出,即未经过概率分布的输出

损失函数常需要经过softmax函数将输出转化为概率分布的形式。from_logits用来标注该损失函数是否需要转换为概率的形式,取False表示转化为概率分布,取True表示没有转化为概率分布,直接输出

(3)metrics标注网络评测指标


   
  1. # y_是标签,y是网络输出结果
  2. ‘accuracy’ :y_和y都是数值,如y_=[ 1] y=[ 1]
  3. ‘categorical_accuracy’ :y_和y都是独热码(概率分布),如y_=[ 0, 1, 0] y=[ 0.256, 0.695, 0.048]
  4. ‘sparse_categorical_accuracy’ :y_是数值,y是概率分布,如y_=[ 1] y=[ 0.256, 0.695, 0.048]

fit()

执行训练过程


   
  1. model.fit (训练集的输入特征,
  2.         训练集的标签,
  3. batch_size= , # 每次喂入神经网络的样本数
  4. epochs= , # 要迭代多少次数据集
  5. # 以下函数 validation_data 和 validation_split 二选一
  6. validation_data=(测试集的输入特征,测试集的标签),
  7. validation_split=从训练集划分多少比例给测试集,
  8. validation_freq = 多少次epoch测试一次)

summary()

用于打印网络结构和参数统计

model.summary()

对于一个输入为4输出为3的全连接网络,共有15个参数(12个w+3个b)


iris分类代码复现

(一)Sequential搭建


   
  1. # 1-import
  2. import tensorflow as tf
  3. from sklearn import datasets
  4. import numpy as np
  5. # 2-train test
  6. '''
  7. 测试集的输入特征x_test 和 标签y_test 可以像x_train和y_train一样直接从数据集获取
  8. 也可以在fit中按比例从训练集中划分(本代码采用这种方式,所以只需加载x_train和y_train即可)
  9. '''
  10. x_train = datasets.load_iris().data
  11. y_train = datasets.load_iris().target
  12. # 以下代码实现了数据集的乱序
  13. np.random.seed( 116)
  14. np.random.shuffle(x_train)
  15. np.random.seed( 116)
  16. np.random.shuffle(y_train)
  17. tf.random.set_seed( 116)
  18. # 3-models.Sequential 逐层搭建网络结构
  19. '''
  20. 单层全连接神经网络,三个参数分别为:
  21. 神经元个数;网络所使用的激活函数;正则化方法
  22. '''
  23. model = tf.keras.models.Sequential([
  24. tf.keras.layers.Dense( 3, activation= 'softmax', kernel_regularizer=tf.keras.regularizers.l2())
  25. ])
  26. # 4-model.compile 配置训练方法
  27. model. compile(optimizer=tf.keras.optimizers.SGD(lr= 0.1), # SGD优化器,学习率设置为0.1
  28. # 由于神经网络输出使用了softmax激活函数,使得输出是概率分布,而不是原始输出,故from_logits=False
  29. loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits= False),
  30. # iris数据集的标签是0/1/2这样的数值,而网络前向传播输出为概率分布
  31. metrics=[ 'sparse_categorical_accuracy'])
  32. # model.fit 执行训练过程
  33. model.fit(x_train, # 训练集输入特征
  34. y_train, # 训练集标签
  35. batch_size= 32, # 训练时一次喂入神经网络多少组数据
  36. epochs= 500, # 数据集迭代循环多少次
  37. validation_split= 0.2, # 从训练集中选择20%的数据作为测试集
  38. validation_freq= 20) # 每迭代20次训练集要在测试集中验证一次准确率
  39. # model.summary 打印网络结构,统计参数数目
  40. model.summary()

iris数据集输入是4个特征,是三分类问题

这里test是用 validation_split=0.2 划分的(法1:在model.fit中按比例从训练集中划分就不用写x_test和y_test了)

法2:也可以像x_train和y_train一样直接给定

以上是测试集test的两种划分方式

(二)类class搭建

使用Sequential可以快速搭建出上层输出就是下层输入的顺序网络结构,但如果网络包含跳连(Skip Connection)等复杂非顺序网络结构,Sequential就无法表示了,需要使用class类封装网络结构

class模板


   
  1. class MyModel( Model): # MyModel为声明的神经网络的名字,括号中的Model表示创建的类需要继承TensorFlow库中的Model类
  2. # 类中需要定义两个函数
  3.     def __init__( self): #类的构造函数,用于初始化类的参数
  4.         super(MyModel, self).__init__() # 初始化父类的参数
  5.         初始化网络结构,搭建出神经网络所需的各种网络结构块
  6.     def call( self, x): #调用__init__()函数完成初始化的网络块,实现前向传播并返回推理值
  7.         调用网络结构块,实现前向传播
  8.         return y
  9. model = MyModel()

可以认为 __init__() 定义所需网络结构块,准备出搭建网络所需的各种积木,call()函数调用 __init__() 中搭建好的积木,实现前向传播

使用class方式搭建iris网络结构


   
  1. class IrisModel( Model):
  2. def __init__( self):
  3. super(IrisModel, self).__init__()
  4.         # 在__init__函数中定义了要在call函数中调用的具有三个神经元的全连接网络Dense
  5. self.d1 = Dense( 3, activation= 'softmax', kernel_regularizer=tf.keras.regularizers.l2()) # d1是给这一层起的名字,每一层都用self.引导
  6. def call( self, x):
  7. y = self.d1(x) # 在call函数中调用self.d1实现了从输入x输出y的前向传播
  8. return y

搭建好网络结构后,只需要使用 Model = MyModel() 构建类的对象,就可以使用该模型了

model = IrisModel()   # 实例化

完整代码

这里我遇到了两个报错:

  1. cannot import name ‘dtensor‘ from ‘tensorflow.compat.v2.experimental‘

原因:keras版本太高,需要降低到和TensorFlow版本一致,我这里TensorFlow是2.8.0,keras降到2.8.0即可

报错:cannot import name ‘dtensor‘ from ‘tensorflow.compat.v2.experimental‘ (/Users/pxs/anaconda3/lib - CSDN博客
  1. cannot find reference ‘keras’ in ‘__init__.py‘

这两行代码下一直有红波浪线,但代码可以运行

原因:PyCharm找不到引用,改为下面代码即可


   
  1. from keras.layers import Dense # Dense层
  2. from keras import Model # Model模块
cannot find reference ‘keras’ in ‘__init__.py‘ - CSDN博客

解决上面两个问题后,完整代码如下:


   
  1. # 和Sequential方法相比,改动的地方用##数字##标注出
  2. import tensorflow as tf
  3. from keras.layers import Dense ##1##
  4. from keras import Model ##2##
  5. from sklearn import datasets
  6. import numpy as np
  7. x_train = datasets.load_iris().data
  8. y_train = datasets.load_iris().target
  9. np.random.seed( 116)
  10. np.random.shuffle(x_train)
  11. np.random.seed( 116)
  12. np.random.shuffle(y_train)
  13. tf.random.set_seed( 116)
  14. ##3##
  15. class IrisModel( Model):
  16. def __init__( self):
  17. super(IrisModel, self).__init__()
  18. self.d1 = Dense( 3, activation= 'softmax', kernel_regularizer=tf.keras.regularizers.l2()) # 在__init__函数中定义了要在call函数中调用的具有三个神经元的全连接网络Dense
  19. def call( self, x):
  20. y = self.d1(x) # 在call函数中调用self.d1实现了从输入x输出y的前向传播
  21. return y
  22. ##4##
  23. model = IrisModel() # 实例化
  24. model. compile(optimizer=tf.keras.optimizers.SGD(lr= 0.1),
  25. loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits= False),
  26. metrics=[ 'sparse_categorical_accuracy'])
  27. model.fit(x_train, y_train, batch_size= 32, epochs= 500, validation_split= 0.2, validation_freq= 20)
  28. model.summary()

MNIST手写数字识别数据集

数据集介绍

一共7万张图片,是28×28=784个像素的0-9手写数字数据集,其中6万张用于训练,1万张用于测试


   
  1. import tensorflow as tf
  2. from matplotlib import pyplot as plt
  3. # 导入数据集
  4. mnist = tf.keras.datasets.mnist # keras函数库提供了使用mnist数据集的接口
  5. (x_train, y_train), (x_test, y_test) = mnist.load_data() # load_data()直接从mnist中读取测试集和训练集
  6. # 可视化训练集输入特征的第一个元素
  7. plt.imshow(x_train[ 0], cmap= 'gray') # 绘制灰度图
  8. plt.show()

   
  1. # 打印出训练集输入特征的第一个元素
  2. print( "x_train[0]:\n", x_train[ 0]) # 28行28列个像素值的二维数组(0表示纯黑色,255表示纯白色)
  3. # 打印出训练集标签的第一个元素
  4. print( "y_train[0]:\n", y_train[ 0]) # 数值5

   
  1. # 打印出整个训练集输入特征形状
  2. print( "x_train.shape:\n", x_train.shape) # 6万个28行28列的数据
  3. # 打印出整个训练集标签的形状
  4. print( "y_train.shape:\n", y_train.shape) # 6万个标签
  5. # 打印出整个测试集输入特征的形状
  6. print( "x_test.shape:\n", x_test.shape) # 1万个28行28列的三维数据
  7. # 打印出整个测试集标签的形状
  8. print( "y_test.shape:\n", y_test.shape) # 1万个标签

训练MNIST数据集

使用全连接网络,将784个像素点(灰度值)组成的长度为784的一维数组作为输入特征

输入全连接网络时需要先将数据拉直为 一维数组 tf.keras.layers.Flatten()

训练时需要将输入特征的灰度值归一化到 [0,1] 区间,这可以使网络更快收敛

(一)Sequential搭建


   
  1. # 用Sequential实现手写数字识别训练
  2. # 1-import
  3. import tensorflow as tf
  4. # 2-train test
  5. mnist = tf.keras.datasets.mnist
  6. (x_train, y_train), (x_test, y_test) = mnist.load_data()
  7. x_train, x_test = x_train / 255.0, x_test / 255.0 # 对输入网络的输入特征进行归一化,使原本0-255之间的灰度值变成0-1之间的数值
  8. # 把输入特征的数值变小更适合神经网络吸收
  9. # 用Sequential搭建网络 3-models.Sequential
  10. model = tf.keras.models.Sequential([
  11. tf.keras.layers.Flatten(), # 先把输入特征拉直为一维数组,即748个数值
  12. tf.keras.layers.Dense( 128, activation= 'relu'), # 定义第一层网络有128个神经元
  13. tf.keras.layers.Dense( 10, activation= 'softmax') # 定义第二层网络有10个神经元,使输出符合概率分布
  14. ])
  15. # 用compile配置训练方法 4-model.compile
  16. model. compile(optimizer= 'adam', # 优化器
  17. loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits= False), # 损失函数
  18. # 由于第二层网络用了softmax让输出符合概率分布了,不是直接输出的,所以from_logits=False
  19. # 如果输出不满足概率分布,要=True
  20. metrics=[ 'sparse_categorical_accuracy']) # 数据集中的标签是数值,神经网络输出y是概率分布
  21. # 在fit中执行训练过程 5-model.fit
  22. model.fit(x_train, y_train, batch_size= 32, epochs= 5, validation_data=(x_test, y_test), validation_freq= 1) # validation_freq=1 每迭代一次训练集,执行一次测试集的评测
  23. # 打印出网络结构和参数统计 6-model.summary
  24. model.summary()
  1. MNIST数据集有60000张图片用来训练,batch_size=32,所以每轮要迭代60000/32=1875次,共迭代5轮,即5 epochs

  1. 训练时每个step给出的是训练集accuracy,不具有参考价值。有实际评判价值的是validation_freq中设置的、隔若干轮输出的测试集accuracy

(二)类class搭建


   
  1. # 用类实现手写数字识别训练
  2. # 和Sequential方法相比,只是实例化model的方法不同
  3. import tensorflow as tf
  4. from keras.layers import Dense, Flatten
  5. from keras import Model
  6. mnist = tf.keras.datasets.mnist
  7. (x_train, y_train), (x_test, y_test) = mnist.load_data()
  8. x_train, x_test = x_train / 255.0, x_test / 255.0
  9. class MnistModel( Model):
  10. def __init__( self): # 定义call函数中所用到的层
  11. super(MnistModel, self).__init__()
  12. self.flatten = Flatten()
  13. self.d1 = Dense( 128, activation= 'relu')
  14. self.d2 = Dense( 10, activation= 'softmax')
  15. def call( self, x): # 从输入x到输出y,走过一次前向传播返回输出y
  16. x = self.flatten(x)
  17. x = self.d1(x)
  18. y = self.d2(x)
  19. return y
  20. model = MnistModel() # 实例化model
  21. model. compile(optimizer= 'adam',
  22. loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits= False),
  23. metrics=[ 'sparse_categorical_accuracy'])
  24. model.fit(x_train, y_train, batch_size= 32, epochs= 5, validation_data=(x_test, y_test), validation_freq= 1)
  25. model.summary()

FASHION衣裤识别数据集及训练

Fashion_mnist数据集与MNIST数据集几乎一样,包括6w张训练图片和1w张测试图片,图片被分为十类(如T恤、裤子、套头衫等等),每张图片为28×28的分辨率(像素点的灰度值数据)

训练衣服、裤子等图片的识别模型:与训练MNIST数据集的不同之处就是加载数据集的代码不同,在此不再赘述


   
  1. fashion = tf.keras.datasets.fashion_mnist
  2. (x_train, y_train),(x_test, y_test) = fashion.load_data() # 可以使用.load_data()直接从fashion数据集中读取训练集和测试集

最后准确率为86.85%


转载:https://blog.csdn.net/qq_43629945/article/details/128742976
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场