【计算机视觉(CV)】基于高层API实现宝石分类
作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC)志愿者,以及编程爱好者,期待和大家一起学习,一起进步~
.
博客主页:ぃ灵彧が的学习日志
.
本文专栏:人工智能
.
专栏寄语:若你决定灿烂,山无遮,海无拦
.
前言
(一)、任务描述
图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题
宝石识别属于图像分类中的一个细分类问题
实践平台:百度AI实训平台-AI Studio
实践环境:Python3.7,PaddlePaddle2.0
(二)、环境配置
本实践代码运行的环境配置如下:Python版本为3.7,PaddlePaddle版本为2.0.0,操作平台为AI Studio。大部分深度学习项目都要经过以下几个过程:数据准备、模型配置、模型训练、模型评估。
import paddle
import numpy as np
import matplotlib.pyplot as plt
print(paddle.__version__)
# cpu/gpu环境选择,在 paddle.set_device() 输入对应运行设备。
# device = paddle.set_device('gpu')
一、方案设计
(一)、深度神经网络(DNN)
深度神经网络(Deep Neural Networks,简称DNN)是深度学习的基础,其结构为input、hidden(可有多层)、output,每层均为全连接。
二、数据集介绍
- 数据集文件名为archive_train.zip,archive_test.zip。
- 该数据集包含25个类别不同宝石的图像。
- 这些类别已经分为训练和测试数据。
- 图像大小不一,格式为.jpeg。
请勿将本数据集用于商务用途。
三、数据集预处理
本案例主要分以下几个步骤进行数据预处理:
(1)解压原始数据集
(2)按照比例划分训练集与验证集
(3)乱序,生成数据列表
(4)定义数据读取器,转换图片
(一)、导入相关包
首先我们引入本案例需要的所有模块
#导入所需的包
import os
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
import paddle
import paddle.nn as nn
(二)、生成图像列表
'''
参数配置
'''
train_parameters = {
"input_size": [3, 224, 224], #输入图片的shape
"class_dim": 25, #分类数
"src_path":"data/data55032/archive_train.zip", #原始数据集路径
"target_path":"/home/aistudio/data/dataset", #要解压的路径
"train_list_path": "./train.txt", #train_data.txt路径
"eval_list_path": "./eval.txt", #eval_data.txt路径
"label_dict":{
}, #标签字典
"readme_path": "/home/aistudio/data/readme.json", #readme.json路径
"num_epochs": 40, #训练轮数
"train_batch_size": 32, #批次的大小
"learning_strategy": {
#优化函数相关的配置
"lr": 0.0001 #超参数学习率
}
}
输出结果如下图1所示:
(三)、定义数据集
通过继承paddle.io.Dataset
对数据集进行定义
import paddle
import paddle.vision.transforms as T
import numpy as np
from PIL import Image
class FoodDataset(paddle.io.Dataset):
"""
数据集类的定义
"""
def __init__(self, mode='train_data'):
"""
初始化函数
"""
self.data = []
with open(f'{
mode}.txt') as f:
lines = f.readlines()
np.random.shuffle(lines)
for line in lines:
info = line.strip().split('\t')
if len(info) > 0:
self.data.append([info[0].strip(), info[1].strip()])
def __getitem__(self, index):
"""
根据索引获取单个样本
"""
image_file, label = self.data[index]
img = Image.open(image_file)
img = img.resize((img_size, img_size), Image.ANTIALIAS)
img = np.array(img).astype('float32')
# img = img[:,:,:]
img = img.transpose((2, 0, 1))[:3,:,:] #读出来的图像是rgb,rgb,rbg..., 转置为 rrr...,ggg...,bbb...
# print(img.shape)
img = img[:,:,:]/255.0
# if img.size!=img_size*img_size*3:
# print('error-----------------------',img.size,img.shape)
return img, np.array(label, dtype='int64')
def __len__(self):
"""
获取样本总数
"""
return len(self.data)
(四)、定义数据集训练器
# 训练的数据提供器
train_dataset = FoodDataset(mode='train_data')
# 测试的数据提供器
eval_dataset = FoodDataset(mode='test_data')
# 查看训练和测试数据的大小
print('train大小:', train_dataset.__len__())
print('eval大小:', eval_dataset.__len__())
# 查看图片数据、大小及标签
# for data, label in train_dataset:
# print(data)
# print(np.array(data).shape)
# print(label)
# break
输出结果如下图2所示:
三、定义模型
from paddle.nn import Linear
import paddle.nn.functional as F
import paddle
#定义DNN网络
class MyDNN(paddle.nn.Layer):
def __init__(self):
super(MyDNN,self).__init__()
self.hidden1 = Linear(img_size,512)
self.hidden2 = Linear(512,256)
self.hidden3 = Linear(256,128)
self.hidden4 = Linear(3*img_size*128,labels_number)
def forward(self,input):
x = self.hidden1(input)
x =F.relu(x)
x = self.hidden2(x)
x = F.relu(x)
x = self.hidden3(x)
x = F.relu(x)
x = paddle.reshape(x, shape=[-1,3*img_size*128])
x = self.hidden4(x)
y = F.softmax(x)
return y
四、模型封装
network = MyDNN()
model = paddle.Model(network) # 模型封装
# 配置优化器、损失函数、评估指标
model.prepare(paddle.optimizer.Adam(learning_rate=0.001, parameters=model.parameters()),
paddle.nn.CrossEntropyLoss(),
paddle.metric.Accuracy())
# 可视化模型结构
# paddle.summary(network, (3,225,225))
五、训练回调函数
# 训练可视化VisualDL工具的回调函数
visualdl = paddle.callbacks.VisualDL(log_dir='visualdl_log')
# 启动模型全流程训练
model.fit(train_dataset, # 训练数据集
eval_dataset, # 评估数据集
epochs=20, # 训练的总轮次
batch_size=64, # 训练使用的批大小
verbose=1, # 日志展示形式
callbacks=[visualdl]) # 设置可视化
输出结果如下图5所示:
六、模型评估
# 模型评估,根据prepare接口配置的loss和metric进行返回
result = model.evaluate(eval_dataset, verbose=1)
print(result)
# 读取图片
def load_image(path):
img = Image.open(path)
img = img.resize((img_size, img_size), Image.ANTIALIAS)
img = np.array(img).astype('float32')
img = img.transpose((2, 0, 1))
img = img/255.0
print(img.shape)
return img
七、模型预测
# 读取模型准备预测
model_state_dict = paddle.load('finetuning/model.pdparams')
model = MyDNN()
model.set_state_dict(model_state_dict)
model.eval()
# 读取图片并预测
data = load_image('data/data55032/test/Alexandrite/alexandrite_18.jpg')
ceshi = model(paddle.to_tensor(data))
id2label = {
v:k for k,v in label2id.items()}
print('预测的结果为:',id2label[np.argmax(ceshi.numpy())])
总结
本系列文章内容为根据清华社出版的《自然语言处理实践》所作的相关笔记和感悟,其中代码均为基于百度飞桨开发,若有任何侵权和不妥之处,请私信于我,定积极配合处理,看到必回!!!
最后,引用本次活动的一句话,来作为文章的结语~( ̄▽ ̄~)~:
【学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。】
ps:更多精彩内容还请进入本文专栏:人工智能,进行查看,欢迎大家支持与指教啊~( ̄▽ ̄~)~
转载:https://blog.csdn.net/m0_54754302/article/details/127548359