图像识别之KNN算法的理解与应用(2)_小言_互联网的博客

图像识别之KNN算法的理解与应用(2)

2020-11-28 09:10 609人阅读评论(0)

在上一篇文章中，我们介绍了KNN算法的原理，并详细阐述了使用Opencv的KNN算法模块对手写数字图像进行识别，发现识别的准确率还是比较高的，达到90%以上，这是因为手写数字图像的特征比较简单的缘故。本文我们将使用KNN来对更加复杂的CIFAR-10数据集进行识别分类，并尝试提高分类的准确率。

1. CIFAR-10数据集介绍

CIFAR-10是一个专门用于测试图像分类的公开数据集，其包含的彩色图像分为10种类型：飞机、轿车、鸟、猫、鹿、狗、蛙、马、船、货车。且这10种类型图像的标签依次为0、1、2、3、4、5、6、7、8、9。该数据集分为Python、Matlab、C/C++三个不同的版本，顾名思义，三个版本分别适用于对应的三种编程语言。因为我们使用的是C/C++语言，所以使用对应的C/C++版本就好，该版本的数据集包含6个bin文件，如下图所示，其中data_batch_1.bin~data_batch_5.bin通常用于训练，而test_batch.bin则用于训练之后的识别测试。

如下图所示，每个bin文件包含10000*3073个字节数据，在每个3073数据块中，第一个字节是0~9的标签，后面3072字节则是彩色图像的三通道数据：红通道 --> 绿通道 --> 蓝通道 (1024 --> 1024 --> 1024)。其中每1024字节的数据就是一帧单通道的32*32图像，3帧32*32字节的单通道图像则组成了一帧彩色图像。所以总体来说，每一个bin文件包含了10000帧32*32的彩色图像。

我们编程把每一个bin文件中包含的图像解析出来，并保存成图像文件。比如对于data_batch_1.bin文件，新建文件夹batch1，然后在batch1文件夹下面再新建名为0~9的10个文件夹，分别保存标签为0~9的图像。

上解析代码：


   
    
     
      
     
     
      
       void read_cifar_bin(char *bin_path, char *save_path)
      
     
    
     
      
     
     
      
       {
      
     
    
     
      
     
     
        
       const 
       int img_num = 
       10000;
      
     
    
     
      
     
     
        
       const 
       int img_size = 
       3073;   
       //第一字节是标签
      
     
    
     
      
     
     
        
       const 
       int img_size_1 = 
       1024;
      
     
    
     
      
     
     
        
       const 
       int data_size = img_num*img_size;
      
     
    
     
      
     
     
        
       const 
       int row = 
       32;
      
     
    
     
      
     
     
        
       const 
       int col = 
       32;
      
     
    
     
      
     
     
        
      
     
    
     
      
     
     
      
         uchar *cifar_data = (uchar *)
       malloc(data_size);
      
     
    
     
      
     
     
        
       if (cifar_data == 
       NULL)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       cout << 
       "malloc failed" << 
       endl;
      
     
    
     
      
     
     
          
       return;
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
         FILE *fp = fopen(bin_path, 
       "rb");
      
     
    
     
      
     
     
        
       if (fp == 
       NULL)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       cout << 
       "fopen file failed" << 
       endl;
      
     
    
     
      
     
     
          
       free(cifar_data);
      
     
    
     
      
     
     
          
       return;
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
         fread(cifar_data, 
       1, data_size, fp);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       int cnt[
       10] = {
       0};
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < img_num; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
      
           
       cout << i << 
       endl;
      
     
    
     
      
     
     
          
       long 
       int offset = i*img_size;              
      
     
    
     
      
     
     
          
       long 
       int offset0 = offset + 
       1;    
       //红
      
     
    
     
      
     
     
          
       long 
       int offset1 = offset0 + img_size_1;    
       //绿
      
     
    
     
      
     
     
          
       long 
       int offset2 = offset1 + img_size_1;   
       //蓝
      
     
    
     
      
     
     
          
      
     
    
     
      
     
     
      
           uchar label = cifar_data[offset];   
       //标签
      
     
    
     
      
     
     
          
       Mat img(row, col, CV_8UC3);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
          
       for (
       int y = 
       0; y < row; y++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       for (
       int x = 
       0; x < col; x++)
      
     
    
     
      
     
     
      
             {
      
     
    
     
      
     
     
              
       int idx = y*col + x;
      
     
    
     
      
     
     
      
               img.at<Vec3b>(y, x) = Vec3b(cifar_data[offset2+idx], cifar_data[offset1+idx], cifar_data[offset0+idx]);    
       //BGR
      
     
    
     
      
     
     
      
             }
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
           
       char str[
       100] = {
       0};
      
     
    
     
      
     
     
      
           
       sprintf(str, 
       "%s/%d/%d.tif", save_path, label, cnt[label]);
      
     
    
     
      
     
     
      
           imwrite(str, img);
      
     
    
     
      
     
     
      
           cnt[label]++;
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
         fclose(fp);
      
     
    
     
      
     
     
        
       free(cifar_data);
      
     
    
     
      
     
     
      
       }

运行上述代码分别解析数据集的6个bin文件，得到6*10000张图像，这时我们有6个文件夹（对应6个bin文件）：

以上每个文件夹下又包含了0~9的子文件夹，分别保存对应标签的图像：

2. CIFAR-10数据集的训练与识别

把图像从bin文件解析出来之后，就可以进行训练和识别了，代码与上篇文章类似：


   
    
     
      
     
     
      
       void KNN_cifar_test(void)
      
     
    
     
      
     
     
      
       {
      
     
    
     
      
     
     
        
       char ad[
       128] = { 
       0 };
      
     
    
     
      
     
     
        
       int testnum = 
       0, truenum = 
       0;
      
     
    
     
      
     
     
        
       const 
       int K = 
       8;
      
     
    
     
      
     
     
      
         cv::Ptr<cv::ml::KNearest> knn = cv::ml::KNearest::create();
      
     
    
     
      
     
     
      
         knn->setDefaultK(K);   
       //设置K值为8
      
     
    
     
      
     
     
      
         knn->setIsClassifier(
       true);  
       //设置KNN算法的功能为分类
      
     
    
     
      
     
     
      
         knn->setAlgorithmType(cv::ml::KNearest::BRUTE_FORCE);   
       //设置KNN算法的模式为遍历所有训练样本，以寻找最接近待分类样本的训练样本
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
         Mat traindata, trainlabel;
      
     
    
     
      
     
     
        
       const 
       int trainnum = 
       900;   
       //每个batch中的每一个类型的图像都加载900张
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       //加载batch1训练数据
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch1/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);   
       //读取灰度图像
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = srcimage.reshape(
       1, 
       1);    
       //将二维数据转成一维数据，Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       //加载batch2训练数据
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch2/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = srcimage.reshape(
       1, 
       1);    
       //将二维数据转成一维数据，Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       //加载batch3训练数据
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch3/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = srcimage.reshape(
       1, 
       1);    
       //将二维数据转成一维数据，Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       //加载batch4训练数据
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch4/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = srcimage.reshape(
       1, 
       1);    
       //将二维数据转成一维数据，Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       //加载batch5训练数据
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch5/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = srcimage.reshape(
       1, 
       1);    
       //将二维数据转成一维数据，Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
         traindata.convertTo(traindata, CV_32F);    
       //将训练数据转换为浮点数
      
     
    
     
      
     
     
      
         knn->train(traindata, cv::ml::ROW_SAMPLE, trainlabel);    
       //进行训练
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       //加载test测试数据
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < 
       800; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
      
             testnum++;
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/test_batch/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat testdata = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             testdata = testdata.reshape(
       1, 
       1);       
       //将二维数据转成一维数据，Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             testdata.convertTo(testdata, CV_32F);    
       //将测试数据转换为浮点数
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             Mat result;
      
     
    
     
      
     
     
            
       int  response = knn->findNearest(testdata, K, result);    
       //在训练样本中寻找最接近待分类样本的前K个样本，并返回K个样本中数量最多类型的标签
      
     
    
     
      
     
     
            
       if (response == i)   
       //如果分类得到的标签与数据本来的标签一致，则分类正确
      
     
    
     
      
     
     
      
             {
      
     
    
     
      
     
     
      
               truenum++;
      
     
    
     
      
     
     
      
             }
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
        
       cout << 
       "测试总数" << testnum << 
       endl;
      
     
    
     
      
     
     
        
       cout << 
       "正确分类数" << truenum << 
       endl;
      
     
    
     
      
     
     
        
       cout << 
       "准确率：" << (
       float)truenum / testnum * 
       100 << 
       "%" << 
       endl;
      
     
    
     
      
     
     
      
       }

运行上述代码，首先加载训练数据，然后对8000张测试图像进行分类，得到的结果如下。可以看到仅2349张图像识别成功了，29.3625%的识别准确率是非常低的了。

3. 使用HOG特征提高识别准确率

我们识别熟人的时候，主要根据脸部的主要特征来识别的，比如嘴巴、鼻子、眼睛、脸型，或者脸上的痣等，但如果我们根据脸颊的某一小块毫无特点的皮肤来识别，则很可能认错人。同样的道理，计算机的图像识别也是一样的，如果能提取图像的主要特征来进行识别，则可以大大提高识别的准确率。常使用的图像特征有Shift特征、Surf特征、HOG特征等。本文中，我们通过提取图像的HOG特征来进行识别。

首先介绍一下HOG特征。HOG特征算法的核心思想是提取图像的梯度加权直方图。下面分步介绍其提取过程：

(1) 计算图像的梯度图与梯度方向。

图像的梯度分为x方向梯度和y方向梯度，对于图像中任意点(x,y)，像素值为I(x,y)，其x方向梯度和y方向梯度可分别按下式计算：

得到x方向梯度和y方向梯度之后，即可得到该点的梯度与梯度方向（夹角）：

(2) 统计梯度加权直方图。

这里面涉及到三个概念：检测窗口、检测块、检测单元，我们分别介绍一下这三个概念。

检测窗口：在图像中选择的一个固定大小的矩形窗口，该窗口从左往右、从上往下滑动，每次滑动都有一个固定的步长。

检测块：在检测窗口中选择的一个固定大小的矩形窗口，该窗口从左往右、从上往下滑动，每次滑动都有一个固定的步长。

检测单元：把检测块分成若干个小块，每一个小块就是一个检测单元。比如上图中，把检测快分为2*2的检测单元。

梯度加权直方图的统计，则是以检测单元为单位的，统计每个检测单元中所有点的梯度值与梯度方向。梯度方向的范围为0~359°，通常将其分成9段：0~39、40~79、80~119、120~159、160~199、200~239、240~279、280~319、320~359。根据每一个点的梯度方向，将其划分到对应的段中，同时该段的特征值加上该点的梯度值，比如检测单元中某个点的梯度值为25，梯度方向为67°，则将其划分到40~79段中，同时把40~79段的特征值加上25，这就是加权梯度直方图。

因此，每一个检测单元有9个特征值，检测窗口与检测块滑动过程中的所有检测单元的特征值，就组成了图像的特征值。

Opencv中已经实现了HOG算法。下面我们使用Opencv中的HOG算法模块来检测图像的HOG特征，并对HOG特征进行识别，上代码：


   
    
     
      
     
     
      
       void KNN_cifar_test_hog(void)
      
     
    
     
      
     
     
      
       {
      
     
    
     
      
     
     
        
       char ad[
       128] = { 
       0 };
      
     
    
     
      
     
     
        
       int testnum = 
       0, truenum = 
       0;
      
     
    
     
      
     
     
      
         
       const 
       int K = 
       8;
      
     
    
     
      
     
     
      
         cv::Ptr<cv::ml::KNearest> knn = cv::ml::KNearest::create();
      
     
    
     
      
     
     
      
         knn->setDefaultK(K);
      
     
    
     
      
     
     
      
         knn->setIsClassifier(
       true);
      
     
    
     
      
     
     
      
         knn->setAlgorithmType(cv::ml::KNearest::BRUTE_FORCE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
         Mat traindata, trainlabel;
      
     
    
     
      
     
     
        
       const 
       int trainnum = 
       900;
      
     
    
     
      
     
     
        
      
     
    
     
      
     
     
        
       //定义HOG检测器
      
     
    
     
      
     
     
      
         HOGDescriptor *hog = 
       new HOGDescriptor(cvSize(
       16, 
       16), cvSize(
       8, 
       8), cvSize(
       8, 
       8), cvSize(
       2, 
       2), 
       9);   
       //特征提取滑动窗口, 块大小, 块滑动步长, 胞元（cell）大小
      
     
    
     
      
     
     
        
       vector<
       float> descriptors;  
       //定义HOG特征数组
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       //加载训练数据
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch1/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);   
       //RGB图像的识别比灰度图像的识别率高一点
      
     
    
     
      
     
     
            
      
     
    
     
      
     
     
            
       //计算图像的HOG特征
      
     
    
     
      
     
     
      
             hog->compute(srcimage, descriptors, Size(
       4, 
       4), Size(
       0, 
       0));
      
     
    
     
      
     
     
            
       Mat hogg(descriptors); 
       //将特征数组存入Mat矩阵中
      
     
    
     
      
     
     
        
      
     
    
     
      
     
     
      
             srcimage = hogg.reshape(
       1, 
       1);    
       //Mat Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);   
       //将HOG特征加载到训练矩阵中
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch2/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             hog->compute(srcimage, descriptors, Size(
       4, 
       4), Size(
       0, 
       0));
      
     
    
     
      
     
     
            
       Mat hogg(descriptors);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = hogg.reshape(
       1, 
       1);    
       //Mat Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch3/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             hog->compute(srcimage, descriptors, Size(
       4, 
       4), Size(
       0, 
       0));
      
     
    
     
      
     
     
            
       Mat hogg(descriptors);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = hogg.reshape(
       1, 
       1);    
       //Mat Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch4/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             hog->compute(srcimage, descriptors, Size(
       4, 
       4), Size(
       0, 
       0));
      
     
    
     
      
     
     
            
       Mat hogg(descriptors);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = hogg.reshape(
       1, 
       1);    
       //Mat Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < trainnum; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
            
       printf(
       "i=%d, j=%d\n", i, j);
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/batch5/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat srcimage = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             hog->compute(srcimage, descriptors, Size(
       4, 
       4), Size(
       0, 
       0));
      
     
    
     
      
     
     
            
       Mat hogg(descriptors);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             srcimage = hogg.reshape(
       1, 
       1);    
       //Mat Mat::reshape(int cn, int rows = 0)，cn表示通道数，为0则通道不变，rows表示矩阵行数
      
     
    
     
      
     
     
      
             traindata.push_back(srcimage);
      
     
    
     
      
     
     
      
             trainlabel.push_back(i);
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
         traindata.convertTo(traindata, CV_32F);
      
     
    
     
      
     
     
      
         knn->train(traindata, cv::ml::ROW_SAMPLE, trainlabel);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       for (
       int i = 
       0; i < 
       10; i++)
      
     
    
     
      
     
     
      
         {
      
     
    
     
      
     
     
          
       for (
       int j = 
       0; j < 
       800; j++)
      
     
    
     
      
     
     
      
           {
      
     
    
     
      
     
     
      
             testnum++;
      
     
    
     
      
     
     
      
             sprintf_s(ad, 
       "cifar/test_batch/%d/%d.tif", i, j);
      
     
    
     
      
     
     
      
             Mat testdata = imread(ad, CV_LOAD_IMAGE_GRAYSCALE);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             hog->compute(testdata, descriptors, Size(
       4, 
       4), Size(
       0, 
       0));
      
     
    
     
      
     
     
            
       Mat hogg(descriptors);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             testdata = hogg.reshape(
       1, 
       1);
      
     
    
     
      
     
     
      
             testdata.convertTo(testdata, CV_32F);
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
             Mat result;
      
     
    
     
      
     
     
            
       int  response = knn->findNearest(testdata, K, result);   
       //识别HOG特征
      
     
    
     
      
     
     
            
       if (response == i)
      
     
    
     
      
     
     
      
             {
      
     
    
     
      
     
     
      
               truenum++;
      
     
    
     
      
     
     
      
             }
      
     
    
     
      
     
     
      
           }
      
     
    
     
      
     
     
      
         }
      
     
    
     
      
     
     
        
       cout << 
       "测试总数" << testnum << 
       endl;
      
     
    
     
      
     
     
        
       cout << 
       "正确分类数" << truenum << 
       endl;
      
     
    
     
      
     
     
        
       cout << 
       "准确率：" << (
       float)truenum / testnum * 
       100 << 
       "%" << 
       endl;
      
     
    
     
      
     
     
      
       }

运行上述代码，得到结果如下。可以看到，识别的准确率从之前的29.3625%提升到了53.0625%，提升幅度还是很可观的，不过准确率还是达不到理想的水平，这是KNN算法本身的局限导致的，KNN算法对复杂图像的识别并不擅长，因此在接下来的文章中我们将尝试一下别的图像识别算法。

如果感兴趣，麻烦您动动手指识别下方的二维码，关注本公众号，多谢！

转载：https://blog.csdn.net/shandianfengfan/article/details/109882511

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

图像识别之KNN算法的理解与应用(2)

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场