3个Python技巧—可动读取，创建和运行多个模型_小言_互联网的博客

3个Python技巧—可动读取，创建和运行多个模型

2021-04-04 13:53 781人阅读评论(0)

欢迎关注 “小白玩转Python”，发现更多 “有趣”

引言

在将代码投入生产环境时，可能需要处理组织代码文件的问题。读取、创建和运行很多数据文件是非常耗时的。本文将向你展示如何实现自动化：

· 循环遍历目录中的文件

· 创建嵌套文件

· 使用bash for循环运行一个具有不同输入的文件

这些技巧将为我们的项目节省大量的时间，希望你也会发现他们的用处！

循环遍历目录中的文件

如果我们有多个数据需要读取和处理：

我们可以尝试手动每次读取一个文件


   
    
     
      
     
     
      
       import pandas as pd 
      
     
    
     
      
     
     
      
       def process_data(df):
      
     
    
     
      
     
     
      
          pass
      
     
    
     
      
     
     
      
       df = pd.read_csv(data1.csv)
      
     
    
     
      
     
     
      
       process_data(df)
      
     
    
     
      
     
     
      
       df2 = pd.read_csv(data2.csv)
      
     
    
     
      
     
     
      
       process_data(df2)
      
     
    
     
      
     
     
      
       df3 = pd.read_csv(data3.csv)
      
     
    
     
      
     
     
      
       process_data(df3)

虽然这是可以的，但当我们有超过3个文件的时候就没有效率了。在上面的脚本中唯一变化的是读取的文件，那我们是否可以使用一个for循环来访问每个文件呢？

下面的脚本允许我们循环遍历指定目录中的文件：


   
    
     
      
     
     
      
       import os
      
     
    
     
      
     
     
      
       import pandas 
       as pd
      
     
    
     
      
     
     
      
       def loop_directory(directory: str):
      
     
    
     
      
     
     
        
       '''Loop files in the directory'''
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       for filename 
       in os.listdir(directory):
      
     
    
     
      
     
     
          
       if filename.endswith(
       ".csv"):
      
     
    
     
      
     
     
      
             file_directory = os.path.join(directory, filename)
      
     
    
     
      
     
     
      
             print(file_directory)
      
     
    
     
      
     
     
      
             pd.read_csv(file_directory)
      
     
    
     
      
     
     
          
      
     
    
     
      
     
     
            
      
     
    
     
      
     
     
      
       if __name__==
       '__main__':
      
     
    
     
      
     
     
      
         loop_directory(
       'data/')


   
    
     
      
     
     
      
       data/data3.csv
      
     
    
     
      
     
     
      
       data/data2.csv
      
     
    
     
      
     
     
      
       data/data1.csv

现在我们可以访问“数据”目录中的所有文件！

创建嵌套文件

有时，我们可能需要创建嵌套文件来组织代码或模型，这使得将来更容易找到它们。例如，我们可以使用“model 1”来指定特定的特性工程。

在使用model1时，我们可能希望使用不同类型的机器学习模型来训练数据("model1/XGBoost"）。

在使用每种机器学习模型时，由于用于模型的超参数的差异，我们甚至可能希望保存模型的不同版本。

因此，我们的模型目录看起来可能如下所示：


   
    
     
      
     
     
      
       model
      
     
    
     
      
     
     
      
       ├── model1
      
     
    
     
      
     
     
      
       │   ├── NaiveBayes
      
     
    
     
      
     
     
      
       │   └── XGBoost
      
     
    
     
      
     
     
      
       │       ├── version_1
      
     
    
     
      
     
     
      
       │       └── version_2
      
     
    
     
      
     
     
      
       └── model2
      
     
    
     
      
     
     
      
           ├── NaiveBayes
      
     
    
     
      
     
     
      
           └── XGBoost
      
     
    
     
      
     
     
      
               ├── version_1
      
     
    
     
      
     
     
      
               └── version_2

为我们创建的每个模型手动创建一个嵌套文件可能需要很多时间。有没有办法让这个过程自动化？使用os.makedirs(datapath)即可。


   
    
     
      
     
     
      
       def create_path_if_not_exists(datapath):
      
     
    
     
      
     
     
          
       '''Create the new file if not exists and save the data'''
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
          
       if 
       not os.path.exists(datapath):
      
     
    
     
      
     
     
      
               os.makedirs(datapath) 
      
     
    
     
      
     
     
              
      
     
    
     
      
     
     
      
       if __name__==
       '__main__':
      
     
    
     
      
     
     
      
       create_path_if_not_exists(
       'model/model1/XGBoost/version_1')

运行上面的文件，可以看到自动创建了嵌套文件“model/model2/XGBoost/ver

sion_2”！

现在可以保存模型或数据到新的目录！


   
    
     
      
     
     
      
       import joblib
      
     
    
     
      
     
     
      
       import os 
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       def create_path_if_not_exists(datapath):
      
     
    
     
      
     
     
          
       '''Create the new file if not exists and save the data'''
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
          
       if 
       not os.path.exists(datapath):
      
     
    
     
      
     
     
      
               os.makedirs(datapath) 
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       if __name__==
       '__main__':
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
        
       # Create directory
      
     
    
     
      
     
     
      
         model_path = 
       'model/model2/XGBoost/version_2'
      
     
    
     
      
     
     
      
         create_path_if_not_exists(model_path)
      
     
    
     
      
     
     
        
      
     
    
     
      
     
     
        
       # Save file
      
     
    
     
      
     
     
      
         joblib.dump(model, model_path)

Bash for 循环：运行一个具有不同参数的文件

如果我们要运行一个具有不同参数的文件怎么办？例如，我们可能想使用相同的脚本来使用不同的模型预测数据。


   
    
     
      
     
     
      
       import joblib
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       # df = ...
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       model_path = 'model/model1/XGBoost/version_1'
      
     
    
     
      
     
     
      
       model = joblib.load(model_path)
      
     
    
     
      
     
     
      
       model.predict(df)

如果一个脚本需要很长时间才能运行，并且我们要运行多个模型，那么等待脚本运行完成然后运行下一个脚本将非常耗时。有没有一种方法，我们可以告诉计算机运行模型1，2，3，…，10与一个命令行，然后去做其他事情。

我们可以使用bash for循环。首先，我们使用sys.argv使我们能够解析命令行参数。如果要在命令行上覆盖配置文件，也可以使用hydra等工具。


   
    
     
      
     
     
      
       import sys
      
     
    
     
      
     
     
      
       import joblib
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       # df = ...
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       model_type = sys.argv[1]
      
     
    
     
      
     
     
      
       model_version = sys.argv[2]
      
     
    
     
      
     
     
      
       model_path = f'''model/model1/{model_type}/version_{model_version}'''
      
     
    
     
      
     
     
      
       print('Loading model from', model_path, 'for training')
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
       
      
     
    
     
      
     
     
      
       model = joblib.load(model_path)
      
     
    
     
      
     
     
      
       mode.predict(df)


   
    
     
      
     
     
      
       >>> python train.py XGBoost 
       1
      
     
    
     
      
     
     
      
       Loading model 
       from model/model1/XGBoost/version_1 
       for training

现在我们可以使用bash for循环遍历模型的不同版本。

如果可以使用Python进行for循环，也可以在如下所示的终端上进行


   
    
     
      
     
     
      
       $
        for version in 2 3 4
      
     
    
     
      
     
     
      
       >
        do
      
     
    
     
      
     
     
      
       >
        python train.py XGBoost $version
      
     
    
     
      
     
     
      
       >
        done

输入Enter以分隔行

输出的结果为：


   
    
     
      
     
     
      
       Loading model 
       from model/model1/XGBoost/version_1 
       for training
      
     
    
     
      
     
     
      
       Loading model 
       from model/model1/XGBoost/version_2 
       for training
      
     
    
     
      
     
     
      
       Loading model 
       from model/model1/XGBoost/version_3 
       for training
      
     
    
     
      
     
     
      
       Loading model 
       from model/model1/XGBoost/version_4 
       for training

现在可以在让脚本使用不同的模型运行的同时做其他事情了！是不是很方便！

总结

本文我们了解了如何一次自动读取和创建多个文件。还了解了如何使用不同的参数运行一个文件。手动读取、写入和运行文件所花费的时间现在可以节省下来，用于更重要的任务。是不是很棒呢~

· END ·

HAPPY LIFE

转载：https://blog.csdn.net/weixin_38739735/article/details/113533566

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

3个Python技巧—可动读取，创建和运行多个模型

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场