欢迎关注 “小白玩转Python”,发现更多 “有趣”
引言
在将代码投入生产环境时,可能需要处理组织代码文件的问题。读取、创建和运行很多数据文件是非常耗时的。本文将向你展示如何实现自动化:
· 循环遍历目录中的文件
· 创建嵌套文件
· 使用bash for循环运行一个具有不同输入的文件
这些技巧将为我们的项目节省大量的时间,希望你也会发现他们的用处!
循环遍历目录中的文件
如果我们有多个数据需要读取和处理:
-
├──
data
-
│ ├──
data1
.csv
-
│ ├──
data2
.csv
-
│ └──
data3
.csv
-
└──
main
.py
我们可以尝试手动每次读取一个文件
-
import pandas as pd
-
def process_data(df):
-
pass
-
df = pd.read_csv(data1.csv)
-
process_data(df)
-
df2 = pd.read_csv(data2.csv)
-
process_data(df2)
-
df3 = pd.read_csv(data3.csv)
-
process_data(df3)
虽然这是可以的,但当我们有超过3个文件的时候就没有效率了。在上面的脚本中唯一变化的是读取的文件,那我们是否可以使用一个for循环来访问每个文件呢?
下面的脚本允许我们循环遍历指定目录中的文件:
-
import os
-
import pandas
as pd
-
def loop_directory(directory: str):
-
'''Loop files in the directory'''
-
-
-
for filename
in os.listdir(directory):
-
if filename.endswith(
".csv"):
-
file_directory = os.path.join(directory, filename)
-
print(file_directory)
-
pd.read_csv(file_directory)
-
-
-
if __name__==
'__main__':
-
loop_directory(
'data/')
-
data/data3.csv
-
data/data2.csv
-
data/data1.csv
现在我们可以访问“数据”目录中的所有文件!
创建嵌套文件
有时,我们可能需要创建嵌套文件来组织代码或模型,这使得将来更容易找到它们。例如,我们可以使用“model 1”来指定特定的特性工程。
在使用model1时,我们可能希望使用不同类型的机器学习模型来训练数据("model1/XGBoost")。
在使用每种机器学习模型时,由于用于模型的超参数的差异,我们甚至可能希望保存模型的不同版本。
因此,我们的模型目录看起来可能如下所示:
-
model
-
├── model1
-
│ ├── NaiveBayes
-
│ └── XGBoost
-
│ ├── version_1
-
│ └── version_2
-
└── model2
-
├── NaiveBayes
-
└── XGBoost
-
├── version_1
-
└── version_2
为我们创建的每个模型手动创建一个嵌套文件可能需要很多时间。有没有办法让这个过程自动化?使用os.makedirs(datapath)即可。
-
def create_path_if_not_exists(datapath):
-
'''Create the new file if not exists and save the data'''
-
-
-
if
not os.path.exists(datapath):
-
os.makedirs(datapath)
-
-
if __name__==
'__main__':
-
create_path_if_not_exists(
'model/model1/XGBoost/version_1')
运行上面的文件,可以看到自动创建了嵌套文件“model/model2/XGBoost/ver
sion_2”!
现在可以保存模型或数据到新的目录!
-
import joblib
-
import os
-
-
-
def create_path_if_not_exists(datapath):
-
'''Create the new file if not exists and save the data'''
-
-
-
if
not os.path.exists(datapath):
-
os.makedirs(datapath)
-
-
-
if __name__==
'__main__':
-
-
-
# Create directory
-
model_path =
'model/model2/XGBoost/version_2'
-
create_path_if_not_exists(model_path)
-
-
# Save file
-
joblib.dump(model, model_path)
Bash for 循环:运行一个具有不同参数的文件
如果我们要运行一个具有不同参数的文件怎么办?例如,我们可能想使用相同的脚本来使用不同的模型预测数据。
-
import joblib
-
-
-
# df = ...
-
-
-
model_path = 'model/model1/XGBoost/version_1'
-
model = joblib.load(model_path)
-
model.predict(df)
如果一个脚本需要很长时间才能运行,并且我们要运行多个模型,那么等待脚本运行完成然后运行下一个脚本将非常耗时。有没有一种方法,我们可以告诉计算机运行模型1,2,3,…,10与一个命令行,然后去做其他事情。
我们可以使用bash for循环。首先,我们使用sys.argv使我们能够解析命令行参数。如果要在命令行上覆盖配置文件,也可以使用hydra等工具。
-
import sys
-
import joblib
-
-
-
# df = ...
-
-
-
model_type = sys.argv[1]
-
model_version = sys.argv[2]
-
model_path = f'''model/model1/{model_type}/version_{model_version}'''
-
print('Loading model from', model_path, 'for training')
-
-
-
model = joblib.load(model_path)
-
mode.predict(df)
-
>>> python train.py XGBoost
1
-
Loading model
from model/model1/XGBoost/version_1
for training
现在我们可以使用bash for循环遍历模型的不同版本。
如果可以使用Python进行for循环,也可以在如下所示的终端上进行
-
$
for version in 2 3 4
-
>
do
-
>
python train.py XGBoost $version
-
>
done
输入Enter以分隔行
输出的结果为:
-
Loading model
from model/model1/XGBoost/version_1
for training
-
Loading model
from model/model1/XGBoost/version_2
for training
-
Loading model
from model/model1/XGBoost/version_3
for training
-
Loading model
from model/model1/XGBoost/version_4
for training
现在可以在让脚本使用不同的模型运行的同时做其他事情了!是不是很方便!
总结
本文我们了解了如何一次自动读取和创建多个文件。还了解了如何使用不同的参数运行一个文件。手动读取、写入和运行文件所花费的时间现在可以节省下来,用于更重要的任务。是不是很棒呢~
· END ·
HAPPY LIFE
转载:https://blog.csdn.net/weixin_38739735/article/details/113533566