小言_互联网的博客

随机森林算法实现的性能对比测试

411人阅读  评论(0)

随机森林是常用的机器学习算法,既可以用于分类问题,也可用于回归问题。本文对scikit-learn、Spark MLlib、DolphinDB、xgboost四个平台的随机森林算法实现进行对比测试。评价指标包括内存占用、运行速度和分类准确性。本次测试使用模拟生成的数据作为输入进行二分类训练,并用生成的模型对模拟数据进行预测。

1. 测试软件

本次测试使用的各平台版本如下:

scikit-learn:Python 3.7.1,scikit-learn 0.20.2

Spark MLlib:Spark 2.0.2,Hadoop 2.7.2

DolphinDB:0.82

xgboost:Python package,0.81

2. 环境配置

CPU:Intel(R) Xeon(R) CPU E5-2650 v4 2.20GHz(共24核48线程)

RAM:512GB

操作系统:CentOS Linux release 7.5.1804

在各平台上进行测试时,都会把数据加载到内存中再进行计算,因此随机森林算法的性能与磁盘无关。

3. 数据生成

本次测试使用DolphinDB脚本产生模拟数据,并导出为CSV文件。训练集平均分成两类,每个类别的特征列分别服从两个中心不同,标准差相同,且两两独立的多元正态分布N(0, 1)和N(2/sqrt(20), 1)。训练集中没有空值。

假设训练集的大小为n行p列。本次测试中n的取值为10,000、100,000、1,000,000,p的取值为50。

由于测试集和训练集独立同分布,测试集的大小对模型准确性评估没有显著影响。本次测试对于所有不同大小的训练集都采用1000行的模拟数据作为测试集。

产生模拟数据的DolphinDB脚本见附录1。

4. 模型参数

在各个平台中都采用以下参数进行随机森林模型训练:

  • 树的棵数:500
  • 最大深度:分别在4个平台中测试了最大深度为10和30两种情况
  • 划分节点时选取的特征数:总特征数的平方根,即integer(sqrt(50))=7
  • 划分节点时的不纯度(Impurity)指标:基尼指数(Gini index),该参数仅对Python scikit-learn、Spark MLlib和DolphinDB有效
  • 采样的桶数:32,该参数仅对Spark MLlib和DolphinDB有效
  • 并发任务数:CPU线程数,Python scikit-learn、Spark MLlib和DolphinDB取48,xgboost取24。

在测试xgboost时,尝试了参数nthread(表示运行时的并发线程数)的不同取值。但当该参数取值为本次测试环境的线程数(48)时,性能并不理想。进一步观察到,在线程数小于10时,性能与取值成正相关。在线程数大于10小于24时,不同取值的性能差异不明显,此后,线程数增加时性能反而下降。该现象在xgboost社区中也有人讨论过。因此,本次测试在xgboost中最终使用的线程数为24。

5. 测试结果

测试脚本见附录2~5。

当树的数量为500,最大深度为10时,测试结果如下表所示:

当树的数量为500,最大深度为30时,测试结果如下表所示:

从准确率上看,Python scikit-learn、Spark MLlib和DolphinDB的准确率比较相近,略高于xgboost的实现;从性能上看,从高到低依次为DolphinDB、Python scikit-learn、xgboost、Spark MLlib。

在本次测试中,Python scikit-learn的实现使用了所有CPU核。

Spark MLlib的实现没有充分使用所有CPU核,内存占用最高,当数据量为10,000时,CPU峰值占用率约8%,当数据量为100,000时,CPU峰值占用率约为25%,当数据量为1,000,000时,它会因为内存不足而中断执行。

DolphinDB database 的实现使用了所有CPU核,并且它是所有实现中速度最快的,但内存占用是scikit-learn的2-7倍,是xgboost的3-9倍。DolphinDB的随机森林算法实现提供了numJobs参数,可以通过调整该参数来降低并行度,从而减少内存占用。详情请参考DolphinDB用户手册

xgboost常用于boosted trees的训练,也能进行随机森林算法。它是算法迭代次数为1时的特例。xgboost实际上在24线程左右时性能最高,其对CPU线程的利用率不如Python和DolphinDB,速度也不及两者。其优势在于内存占用最少。另外,xgboost的具体实现也和其他平台的实现有所差异。例如,没有bootstrap这一过程,对数据使用无放回抽样而不是有放回抽样。这可以解释为何它的准确率略低于其它平台。

6. 总结

Python scikit-learn的随机森林算法实现在性能、内存开销和准确率上的表现比较均衡,Spark MLlib的实现在性能和内存开销上的表现远远不如其他平台。DolphinDB的随机森林算法实现性能最优,并且DolphinDB的随机森林算法和数据库是无缝集成的,用户可以直接对数据库中的数据进行训练和预测,并且提供了numJobs参数,实现内存和速度之间的平衡。而xgboost的随机森林只是迭代次数为1时的特例,具体实现和其他平台差异较大,最佳的应用场景为boosted tree。

附录

1. 模拟生成数据的DolphinDB脚本


  
  1. def genNormVec(cls, a, stdev, n) {
  2. return norm(cls * a, stdev, n)
  3. }
  4. def genNormData(dataSize, colSize, clsNum, scale, stdev) {
  5. t = table(dataSize:0, `cls join ("col" + string(0..(colSize-1))), INT join take(DOUBLE,colSize))
  6. classStat = groupby(count,1..dataSize, rand(clsNum, dataSize))
  7. for(row in classStat){
  8. cls = row.groupingKey
  9. classSize = row.count
  10. cols = [take(cls, classSize)]
  11. for (i in 0:colSize)
  12. cols.append!(genNormVec(cls, scale, stdev, classSize))
  13. tmp = table(dataSize:0, `cls join ("col" + string(0..(colSize-1))), INT join take(DOUBLE,colSize))
  14. insert into t values (cols)
  15. cols = NULL
  16. tmp = NULL
  17. }
  18. return t
  19. }
  20. colSize = 50
  21. clsNum = 2
  22. t1m = genNormData(10000, colSize, clsNum, 2 / sqrt(20), 1.0)
  23. saveText(t1m, "t10k.csv")
  24. t10m = genNormData(100000, colSize, clsNum, 2 / sqrt(20), 1.0)
  25. saveText(t10m, "t100k.csv")
  26. t100m = genNormData(1000000, colSize, clsNum, 2 / sqrt(20), 1.0)
  27. saveText(t100m, "t1m.csv")
  28. t1000 = genNormData(1000, colSize, clsNum, 2 / sqrt(20), 1.0)
  29. saveText(t1000, "t1000.csv")

 

2. Python scikit-learn的训练和预测脚本


  
  1. import pandas as pd
  2. import numpy as np
  3. from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
  4. from time import *
  5. test_df = pd.read_csv( "t1000.csv")
  6. def evaluate(path, model_name, num_trees=500, depth=30, num_jobs=1):
  7. df = pd.read_csv(path)
  8. y = df.values[:, 0]
  9. x = df.values[:, 1:]
  10. test_y = test_df.values[:, 0]
  11. test_x = test_df.values[:, 1:]
  12. rf = RandomForestClassifier(n_estimators=num_trees, max_depth=depth, n_jobs=num_jobs)
  13. start = time()
  14. rf.fit(x, y)
  15. end = time()
  16. elapsed = end - start
  17. print( "Time to train model %s: %.9f seconds" % (model_name, elapsed))
  18. acc = np.mean(test_y == rf.predict(test_x))
  19. print( "Model %s accuracy: %.3f" % (model_name, acc))
  20. evaluate( "t10k.csv", "10k", 500, 10, 48) # choose your own parameter

 

3. Spark MLlib的训练和预测代码(Scala实现)


  
  1. import org.apache.spark.mllib.tree.configuration.FeatureType.Continuous
  2. import org.apache.spark.mllib.tree.model.{DecisionTreeModel, Node}
  3. object Rf {
  4. def main(args: Array[String]) = {
  5. evaluate( "/t100k.csv", 500, 10) // choose your own parameter
  6. }
  7. def processCsv(row: Row) = {
  8. val label = row.getString( 0).toDouble
  9. val featureArray = ( for (i <- 1 to (row.size- 1)) yield row.getString(i).toDouble).toArray
  10. val features = Vectors.dense(featureArray)
  11. LabeledPoint(label, features)
  12. }
  13. def evaluate(path: String, numTrees: Int, maxDepth: Int) = {
  14. val spark = SparkSession.builder.appName( "Rf").getOrCreate()
  15. import spark.implicits._
  16. val numClasses = 2
  17. val categoricalFeaturesInfo = Map[ Int, Int]()
  18. val featureSubsetStrategy = "sqrt"
  19. val impurity = "gini"
  20. val maxBins = 32
  21. val d_test = spark.read.format( "CSV").option( "header", "true").load( "/t1000.csv").map(processCsv).rdd
  22. d_test.cache()
  23. println( "Loading table (1M * 50)")
  24. val d_train = spark.read.format( "CSV").option( "header", "true").load(path).map(processCsv).rdd
  25. d_train.cache()
  26. println( "Training table (1M * 50)")
  27. val now = System.nanoTime
  28. val model = RandomForest.trainClassifier(d_train, numClasses, categoricalFeaturesInfo,
  29. numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)
  30. println(( System.nanoTime - now )/ 1e9)
  31. val scoreAndLabels = d_test.map { point =>
  32. val score = model.trees.map(tree => softPredict2(tree, point.features)).sum
  33. if (score * 2 > model.numTrees)
  34. ( 1.0, point.label)
  35. else
  36. ( 0.0, point.label)
  37. }
  38. val metrics = new MulticlassMetrics(scoreAndLabels)
  39. println(metrics.accuracy)
  40. }
  41. def softPredict(node: Node, features: Vector): Double = {
  42. if (node.isLeaf) {
  43. //if (node.predict.predict == 1.0) node.predict.prob else 1.0 - node.predict.prob
  44. node.predict.predict
  45. } else {
  46. if (node.split. get.featureType == Continuous) {
  47. if (features(node.split. get.feature) <= node.split. get.threshold) {
  48. softPredict(node.leftNode. get, features)
  49. } else {
  50. softPredict(node.rightNode. get, features)
  51. }
  52. } else {
  53. if (node.split. get.categories.contains(features(node.split. get.feature))) {
  54. softPredict(node.leftNode. get, features)
  55. } else {
  56. softPredict(node.rightNode. get, features)
  57. }
  58. }
  59. }
  60. }
  61. def softPredict2(dt: DecisionTreeModel, features: Vector): Double = {
  62. softPredict(dt.topNode, features)
  63. }
  64. }

 

4. DolphinDB的训练和预测脚本


  
  1. def createInMemorySEQTable(t, seqSize) {
  2. db = database( "", SEQ, seqSize)
  3. dataSize = t.size()
  4. ts = ()
  5. for (i in 0:seqSize) {
  6. ts.append!(t[(i * (dataSize/seqSize)):((i+ 1)*(dataSize/seqSize))])
  7. }
  8. return db.createPartitionedTable(ts, `tb)
  9. }
  10. def accuracy(v1, v2) {
  11. return (v1 == v2).sum() \ v2.size()
  12. }
  13. def evaluateUnparitioned(filePath, numTrees, maxDepth, numJobs) {
  14. test = loadText( "t1000.csv")
  15. t = loadText(filePath); clsNum = 2; colSize = 50
  16. timer res = randomForestClassifier(sqlDS(< select * from t>), `cls, `col + string( 0..(colSize -1)), clsNum, sqrt(colSize). int(), numTrees, 32, maxDepth, 0.0, numJobs)
  17. print( "Unpartitioned table accuracy = " + accuracy(res.predict(test), test.cls). string())
  18. }
  19. evaluateUnpartitioned( "t10k.csv", 500, 10, 48) // choose your own parameter

 

5. xgboost的训练和预测脚本


  
  1. import pandas as pd
  2. import numpy as np
  3. import xgboost as xgb
  4. from time import *
  5. def load_csv(path):
  6. df = pd.read_csv(path)
  7. target = df[ 'cls']
  8. df = df.drop([ 'cls'], axis= 1)
  9. return xgb.DMatrix(df.values, label=target.values)
  10. dtest = load_csv( '/hdd/hdd1/twonormData/t1000.csv')
  11. def evaluate(path, num_trees, max_depth, num_jobs):
  12. dtrain = load_csv(path)
  13. param = { 'num_parallel_tree':num_trees, 'max_depth':max_depth, 'objective': 'binary:logistic',
  14. 'nthread':num_jobs, 'colsample_bylevel': 1/np.sqrt( 50)}
  15. start = time()
  16. model = xgb.train(param, dtrain, 1)
  17. end = time()
  18. elapsed = end - start
  19. print( "Time to train model: %.9f seconds" % elapsed)
  20. prediction = model.predict(dtest) > 0.5
  21. print( "Accuracy = %.3f" % np.mean(prediction == dtest.get_label()))
  22. evaluate( 't10k.csv', 500, 10, 24) // choose your own parameter

转载:https://blog.csdn.net/qq_41996852/article/details/110823613
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场