第三十二课分布式训练

这个是15年的时候沐神在 CMU 装的一个小机群，里面有30台机器，各机群有大概60块 GPU ， 60块 GPU一共花了三四万美金的样子，就是大概20万人民币。沐神表示最亏的是当年他们跑了太多深度学习的实验，没有去挖矿，以至于错过了一个亿。少写点paper的话现在也就财务自由了。。。。

我们给大家看一看。就是说在分布式的情况下，从之前的单机多卡拓展到分布式是什么样子，其实本质上是没任何区别的。首先假设有个样本在这个地方，有四块 GPU ，我们这还是抽象出了一个 key value store 的东西在里面用来存我的参数的。首先分布式第一个不同是说我的数据可能是放在一个分布式的文件系统上，而不是放在机器本地的硬盘上面。所以就是说所有的机器都能够去读取这个样本，这个样本一般是被分开存在不同的磁盘上面。第二个是通常来说有多台机器，每台机器里面有多个 GPU 那么这个机器就叫做 worker 也就是工作站。这里我们假设两台机器，然后有两个GPU每台机要两个GPU那么接下来就是说存参数的地方，通常你来说会放在多个server 上面。那么其实在计算上来说根本就没区别。

如左图所示：

首先假设一台机器有四个 GPU 那么 GPU 之间比如说用 pcie协议交换的话，那么GPU 到GPU的通讯其实不错的。这个地方我们是63 GB per second。那么如果要 GPU 去 CPU 的话，也是要通过一个 pcie 到 CPU 到主内存，这里通常是一根线在这个地方。所以 GPU 到 CPU 的话带宽其实不大，就16 GB 。然后如果要去到一个别的机器的话，那就通过一个交换机。那么比如说我用10个 gbit 的话，那就是1.25 gb/s的带宽，你能看到这里的问题是说 GPU 到 GPU 的通讯是很快的。然后 GPU 到 CPU 通讯会降个5倍或者10倍；然后跨机器的话，通讯就会降得更多。所以就是说你需要去意识到这里面是有个层次化的结构的。所以尽量本地多通讯，实在不行，可以去内存走一走，尽量的少在机器之间做通讯，这就是整个性能的关键。

如右图所示：可以采用这种架构进行本地通讯。