出售本站【域名】【外链】

首页 AI工具 AI视频 Ai智能平台 AI作图 AI知识 AI编程 AI资讯 AI语音 推荐

深度学习中的数据并行

2025-02-19

尽管相比于1D Tensor并止,2D格外删多了模型权重的通信,但是须要留心的是当GPU数质不少的时候,每个GPU上分配的模型权重就会小不少,而且因为运用的All-reduce通信方式,所以2D也还是要比1D更高效的。如果有 N𝑁个 GPU,tensor维度大小为[P,Q,K][𝑃,𝑄,𝐾],这么每个chunk的大小即为 [P/3√N,Q/3√N,K/3√N][𝑃/𝑁3,𝑄/𝑁3,𝐾/𝑁3]。跟着模型大小不停删大,单个GPU的内存曾经无奈包容现此刻的大模型,所以便有了背面会引见的模型并止​。

随机推荐

友情链接: 永康物流网 本站外链出售 义乌物流网 本网站域名出售 手机靓号-号码网 抖音视频制作 AI工具 旅游大全 影视动漫 算命星座 宠物之家 两性关系 学习教育