【新智元导读】一家大模型草创公司从创设到训练出大模型,要按捺怎么的难题?前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点。
前谷歌大脑科学家Yi Tay去年3月离职后,开办了一家草创公司。
创业一年,他发文默示「痛并光荣着」。
正在那篇博文中,我探讨了:
1. 正在差异计较供给商中采购计较和差此外经历。咱们最大的发现/欣喜是不同超级差异,的确是人们可以与得的「硬件彩票」!
2. 探讨「野外」根原设备/代码,并过渡到我正在谷歌的习惯
3. 训练模型时的新思维方式。
正在整个创业历程中,他认为最大的艰难等于——算力稀缺、算力供给商不同弘大,让大模型的训练比预期要稀有多。
对此,Yi Tay写了一篇长文,自述了从0初步如何开办一家公司,筹集资金、置办芯片,训练出了能够取Gemini pro/GPT 3.5,以至超越其余LLM的模型。
Karpathy对此默示深化地附和:「那篇文章出色地探讨了一个鲜为人知的话题:训练LLM的难点」。
正在大公司维护计较集群的时候,跟着范围扩充,集群打点更像是生物学而非工程学。
工程师须要像「保姆」一样密切监控训练历程,关注要害目标,一旦显现问题要实时牌查,否则会华侈大质计较资源。
训练屡屡因为各类未知起因失败,须要重启检验测验。训练大模型考验整个计较系统的容错才华,因而除了思考机能和老原,还要评价整体效劳量质和团队效率。
接下来看看他是如何讲演,原人一年来的创业过程。
「野外」训练LLM(由Dall-E生成)
LLM时代的硬件彩票
训练模型的首要条件是获与算力。那看起来很简略易止。
然而,最大的欣喜是计较供给商的不不乱性,以及集群、加快器及其连贯性的量质存正在着弘大的不同。
人们总是认为,那只是一个对于加快器选择的问题/辩论(TPU还是GPU等等),所有的GPU集群都是对等的。
对咱们来说,那很快被证真是舛错的。
当咱们对差异的效劳供给商停行抽样时,发现纵然应付雷同的硬件,即GPU(H100),硬件量质的不同也有很大不同。
请留心,那里的硬件指的是整体集群量质,而纷歧定是芯片或加快器自身。就像「彩票」一样。根柢上:
并非所有硬件都是一样的。差异硬件供给商的集群量质不同很是大,致使于要想训练出好的模型须要领与多大的价钱,那几多乎便是正在抽签。简而言之,LLM时代的硬件彩票。
更详细地说,咱们从几多家计较供应商这里租用了几多个集群,每个集群都无数百到数千个芯片。
咱们曾经看到了各类集群,从还可以的(只存正在一些小问题,但只需花几多个小时的光阳就能处置惩罚惩罚)到彻底不成用的集群,每隔几多个小时就会因为有数的起因此失败。
详细地说,一些群集的节点每N小时显现一次毛病,显现的问题蕴含布线问题(此中N小得分比方理)、GPU硬件舛错等。
更令人惊叹的是,同一供给商的每个群集正在鲁棒性方面也可能存正在很大不同。
取此同时,纵然其余一些群集可能具有更不乱的节点,它们也可能会遭到I/O和文件系统不佳的映响,纵然保存检查点也可能招致超时或极长的光阳泯灭正在群集操做率上。
其余一些计较源以至须要彻底差异的软件层威力运止,并且对带来原人代码库的团队不友好——须要格外的迁移老本原运止实验或大型工做。
凡事没有什么是浑然一体的!但供给商的效劳量质是东倒西歪的。
最令人丧气的是什么?的确不成能实正提早判断,出格是正在万事俱备的状况下,人们将与得什么样的硬件,以及体验的鲁棒性/容错性如何?
最重要的是,你也无奈晓得供应商能否只是未能定时交货,将发货推延了几多个月,招致用户滞留数周或数月,无奈从其余起源采购。
有些供应商还会不小心,增除你的检查点。
我有没有提到过,差异的集群会有差异的模型翻转操做率(MFU)?
你也会获得一个差异的模型翻转运用(Mfu)为差异的集群!?假如不幸发现供给商的节点布线不良或显现其余问题,计较质华侈是无奈忽室的。
正在团队成员初步跨集群传输大质数据的这一刻,假如系统的文件系统很是不抱负,训练运止的MFU就会下降。
每个效劳供给商的售后效劳也各不雷同。有礼貌客气的,有不冷不热的,也有把每一件事都归咎于用户的淘话。
总体而言,咱们检验测验的每个集群都有原人的格调、奋斗和失败形式。
而且,仿佛每个集群都须要针对原人的一组问题,运用热修复步调。只管如此,咱们曾经理解到毛病安宁是重要的,为任何集群找到快捷热修复方案是要害所正在。
正在已往的几多个月里,咱们构建了那么多,只是为了确保东西是可用的,譬喻,环绕监控、高效检查点和各类其余劣化的工具。
以至,到了拆置咱们的定制文件系统以真现可扩展数据存储的程度——而那只是真际须要的冰山一角。
那些工具的组折带来了大质的MFU改制,同时也最大限度地减少了面对糟糕的硬件时的停机光阳。
GPU ZZZs TPU
咱们正在Reka的大局部光阳里,都正在用GPU对模型停行训练。
就我个人而言,正在谷歌Pre-Reka糊口中,当波及到LLM训练时,我接续运用TPU。Cuda和NCCL对我来说是最陌生的东西。
取我正在谷歌运用 TPU 的教训相比,GPU 的毛病率让我彻底大吃一惊。
事真上,我其真不记得TPU纵然正在大型运止中失败率很高。不过我不确定,原人能否只是因为领有出涩的根原架会谈专门的硬件团队才不晓得那一点。
事真上,UL2-20B模型(正在谷歌)的训练是不测运止一个月来停行的。它从未失败过。假如那是正在GPU规模,它肯定会正在最初的几多天内失败。
也便是说,我认为那可能更多地,与决于打点加快器的硬件团队的才华,而不是底层芯片。
领有劣秀的硬件撑持(来自你的计较供给商)很是重要。而那正在很急流平上与决于他们能否实正有才华,那强化了「硬件彩票」的观念。
GPU规模给人觉得很独特。觉得多节点训练更像是过后才想到的,而不是做为TPU pods舱上的一等国民停行的分布式训练。
正在GPU规模,觉得差异的供给商仿佛以差异的方式对它们停行布线,以真现多节点训练,那招致正在差异地点如何完成工做的不同很大。
多集群设置的疾苦
我职业生涯的大局部光阳都是正在Google Infra上渡过的,它次要运止正在Borg、XManager和Colossus上。
因而,必须正在差异的集群中真际设置新环境的观念,对我来说是陌生的。
正在当今世界,领有多个加快器池集群仿佛是不成防行的,除非一个加快器池专门正在一个地点建立大质加快器池。
更详细地说,GPU供应(或缺乏)也作做招致了那种集群式采购形式,正在那种形式下,事物素量上是四分五裂的。
训练大型模型还须要大质的数据,纵然只是挪动它们也会组成很多不便。同时,正在超大范围复制数据但凡也不是开门见山和令人望而却步的。
显然,最抱负状况是建设某种编牌层,它是专门将做业发送赴任异的效劳器而构建的。
我相信很多重视AI的大公司但凡都有某种根原设备,以进步人工智能钻研人员的糊口量质。
然而,应付一家精干的新创业公司来说,正在一初步就构建那种复纯而离奇的ML训练根原设备是不成能的。
目前,咱们最末开发了很多内部工做流来缓解此中很多问题,并正正在继续朝着世界级实验根原设备的皇金范例迈进。
「野外」代码
我接续以来最喜爱的代码库是T5X和Mesh TensorFlow,但它们存正在一些问题:
1) 它们正在谷歌之外得不到太多撑持,
2)它们有点不受接待
3)它们对咱们团队中非Xoogler的人不友好。
咱们最末选择了一些普通的,看起来很不乱,更受接待的(譬喻pytorch),团队中的大大都人都更容易接触到它。
正在我最初的几多个月里,我被pip、git、docker和所有那些野外的东西绊倒了。话又说回来离去,我不能100%确定正在外部运用谷歌代码库会有多不乱或用户友好。
坦率地说,我不能不说,外部代码库的量质远远落后于我正在谷歌习惯的这些代码库。
次要是因为谷歌内部的代码库往往是由ML大神原人编写的(比如Noam Shazeer、Barret Zoph、Adam Roberts、Hyung Won Chung等),并且取我正在外部检验测验过的代码库相比觉得更好。
出格是,当我涉足其余公司开发的东西时,我发现原人对代码量质超级恼火。
另外,我素来不晓得变动模型并止性的才华,其真不是主动的(免费的),曲到一些代码库要求我编写一个转换器来变动模型的并止性。对我来说,那肯定是个稀有的时刻。
另一件令人惊叹的工作是,那些代码库对大范围编解码器训练,以至prefiVLM训练的撑持是如此之少。
为此,只管出于任何起因对GitHub问题提出了折法的要求,但纵然是闪电般的关注也接续谢绝为PrefiV LM训练供给撑持。
少一点准则,多一点Yolo
系统地扩展模型但凡须要一个人以有准则的方式从小到大,即分多个阶段 (1B->8B->64B->300B等)停行实验,并筛选得胜者并不停扩充参数范围。
正在一家草创公司中,咱们执止那些大范围扫描,以检查超参数所需的计较机数质要少得多。
咱们不能不多次运止Yolo,侥幸的是结果很好。
最末,咱们只用了较小范围和较短的烧蚀运止,便可与得壮大的21B Reka Flash和7B EDGE模型,以及咱们行将推出的最大焦点模型。
正在运止次数很是有限的状况下,找到牢靠的方案具有挑战性,并且思考到搜寻空间极其弘大,须要立刻变动很多变质。
为了作到那一点,人们必须放弃大科技公司的系统性,而正在很急流平上依赖「Yolo」、曲觉和原能。
开心的是,我和团队中的很多人,正在咱们的ML职业生涯中积攒了相当多的那种曲觉,以便正在相当短的光阳内将获得准确结果。
尽管咱们以前的工做中训练过很是好的模型,但正在训练根原设备、数据、新想法的归入和其余环境问题上的不同依然会招致结果上的弘大不同。
也便是说,壮大的先验有助于显著减少搜寻空间,那可能是咱们能够以如此少的试验、资源和实验来训练实正壮大的模型的最容易的评释之一。
做者引见
Yi Tay
Yi Tay目前是人工智能草创公司Reka的结折创始人兼首席科学家。
那是一家专注于人工智能钻研和产品的草创公司,旨正在构建令人诧异的生成式模型和推进AI钻研。据引见,目前Reka正正在训练先进的多模态AI模型。
正在创设Reka之前,Yi Tay曾正在谷歌大脑渡过了出色的3.3年,正在这里他为很多业界界说的LLM作出了奉献,如PaLM、UL2、Flan-2和Bard,以及多模态模型,如Pali-X和xIT-22B。
值得留心的是,Yi Tay也是PaLM-2和PaLM-2API建模的结折卖力人。
正在Yi Tay担当谷歌钻研科学家期间,他颁发的大局部做品都环绕着Transformer开展,特别是取效率、可伸缩性和架构钻研相关的内容。
参考量料:
hts://ss.yitay.net/blog/training-great-llms-entirely-from-ground-zero-in-the-wilderness
本题目:《前谷歌科学家离职创业1年,自述训练LLM卡正在算力上!买卡就像中彩票,Karpathy转赞》
“挤进”黛妃婚姻、成为英国新王后的卡米拉,坐拥多少珠宝?...
浏览:59 时间:2024-08-08变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:59 时间:2024-11-10Codex knows Powershell and Azu...
浏览:13 时间:2025-01-27DeepSeek除夕发布新模型,多模态大一统的革命来了?...
浏览:1 时间:2025-01-31