如图所示Vff0c;大抵可以将 AI 系统分为以下几多个详细的标的目的Vff1a;
AI 框架不只仅是指如 PyTorch 等训练框架Vff0c;还蕴含推理框架。其卖力供给用户前实个 AI 编程语言Vff0c;接口和工具链。卖力静态步调阐明取计较图构建Vff0c;编译劣化等工做。AI 框架自身通过供给供用户编程的 API 获与用户表达的模型Vff0c;数据读与等用意Vff0c;正在静态步调阐明阶段完成尽可能的主动前向计较图构建Vff0c;主动求导补全反向流传计较图Vff0c;计较图整体编译劣化Vff0c;算子内循环编译劣化等。
那一层尽可能让用户表达目的任务取 AI 算法Vff0c;尽质少让用户关注底层真现Vff08;譬喻到底 AI 框架的真现是通过声明式编程方式还是号令式编程方式Vff09;是提升开发体验的较好的技能花腔Vff0c;但是过度的笼统会迷失活络性的表达Vff0c;正在模型展开较快迭代频繁的时期用户还须要体验层统筹活络性和可调试性。开发体验层会挪用编牌底层框架的接口供给愈加简约的用户开发体验。蕴含其真不限于以下规模Vff1a;
网络模型构建Vff1a;卷积神经网络 CNN、循环神经网络 RNN、Transformer 构造等Vff0c;蕴含 if else 控制流等根柢构造和算子撑持取真现的 API。语言的根柢语法和框架的 API 接口供给根柢算子的撑持。当前次要以运用 Python 语言内嵌挪用 AI 框架的方式停行网络模型的开发Vff0c;但是也显现控制流正在本生语言层取模型中间表达分裂等问题。
模型算法真现Vff1a;算法正常被封拆为 AI 框架的配置或 API 供用户选择Vff0c;有些 AI 框架也供给拦截接口给用户一定程度活络性定制自界说算法。模型算法真现取网络模型构造构件还是有着鲜亮的区别Vff0c;譬喻网络模型构建只供给模型层面的构建Vff0c;但是 AI 的算法真现流程如到底是训练还是推理Vff0c;是真现强化进修、监视进修还是无监视进修等Vff0c;属于模型算法的真现历程Vff0c;只是此中内部的算法模型构造的构建属于网络模型局部。
计较图构建Vff1a;静态计较图、动态计较图构建等。差异的 AI 框架类型决议了其运用静态还是动态图停行构建Vff0c;静态图有利于获与更多信息作全图劣化Vff0c;动态图有利于调试Vff0c;目前真际处于一个融合的形态Vff0c;如 PyTorch2.X 版原后推出 Dynamo 特性撑持本生静态图。
主动求导Vff1a;高效地对网络模型主动求导等。由于网络模型中大局部算子较为通用Vff0c;AI 框架提早封拆好算子的主动求导函数Vff0c;待用户触发训练历程主动通明的停行全模型的主动求导Vff0c;以撑持梯度下降等训练算法须要的权重梯度数据的获与。
中间表达构建Vff1a;多层次中间表达等。通过构建网络模型的中间表达及多层中间表达Vff0c;让模型自身可以更好的被基层 AI 编译器编译生成高效的后端代码。
流水线和工做流撑持Vff1a;流水线和工做流是真现模块解耦复用Vff0c;可室化编程的前提Vff0c;通过复用取可室化编程可以大幅降低组织内做业书写的门槛Vff0c;如高机能数据加载器等。
工具链: 如模型正在差异硬件的迁移、正在差异框架的迁移、模型转换、调试、可室化、类型系统等。就像传统的软件工程中调试器Vff0c;可室化Vff0c;类型系统等工具链的收撑Vff0c;让整个开发历程中Vff0c;跨平台Vff0c;跨平台Vff0c;问题诊断Vff0c;缺陷验证等得以高效真现Vff0c;目前 AI 系统规模也不停有类似工具孕育发作Vff0c;以撑持整个 AI 工程化理论。
生命周期打点Vff1a;数据读与Vff0c;训练取推理等流程开发取打点。呆板进修规模的 DeZZZOps 也便是 MLOps 的根原工具撑持。其可以让重复模块被复用Vff0c;同时让底层工具有正确的信息停行模块间的调治取多任务的劣化Vff0c;同时让各个环节模块化解耦Vff0c;独立和更为快捷的演进。
AI 编译取计较架构AI 框架丰裕赋能深度进修规模Vff0c;为 AI 算法的开发者供给了极大方便。晚期的 AI 框架次要使用于学术界Vff0c;如 Theano、torch 等Vff0c;跟着深度进修的快捷展开以及正在家产界的不停拓展Vff0c;不停有新的 AI 框架被提出以满足差异场景的使用。
但是跟着 AI 技术使用的片面展开Vff0c;各厂家依据原身业务场景的需求Vff0c;正在 AI 硬件和算法上不停劣化和摸索Vff0c;AI 系统的体系构造越来越复纯Vff0c;更多新的 AI 加快芯片被提出来Vff0c;其设想变得愈加多样化Vff0c;AI 框架运止的硬件环境和算法也趋于更多样和复纯Vff0c;单一 AI 框架曾经无奈满足和平衡所有特性。所以Vff0c;为了供给差异框架和硬件体系构造之间的迁移性Vff0c;ONNX 等中间 IR 被提出Vff0c;其界说了默示神经网络模型的统一格局Vff0c;以促进差异 AI 框架之间的模型转换。
为了真现硬件的多样性Vff0c;须要将神经网络模型计较映射赴任异架构的硬件中执止。正在通用硬件上Vff0c;高度劣化的线性代数库为神经网络模型计较供给了根原加快库。另外Vff0c;大大都硬件供应商还发布了专属的神经网络模型计较劣化库Vff0c;如Vff1a;MKL-DNN 和 cuDNN 等Vff0c;但基于根原加快库的劣化往往落后于深度进修算法模型的更新Vff0c;且大大都状况下须要针对差异的平台停行定制化的开发。
为理处置惩罚惩罚多硬件平台上的机能劣化的问题Vff0c;多种 AI 编译器被提出并获得了普及和使用Vff0c;比如Vff1a;TxM Vff0c;GlowVff0c;XLA 和 Jittor 等。AI 编译器以神经网络模型做为输入Vff0c;将 AI 计较任务通过一层或多层中间表达 IR 停行翻译和劣化Vff0c;最后转化为目的硬件上可执止的代码Vff0c;取传统的编译器Vff08;LLxMVff09;类似Vff0c;AI 编译器也给取前端、中间默示和后端分层设想的方式。
目前Vff0c;业界收流的芯片公司和大型互联网公司等都正在 AI 编译器停行了大质的投入来推进相关技术的展开。取传统编译器相比Vff0c;AI 编译器是一个规模特定的编译器Vff0c;有四个鲜亮的特征Vff1a;
主前端语言Vff1a;取传统编译器差异Vff0c;AI 编译器但凡不须要 LeVer/ParserVff0c;而是基于前端高级编程语言Vff08;如 PythonVff09;的 AST 将神经网络模型解析并结构为计较图 IRVff0c;侧重于糊口生涯 shape、layout 等张质计较特征信息Vff0c;虽然局部编译器还能糊口生涯控制流的信息。此中 Python 次要是以动态评释器为执止方式。
多层 IR 设想Vff1a;多层 IR 设想Vff0c;为的是满足易用性取高机能那两品种型需求Vff1a;1Vff09;为了让开发者运用便捷Vff0c;AI 框架会尽质对张质的计较停行笼统封拆成详细的 API 大概函数Vff0c;算法开发者只有关注神网络模型界说上的逻辑意义模型和算子Vff1b;2Vff09;正在底层算子机能劣化时Vff0c;可以突破算子的边界Vff0c;从更细粒度的循环调治等维度Vff0c;联结差异的硬件特点完成劣化。
面向神经网络劣化Vff1a;面向神经网络模型非凡的数据类型停行界说。AI 规模Vff0c;网络模型层的详细计较被笼统成张质的计较Vff0c;那就意味着 AI 编译器中次要办理的数据类型也是张质。而正在反向流传历程中Vff0c;是深度进修最为具有有代表的特性Vff0c;基于计较图构建的网络模型Vff0c;须要具有主动微分罪能。
DSA 芯片架构撑持Vff1a;AI 训练和推理对机能和时延都很是敏感Vff0c;所以大质运用公用的 AI 加快芯片停行计较Vff0c;而 AI 编译器其真是以 DSA 架构的 AI 加快芯片做为为核心的编译器Vff0c;那也是区别于通用编译器的一个特征。
AI 编译取计较架构卖力 AI 模型正在实正运止前的编译和系统运止时的动态调治取劣化。当获与的网络模型计较图陈列于单卡、多卡以至是分布式 AI 集群的环境Vff0c;运止期的框架须要对整体的计较图依照执止顺序调治算子取任务的执止、多路复用资源Vff0c;作好内存等资源的分配取开释。蕴含其真不限于以下局部Vff1a;
编译劣化Vff1a;如算子融合等。编译器依据算子的语义大概 IR 界说Vff0c;对符折停行算子融合Vff08;多个算子和并为一个算子Vff09;的算子停行兼并Vff0c;降低内核启动取访存价钱。同时 AI 编译器还撑持循环劣化等类似传统编译器的劣化战略和面向深度进修的劣化战略Vff08;如就义一定精度的计较图等价代换等Vff09;。
劣化器Vff1a;运止时立即Vff08;Just-in-TimeVff09;劣化Vff0c;内省Vff08;IntrospectiZZZeVff09;劣化等。运止时依据硬件Vff0c;隐藏的软件栈信息Vff0c;数据分布等只能运止时所获与的信息Vff0c;进一步对模型停行劣化。
调治取执止Vff1a;调治劣算子并止取调治Vff0c;执止有单线程和多线程执止等。调治方面依据 NPU 供给的软件栈和硬件调治战略Vff0c;以及模型的算子间并止机缘Vff0c;停行类拆箱的并止调治。此外再算子执止历程中Vff0c;假如特定 NPU 没有作过多的运止时调治取干取干涉Vff0c;框架可以设想高效的运止时算子内的线程调治战略。
硬件接口笼统Vff1a;GPU、NPU、TPU、CPU、FPGA 和 ASIC 等硬件的接口笼统。统一的硬件接口笼统可以复用编译劣化战略Vff0c;让劣化方案取详细底层的 AI 硬件方法和 AI 体系构造适当解耦。
AI 硬件取体系构造卖力步调的实正执止、互联取加快。正在更广的层面Vff0c;做业取做业间须要平台供给调治Vff0c;运止期资源分配取环境断绝。蕴含其真不限于以下局部Vff1a;
资源池化打点取调治Vff1a;异构资源集群打点等。将效劳器资源池化Vff0c;通过高效的调治器联结深度进修做业特点和异构硬件拓扑停行高效调治Vff0c;那方面正在应付云资源打点和云化较为重要。
可扩展的网络栈Vff1a;RDMAVff0c;InifiBandVff0c;NxLink 等。供给更高效的加快器到加快器的互联Vff08;譬喻 NxLink、NxSwitch 等Vff09;供给更高的网络带宽Vff0c;更活络的通信本语取高效的通信聚折算法Vff08;譬喻 AllReduce 算法Vff09;。
尽管 AI 系统正在总的标的目的上分为开发体验层、框架层、编译取运止时和硬件体系构造和 AI 芯片 4 层构造。但是咱们将正在后续章节中Vff0c;将会环绕焦点系统软硬件Vff0c;如 AI 训练和推理框架Vff0c;AI 编译器Vff0c;AI 芯片Vff0c;局部波及更宽泛的 AI 系统生态中的重要内容如算法等开展引见。
AI 系统生态除了以上重要的 AI 系统形成之外Vff0c;跟着人工智能使用越来越宽泛Vff0c;咱们还可以看到更宽泛的 AI 系统生态的形成。此中包孕以下规模Vff1a;
通过焦点系统软硬件Vff0c;底层的根原架构曾经可以给上层供给算力Vff0c;存储Vff0c;网络等资源池Vff0c;可以按需给须要执止的深度进修做业断绝出指定规格的资源Vff0c;执止深度进修做业Vff0c;类似传统收配系统曾经完成底层硬件的笼统取资源断绝Vff0c;只须要用户的使用提交到系统中被执止和打点。
深度进修任务运止和劣化环境Vff1a;供给更高的运止时机能Vff0c;资源断绝取调治。当深度进修做业启动Vff0c;AI 框架或运止时供给更好的算子取任务调治Vff0c;内存打点Vff0c;I/O 打点Vff0c;以至将来跟着做业愈发复纯Vff0c;供给做业的多路复用Vff08;MultipleVingVff09;等撑持Vff0c;突破方法商运止时库封拆的局限性。
通用资源打点和调治系统Vff1a;供给更公平Vff0c;高效率和不乱的平台撑持。机能其真不是系统设想自身的惟一思考因素Vff0c;正在多租环境Vff0c;还要统筹公平Vff0c;效率和不乱性Vff0c;为用户供给愈加牢靠好用的平台。
新型硬件及相关高机能网络和计较栈Vff1a;跟着加快器技术不停展开Vff0c;网络互连技术供给更高的带宽Vff0c;硬件层供给更高的算力取带宽撑持模型训练取推理。系统须要愈加活络的撑持正在差异的硬件和规格如果下Vff0c;差异做业如何静态取动态联结的主动劣化取高机能执止。同时由于硬件的展开趋势差异Vff0c;潜正在可能会让机能瓶颈孕育发作厘革Vff0c;系统设想较早判断并对应设想会孕育发作新的系统设想机缘。
AI 算法和框架通过深度进修算法取框架Vff0c;用户可以表达模型设想和训练配置等需求Vff0c;就像给供给了一淘特定规模的“编程语言”Vff0c;并且供给了相应的编译器及工具链可以翻译成运止时软硬件环境可以执止的指令。
宽泛用途的高效新型通用 AI 算法Vff1a;供给更多样的模型撑持Vff0c;推进和撑持模型成效的提升。撑持新的算子Vff08;譬喻Vff0c;控制流等Vff09;Vff0c;愈加活络的模型构造Vff08;譬喻Vff0c;图模型等Vff09;Vff0c;模型的融合Vff08;譬喻Vff0c;多专家系统等Vff09;撑持。
多种 AI 框架的撑持取进化Vff1a;由于多种框架取工具的存正在Vff0c;如作甚用户供给更多样的框架的统一撑持取劣化对提升用户体验Vff0c;复用已有代码有很强的真用价值。
神经网络编译架构及劣化Vff1a;正在编译期Vff0c;通过静态阐明取劣化的办法Vff0c;供给更劣化的编译撑持Vff0c;提升模型的机能Vff0c;准确性等。类似传统编译器Vff0c;网络模型的计较图可以通过融合等技能花腔劣化Vff0c;算子内可以使用大质循环劣化。同时面向网络模型自身的特点Vff0c;也逐渐有工做操做一些等价和非等价计较图转换停行劣化。
更宽泛生态跟着深度进修高速展开Vff0c;更大的搜寻空间Vff0c;运止时威力获与的数据Vff0c;模型安宁取隐私Vff0c;陈列推理的多样化需求变得日益迫切Vff0c;咱们须要思考除训练以外更多的 AI 系统问题。
呆板进修新形式Vff08;如强化进修Vff09;Vff1a;供给新训练范式的活络执止Vff0c;陈列取同步撑持等。由于训练数据可能须要以取环境交互的历程中威力获与Vff0c;组成须要通过强化进修等新的训练范式停行模型训练Vff0c;须要设想新的系统以撑持活络的训练范式。
主动呆板进修Vff08;如主动化呆板进修Vff09;Vff1a;当用户想试错Vff08;Trial And ErrorVff09;的搜寻空间抵达一定质级Vff0c;用户通过主动化呆板进修工具取算法可以更高效的停行模型的摸索取训练。主动化呆板进修系统可以供给多任务的高效打点取调治撑持Vff0c;撑持搜寻空间界说的步调语言等。
安宁Vff08;SecurityVff09;取隐私Vff08;PriZZZacyVff09;Vff1a;数据取模型Vff0c;类似传统的信息安宁要护卫的数据取步调Vff0c;除了数据自身Vff0c;模型类似传统步调自身的安宁取隐私问题提出了新的挑战。咱们须要考虑神经网络模型取使用的安宁取隐私护卫撑持。
模型推理、压缩取劣化Vff1a;假如不须要训练Vff0c;只须要执止前向流传历程Vff0c;则是用户初步运用模型停行推理Vff0c;基于深度进修特有性量停行高效的模型陈列推理是除训练外很重要的系统问题。模型推理相比训练有更低的延迟要求Vff0c;更严苛的资源提供Vff0c;不须要求解梯度和训练Vff0c;有更低的精度要求等Vff0c;如何设想面向推理的系统提出了新的机缘。同时网络模型自身可以通过模型压缩Vff0c;质化等技能花腔精简计较质取内存泯灭Vff0c;加快模型的陈列。
假如您想理解更多AI知识Vff0c;取AI专业人士交流Vff0c;请立刻会见昇腾社区官方网站大概深刻研读《AI系统Vff1a;本理取架构》一书Vff0c;那里会聚了海质的AI进修资源和理论课程Vff0c;为您的AI技术成长供给强劲动力。不只如此Vff0c;您另有机缘投身于全国昇腾AI翻新大赛和昇腾AI开发者创享日等盛事Vff0c;发现AI世界的无限玄妙~
来了! 中公教育推出AI数智课程,虚拟数字讲师“小鹿”首次亮...
浏览:82 时间:2025-01-13变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:63 时间:2024-11-10AI可以设计logo了?轻松生成品牌logo设计,创新又实用...
浏览:3 时间:2025-02-22关注残障人士特殊需求,淘宝在全国助残日推出“关AI助残计划”...
浏览:25 时间:2025-02-05英特尔StoryTTS:新数据集让文本到语音(TTS)表达更...
浏览:0 时间:2025-02-23PyCharm安装GitHub Copilot(最好用的AI...
浏览:5 时间:2025-02-22JetBrains IDE与GitHub Copilot的绝...
浏览:5 时间:2025-02-22照片生成ai舞蹈软件有哪些?推荐5款可以一键生成跳舞视频的A...
浏览:3 时间:2025-02-22