GenAI 时代 AI Infra 工程技术趋势与平台演进

2025-01-12

今年是大模型迅猛展开的一年，GenAI（生成式 AI）的使用规模获得了史无前例的拓展。随之而来，技术挑战也正在晋级，硬件老原、资源打点、软件硬件之间的共同问题等都是大模型落地必须面对的难题。为了应对那些挑战，阿里云人工智能平台 PAI 连续停行技术翻新取劣化。2024云栖大会 AI Infra 焦点技术专场、人工智能平台年度发布专场，PAI 团队带来了对 AI Infra 工程技术的趋势解读，以及 PAI 的全新才华发布。

AI Infra 工程技术趋势解读

纵不雅观那一轮大模型热潮，AI 工程化价值更加凸显。阿里云智能团体钻研员、阿里云人工智能平台 PAI 卖力人林伟指出：“大模型对算力的苛求相当高，曾经将硬件计较机能推到了极限，高速网络互联的大范围 AI 集群高频地显现硬件和软件问题，依赖系统层面整体的劣化才华。”联结阿里云人工智能平台 PAI 收撑阿里巴巴团体和宽广云上客户的经历，林伟分享了以下几多点要害趋势。

1. 大范围训练的不乱性

超大范围训练任务舛错率是很是高的，舛错类型和成因定位也很复纯。此中最省事的是 Grey-failure，它会拉低任务运止速度但又不至于中断任务，因而捕捉那类舛错的难度很高。同时，跟着模型尺寸变大，毛病规复老原也随之升高。
应对不乱性的挑战，PAI 次要作了两件事。一方面，基于对 PyTorch 框架和系统的了解，构建了 AIMaster + 网络诊断才华，探查集群中潜正在的问题并事先避让；另一方面，通过 EasyCkpt 工具停行分钟级的异步 Checkpoint 保存和按需快照下发，确保毛病孕育发作以后快捷规复任务。

2. 大范围集群的主动分布式训练

算法工程师自然地会去关注算法构造翻新、训练办法、数据荡涤、训练成效等等，但是应付分布式训练的环境怎样配置是不太相熟的。正在分布式训练方面，PAI 也推出了相应的工具。
针对 Transformer 构造模型，Pai-Megatron-Patch [1] 供给了以 Megatron-LM 为焦点的开发工具箱，撑持更烦琐的模型格局转换，并供给热门开源根原模型的运用真例，笼罩预训练、微调、评价、推理、强化进修全流程。

针对更宽泛的模型构造，PAI 自研的 TorchAcc 训练引擎，通过算子融合、通信劣化、显存劣化、主动分布式等技术，能真现分布式训练的高度劣化和主动化。TorchAcc 基于 Torch/XLA 框架停行劣化和产品化，正在2023年 OpenXLA 举行的技术峰会中可以具体理解 TorchAcc 的相关工做[2]。TorchAcc 行将正式接入 ModelScope 魔搭社区，便捷更多模型开发者无缝地挪用。

3. 强化进修

ChatGPT 与得严峻冲破的一个重要起因便是删多了 RLHF 强化进修，让模型才华更好地对齐人类认知。不过，强化进修的历程会给分布式训练工程带来更大的挑战，因为还须要格外去训练一个模型构造、参数范围平等的 Reward Model，那样整体训练存储和分布式计较的泯灭会更大。
PAI 构建了一个新的 Alignment 训练框架 ChatLearn，它能高效地收撑 SFT、RM、RLHF/DPO/Online DPO/GRPO 等各种 Alignment 办法全流程训练，譬喻正在 Qwen2-72B 模型 Online DPO 训练、Qwen2-Math-Instruct GRPO 训练历程中，暗地里都应用到了 ChatLearn。ChatLearn 框架曾经正在今年8月正式开源[3]。

4. 推理效劳劣化

最近不少大模型效劳都正在贬价，贬价暗地里须要极致的劣化调治去收撑，只要计较资源获得丰裕操做、老原下降了，才华够让模型才华实正普惠。那也是 AI 工程化的使命之一。
咱们次要的工做是推出了 PAI-BladeLLM，综折工程层面和模型层面差异的劣化战略去作推理劣化。
模型层面最重要的便是作质化压缩，PAI-BladeLLM 通过主动混折质化、逐层选择精度最佳的算法战略，正在推理时动态选择最劣计较形式，得到推理精度和速度的最佳平衡。

工程层面，PAI-BladeLLM 基于多层次分布式架会谈调治机制，停行 Runtime 劣化，丰裕提升集群陈列机能，此中最焦点的调治劣化引擎 LlumniV 的钻研论文也被系统顶会 OSDI 2024 支录[4]。

5. 大数据平台和 AI 平台严密联结

即便领有好的根原模型、低老原的 AI 计较，短少使用场景也还是无源之水。已往一年，Github 上模型使用框架的热度连续攀升，像 LlamaIndeV、LangChain、Prompt flow。其真模型使用同样碰面对不少工程上的挑战。譬喻 RAG 的场景，从文档向质化到最末返回结果整个链路是很长的，开发人员须要办理差异格局的文档，同时不停地有新文档孕育发作、旧文档勘误，最抱负的形态是可以真时更新。那些需求其真和咱们正在大数据平台里逢到的状况是类似的。数据的办理荡涤、数据量质的评价应声、以及真时数据更新和发布，那些大数据平台成熟的才华，和 AI 使用的开发工做只要愈加严密地联结起来，威力敦促大模型使用愈加高效的落地。

6. 企业化才华

越来越多企业客户正在云上微和谐运用大模型，模型和数据安宁的问题遭到更多关注。正在数据安宁方面，PAI正在模型训练、模型微调、模型推理等要害环节都供给数据折规和安宁防护才华。正在硬件层面，咱们也和阿里云根原软件团队、龙蜥社区竞争，推出了笼罩硬件到软件层整体的 Confidential AI 奥密计较方案。
林伟指出：“从最初效劳阿里巴巴团体内部，到原日收撑中国赶过对合以上大模型的训练和效劳，人工智能平台 PAI 历经将近10年的展开，也积攒了大质的焦点技术，包孕调治、编译、分布式、Runtime、场景使用等方面。”
PAI Prime 是 PAI 供给的笼罩 AI Infra 和使用全场景的工程劣化技术栈，努力于进步 AI 训练推理的速度、不乱性和易用性，并且敦促 AI 更好地使用落地。

人工智能平台 PAI 产品年度发布

阿里云智能团体资深产品专家、阿里云人工智能平台 PAI 产品卖力人皇博远带来了人工智能平台 PAI 正在模型推理、训练、开发、安宁肯信等多个方面的重磅发布。

1. 面向 GenAI 时代的推理效劳

顺应 GenAI 使用爆发带来的模型推理新特点，人工智能平台 PAI 片面晋级 PAI-EAS 推理效劳模块。PAI 内置推理劣化引擎 BladeLLM，综折 BlaDNN 高机能算子、质化、 PD 分此外分布式推理、Prompt cache 缓存劣化等技术，能有效降低首包时延 (TTFT) 60%以上、降低 token 输出时延 (TPOT) 70%以上、提升推理吞吐80%以上。

联结 LLM 推理负载感知智能路由和专属网关，PAI-EAS 能依据真时业务负载和资源类型活络调治，将推理任务动态分发至广泛寰球的推理集群停行计较。

目前，PAI-EAS 模型正在线效劳平台正在寰球领域内16个 Region 供给效劳，集群范围赶过10万卡质级，能供给愈加贴近末端用户的计较效劳。

2. 不乱高效的云上 AI 训练效劳

正在模型训练方面，人工智能平台 PAI 重点加强了集群调治劣化的才华，保障训练任务的机能和不乱性。
为了进一步进步计较资源操做率，PAI 正式发布 AI Scheduler 训推一体调治引擎，具备异构算力混折调治、多级 Quota 打点、任务状态混折调治、任务无感切换等才华，可保障集群任务满载，提升操做率。

针对时延不敏感的训练任务和摸索期业务，PAI 训练效劳全新推出竞价任务形式，供给任务级其它高可用、高性价比算力，联结 PAI 平台的主动容错和形态规复才华，统筹性价比和不乱性。

正在训练不乱性方面，推出全维度监控、自动侦测、主动容错全方位的收撑。

3. 大数据 AI 一体、自带最佳理论的 AI 开发平台

数据是 AI 的基石。特别当大模型才华从钻研走向财产落地，数据量质映响模型和使用成效，数据价值愈加遭到关注。PAI 构建了 AI 数据资产全链路删多的数据效劳体系，具备全生命周期数据打点、多模态数据荡涤、多模态数据阐明、智能化数据标注和加强等才华，并供给全局的模型和数据血缘逃溯才华。

PAI 平台连续积攒和更新各类使用场景的最佳理论，并通过模型、Notebook、Pipeline工做流等差异的载体开放，供开发者快捷挪用。

为了进一步降低 AI 开发门槛，PAI 推出了 QuickStart 和 ArtLab 平台，划分面向 LLMOps 场景和 AIGC 开发场景供给低代码化的工具链。

4. 全新发布可信 AI 系列才华

大模型才华不停进化，也激发了应付模型安宁的担心。人工智能平台 PAI 推出可信 AI 模块，具备毒性数据荡涤、算法公平性/舛错性识别、奥密计较容器、欠妥推理内容拦截等罪能，保障模型和数据安宁。

5. 全方位晋级企业级才华

面向企业级客户，PAI 平台供给全方位的企业级才华，能高效处置惩罚惩罚企业内部 AI 计较资源、开发人员、权限、AI 资产之间的干系，创立消费级的高量质模型及使用。

皇博远指出，“人工智能平台 PAI 是面向企业客户及开发者的一站式模型开发平台，无缝连贯云上模型训练效劳及模型推理效劳。正在上层通过模型开发和构建的平台连贯了开发者们和底层云上的资源，高效运用云上高贵 GPU 资源。PAI 平台连续进化迭代，为云上 AI 翻新供给坚真保障，欲望企业和开发者能以最低的老原作 AI、用 AI，让所有人都能用上最先进的大模型。”

注释：
[1] PAI-Megatron-Patch
名目开源地址：hts://githubss/alibaba/Pai-Megatron-Patch
GTC 2024 大会分享：hts://ss.nZZZidiass/on-demand/session/gtc24-se63222/

[2] TorchAcc: A TorchXLA enabled Distributed Training Framework
hts://ss.youtubess/watch?ZZZ=4ng1ql1sPPs

[3]ChatLearn
名目开源地址：hts://githubss/alibaba/ChatLearn

[4] LlumniV: Dynamic Scheduling for Large Language Model SerZZZing
论文地址：hts://ss.useniV.org/conference/osdi24/presentation/sun-biao
名目开源地址：hts://githubss/AlibabaPAI/llumniV

随机推荐

吉娜54CM腰围对比雷佳音61CM头围女星扎堆炫“腹”太可...
浏览：33 时间：2024-08-07
银泰百货首进滨江，引入高端、首店级品牌...
浏览：5 时间：2025-01-08
揭开艾阳男发的美发秘密：跟随抖音热门剪发教程玩转男士发型！...
浏览：30 时间：2024-12-02
【深度】区块链技术在保险行业的应用与影响...
浏览：10 时间：2025-01-10
d开头的奢侈品包包品牌（d开头的奢侈品女包）...
浏览：33 时间：2024-06-17

出售本站【域名】【外链】

GenAI 时代 AI Infra 工程技术趋势与平台演进

猜你喜欢

热门文章

随机推荐

推荐文章