作为21世纪最具颠覆性的技术方向,人工智能(AI)正快速迈向规模化产品落地。从智能客服机器人到AI辅助设计工具,从个性化推荐引擎到工业质检平台,AI驱动的产品正在重塑用户体验与企业竞争力。
然而,AI产品开发与传统软件开发的逻辑存在本质差异——其高度依赖数据、算力与算法协同,且面临从技术验证到工程化落地的巨大鸿沟。在当前的技术生态中,算力管理效率低、AI应用研发效率低、AI资产利用率低、大模型应用落地难以及AI开发门槛高等问题,成为了制约AI技术规模化应用的主要瓶颈。
乾坤鼎
基于云原生架构构建的一站式AI开发平台
算力管理低效?研发效率低下?大模型落地难?谐云乾坤鼎一站式解决AI开发难题,助力企业轻松拥抱AI时代!
算力管理效率低--异构算力/GPU算力细粒度
共享隔离/多集群管理/资源池管理
AI模型的训练和推理需要大量计算资源,尤其是深度学习和大模型。中国目前的算力卡脖子现状尚未得到突破性的解决。2018年,AWS re:Invent2018大会曾提及,在AWS上GPU利用率只有10%至30%。如何提高算力运用效率,提升算力管理成为了目前需要解决的首要问题。
举个例子
某AI团队有10张A100 GPU卡,用于训练推荐系统模型。
业务低谷期(如模型迭代间隙):
仅1张卡运行数据预处理(CPU密集型任务,GPU利用率≈10%),其余9张卡完全闲置。
业务高峰期(如紧急模型训练):
所有10张卡被抢占,但因任务排队、代码未优化(如未启用混合精度),实际平均利用率仅15%。
某电商公司部署商品识别服务,使用4张T4 GPU处理用户图片。
流量低谷期(如凌晨):
单张GPU的利用率不足5%,但必须维持至少1张卡在线保障服务可用性。
流量高峰期(如促销秒杀):
突增的请求导致GPU满载(利用率飙升至80%),剩余3张卡因启动延迟无法及时扩容,引发超时故障。
1.乾坤鼎-算力管理-异构算力接入和管理
在传统模式下,Kubernetes主要依赖 CPU 和内存进行任务调度,无法识别 GPU、NPU、FPGA 等异构计算资源,导致 AI 训练和推理任务的算力分配十分低效。由于 Kubernetes 无法自动调度 GPU 任务,用户需要手动将 AI 任务分配到具备 GPU 资源的节点,增加了运维复杂度,无法根据负载变化自动扩缩容,高峰期资源不足,低峰期资源闲置,进一步降低了 GPU 的利用率。
乾坤鼎-算力管理子平台为了让计算任务高效运行,算力管理系统通过 Kubernetes 和 Device Plugin 进行资源接入与统一调度,使得 GPU、NPU、DCU 等计算资源能够被识别并按需分配使用。Device Plugin 作为 Kubernetes 社区的事实标准,支持不同类型计算资源的自动注册和动态调度,确保业务的稳定性和高效性。同时,结合 Volcano 进行统一资源管理,可以进一步优化算力分配策略,让 GPU、NPU 等异构计算资源得以更充分利用,从而提升整体计算效率,实现智能化、高效化的任务调度。
2.乾坤鼎-算力管理-GPU算力细粒度共享隔离
在现代计算中,GPU(图形处理器)已经成为深度学习、科学计算和图形渲染等任务的核心硬件。然而,GPU资源通常有限且昂贵,如何高效地共享和隔离GPU算力,让多个任务或用户同时使用同一块GPU,成为了一个重要课题。细粒度共享和隔离技术就是为了解决这个问题而诞生的。
共享:让多个任务或用户同时使用同一块GPU,提高资源利用率。
隔离:确保每个任务或用户只能访问自己分配到的资源,避免相互干扰。
细粒度:将GPU资源(如算力、内存)划分到非常小的单位,实现更灵活的资源分配。
在没有 GPU 细粒度共享和隔离的情况下,GPU 计算资源的分配方式较为粗放,通常以整卡为单位进行调度,导致算力利用率低下。当多个任务需要 GPU 资源时,每个任务必须独占一整块 GPU,即使该任务只需要少量计算能力或显存,也无法与其他任务共享 GPU 资源,造成严重的算力浪费。同时,不同任务之间缺乏有效的资源隔离,如果多个任务在同一块 GPU 上运行,它们可能会相互竞争显存和计算资源,导致计算性能波动,影响任务的稳定性和效率。例如,在 AI 推理和训练任务混用 GPU 时,训练任务可能会占据大量算力,推理任务的响应时间因此大幅增加,影响系统的实时性。
乾坤鼎-算力管理子平台在AI算力卡驱动层面针对业务编程接口进行适配改造,实现算力和显存的调度拦截,从而实现算力细粒度共享和隔离。这种方式不依赖于各个硬件厂商的能力,便于扩展,使 GPU 资源可以更灵活地共享和隔离,而不受限于特定硬件厂商。结合 Kubernetes 和 vGPU 调度,支持 GPU 资源按需分配,实现池化管理,大幅提高算力利用率。相比过去整张 GPU 分配的方式,现在可以按 0.1 算力或 1MB 显存的精度进行分配,使用过程透明无感,让计算更高效、更灵活。
3.乾坤鼎-算力管理-多集群管理
在现代计算环境中,单一的集群往往无法满足多样化的需求多集群管理是指在一个统一的平台上,对多个计算集群进行集中管理、调度和监控。这些集群可能分布在不同地理位置、使用不同硬件架构(如CPU、GPU、TPU),甚至运行在不同的云服务商上。多集群管理可以实现:
· 资源整合:将多个集群的资源统一管理,形成“资源池”。
· 任务调度:根据任务需求,动态分配资源到最合适的集群。
· 统一监控:实时监控所有集群的状态和性能。
· 故障恢复:在一个集群出现故障时,自动将任务迁移到其他集群。
乾坤鼎-算力管理子平台提供多集群统一接入和管理能力,支持接入新建的、用户存量的标准K8s集群等。功能点如下:
l 多集群管理列表,包含集群状态、主机架构、算力类型等;
l 提供集群资源总量概览统计(含总量、已分配量、剩余量);
l 提供集群维度资源监控,包含CPU使用量、CPU使用率、内存使用量、内存使用率、GPU使用量、GPU使用量等。
4.乾坤鼎-算力管理-资源池化
在没有多租户和资源池管理的环境下,计算资源是无序共享的,所有用户的任务都会直接竞争 GPU、CPU 和存储等资源。
例如,在一个 AI 研究团队共享 GPU 计算集群的情况下,某个开发者提交了长时间运行的训练任务,占用了大部分 GPU 资源,而其他开发者需要执行短时间的推理任务却无法获得可用算力,只能被迫等待。部分用户为了保证自己的任务优先运行,可能会提前抢占资源,而缺乏管理的环境下,管理员也无法干预,导致任务之间调度混乱,紧急计算需求难以满足。
乾坤鼎针对多单一算力集群支撑多租户AI业务场景,提供资源池管理与多租户管理能力,功能如下:支持将集群的节点灵活划分成不同的资源池;提供队列管理能力,超级管理员可为租户分配队列,分配算力资源(CPU、内存、算力、存储等),实现资源隔离和限制。
引入多租户和资源池管理后,算力资源可以被合理划分,不同团队或任务可以按需分配独立的资源池,确保任务公平运行,避免资源争抢。通过队列管理,任务会按照优先级高效调度,短任务不会因长任务的独占而被无限延迟,同时不同任务之间实现算力隔离,避免计算资源的干扰。管理员可以监控资源使用情况,调整配额,优化整体计算集群的利用率,提高系统的稳定性,同时降低运维成本,使 AI 计算更加高效和智能。
AI应用研发效率低-Notebook交互式建模/
可视化建模/任务式建模
AI应用的开发是个复杂长线流程,涉及数据准备、模型设计、训练、调优、部署等多个环节,每个环节都可能成为瓶颈。
具体表现:
1.缺乏标准化流程:正常流程是数据采集处理、模型选型训练调参数、部署推理监控运行情况。数据未进行充分探索处理就训练,数据质量差;模型未充分进行选型就训练,选取了不合适的模型;模型未进行充分训练收敛、调整合适的参数,模型未达到最佳状态。
场景描述:某团队用10万条电商评论训练情感分析模型,直接使用原始文本数据(未去重、未清洗标点符号和错别字)。
问题现象:训练耗时32小时(占用4张A100 GPU),但模型测试准确率仅68%。数据分析发现:15%的评论重复(如用户多次提交相同内容),20%的评论含无意义符号(如“好评!!!!!!”)。
2.工具链不完善:【有了流程还不够,需要能提升效率的工具链】:代码、运行环境、数据、中间结果、模型、日志等资产四处分散,需要手动进行搭环境、拷贝数据、跑训练查日志、部署监控等辗转多个系统、服务器。
场景描述:某团队训练广告点击率预测模型,数据分散在多个存储系统中:原始日志存储在HDFS(路径:/user/logs/2023/*.parquet) 清洗后数据存于本地NAS(路径:/mnt/nas/processed/) 特征工程代码输出到个人笔记本(路径:~/Downloads/features/)
问题现象:数据搬运耗时:每次训练需从HDFS下载数据 → 清洗后上传NAS → 手动同步到本地,单次耗时2小时。
版本混乱:因未标记数据版本,某次训练误用3个月前旧特征,导致模型AUC下降12%。
3.模型调优困难:超参数调优和模型选择需要反复试验,耗时长。模型开发与测试缺乏规范等。有了工具链,需要能可视化、加速训练的能力,输出可视化中间结果、分布式训练缩短每次验证方案的周期。
1.乾坤鼎-AI应用研发集成解决方案
Notebook交互式建模平台
Jupyter Notebook提供在线开发训练能力,支持挂载数据集、模型等。支持使用vgpu进行训练,训练后模型可一键保存至模型库进行推理,为用户提供一键式创建在线开发环境,实现基于算力集群进行在线开发训练,功能点如下:
l 支持在线开发,提供VSCode、Juypter NoteBook等多种开发环境;
l 支持基于主流算法框架Tensorflow等进行在线开发;
l 支持查看任务日志、事件;
l 支持将训练后的模型一键保存至模型库,进行推理部署;
可视化建模
乾坤鼎云原生AI一体化平台,提供可视化拖拉拽建模方式;工作流执行状态可视化,包括查看日志、查看数据、中间状态可视化等;供数据接入、数据处理、常用算法、数据输出等组件,支持将训练好的模型部署成服务进行使用。
它贯穿于数据探索、特征工程、模型训练、结果分析等阶段,帮助理解数据规律、优化模型和解释结果。乾坤鼎平台将提供可视化建模的训练模式,基于Argo流程引擎通过低代码方式快速构建AI应用。
任务式建模
任务式建模(Task-Driven Modeling) 是一种以具体业务目标为核心,将建模流程拆解为明确步骤,并针对任务需求定制数据、算法和评估方法的系统化建模方式。乾坤鼎平台针对训练任务,提供任务式建模能力,支持单机模式和分布式模式。
大模型应用落地难-大模型微调/评估/服务和在线体验
企业大模型将是大模型应用落地趋势,缺乏快速构建企业大模型的支撑工具。通用大模型缺乏对特定行业(如金融、医疗、制造)的深度理解,无法满足企业个性化需求。企业大模型的工具链建设不仅是技术问题,更是业务价值实现的桥梁。通过填补工具缺口,企业可以加速大模型落地,释放AI驱动的增长潜力。
1.乾坤鼎-大模型企业应用开发助手
大模型微调
支持基于预置大模型、已绑定数据集,一键创建微调任务,微调结束后支持一键保存模型至模型库。
大模型评估
模型训练完成后,为确认模型效果,支持对模型效果进行评估。
大模型服务和在线体验
支持将训练好的模型一键部署成在线服务,对外提供API调用服务。支持对部署好的模型服务进行体验。
乾坤鼎云原生AI一体化平台产品优势
l 一站式AI应用开发上线体验
打通AI开发全流程,包含数据管理、模型开发、模型训练到模型服务等功能。
l 降低AI开发门槛,提升开发效率
提供可视化拖拉拽方式进行模型开发,且提供TensorFlow、Pytorch等基础开发框架,有效降低使用门槛;提供开箱即用的开发环境,可直接进行在线开发,提升开发效率。
l AI资产共享与隔离
支持将模型、镜像、数据集进行共享,方便团队协同开发,提高AI资产的利用率,减少重复开发。
l 加速大模型落地应用
提供对通用大模型/行业大模型使用企业专业数据进行微调的能力,最终形成企业大模型,并支持一键部署,生成API供其他系统调用。
l 算力管理与优化
提供异构算力管理和高性能调度能力,加速模型训练和推理,并提供vGPU能力,提高资源利用率与计算效率。
应用场景
汽车
企业面临算力资源利用率低下,技术人员开发环境搭建成本高等问题,通过乾坤鼎云原生AI一体化平台完成算力管理、大模型训练与部署,实现智能驾驶、车载大模型、智能问答系统等。
金融
传统质检往往采用人力检查各网点视频,面临无法全面检查、效率低、滞后性等问题,通过乾坤鼎云原生AI一体化平台实现AI自动分析,做到全面检查、实时质检,快速识别风险行为,降低损失。
政府
政府行业中面临数据、算力资源、AI资产无法共享与重复建设等问题,通过对数据、算力、AI资产的统一接入与管理,提高公共服务的效率和质量,加强公共安全,优化政策方案和决策过程等。
教育
高校实验室承载着国内外各类基础实验研究,面临算力资源分散、实验数据在实验中心统一管理,无法下载使用、缺乏AI模型开发工具等问题。通过建设乾坤鼎云原生AI一体化平台,实现算力资源统一纳管、实验中心数据统一管理,并提供AI应用开发、训练、部署的全生命周期管理流程和工具,帮助师生完成实验研究。
安防
基于乾坤鼎云原生AI一体化平台,构建模型,实现异常行为分析、智能监控、安全预测和预警等,提高生产作业、公共场合的安全。
云原生AI一体化平台
开启AI开发的新时代
人工智能技术的快速发展为各行各业带来了前所未有的机遇,但同时也伴随着诸多挑战。算力管理效率低、AI应用研发效率低、AI资产利用率低、大模型应用落地难以及AI开发门槛高等问题,成为了制约AI技术规模化应用的瓶颈。
乾坤鼎云原生AI一体化平台的出现,为这些问题提供了全新的解决方案。通过异构算力的高效管理、GPU资源的细粒度共享与隔离、多集群的统一调度以及资源池化管理,平台显著提升了算力的利用效率,降低了企业的运营成本。同时,平台通过优化AI应用的开发流程,简化了数据准备、模型训练、调优和部署的复杂性,极大地提高了开发效率。此外,平台还通过促进AI资产的复用与共享,打破了数据孤岛,实现了算法和经验的沉淀与积累,进一步推动了AI技术的普及与应用。
更重要的是,乾坤鼎云原生AI一体化平台通过降低AI开发的技术门槛,使得更多非专业人员能够参与到AI技术的开发与应用中。无论是通过低代码/无代码工具,还是通过预训练模型和迁移学习,平台都为开发者提供了更加友好的开发环境,极大地缩短了从想法到落地的距离。
未来,随着云原生技术的不断演进,AI开发将变得更加高效、灵活和普惠。乾坤鼎云原生AI一体化平台将继续致力于推动AI技术的创新与落地,助力企业和社会实现智能化转型。正如一条“高速公路”,它将数据、算力、模型无缝连接,让AI技术的潜力得以充分释放,开启AI开发的新时代。