随着人工智能技术的快速发展,大模型已成为推动行业数字化转型的核心引擎。然而,大模型的训练与推理对算力、数据、平台支撑能力提出了极高的要求。因此,在大模型时代,企业如何高效利用算力资源、快速迭代模型并实现智能化应用落地,成为数字化转型的关键挑战。
谐云基于领先的云原生技术、深厚的算法模型积累和丰富落地经验,拥有并提供从算力管理到应用场景落地的全面大模型支撑能力,且在多场景下展现出强大的应用实力,助力企业在大模型时代实现技术突破与业务增长。
谐云大模型支撑能力优势概览
1.大模型微调:快速迭代,精准优化
DeepSeek、Qwen、LLama等通用模型在各类NLP任务中展现出强大的性能,然而,通用大模型在训练时学习了大量各行各业通用知识,但缺乏针对行业领域的专业化训练,导致模型在处理特定行业特定场景的问题和任务时可能出现性能不佳、效率低下等问题。
微调是指在大模型的基础上,针对特定行业特定场景进行小幅度的参数调整。通过微调,可以让模型更好地适应特定任务的数据分布,从而提高模型的性能和准确率。
谐云提供高效的大模型微调能力,支持企业根据自身业务场景快速优化模型。通过数据预处理、模型训练到微调优化的全流程支持,帮助企业降低模型训练成本,提升模型性能,实现从通用模型到行业专属模型的精准适配。
包括支持可视化快速创建大模型微调任务,避免繁琐的环境配置;提供多机多卡的模型微调能力,实现大规模数据场景下的模型微调提速;通过历史数据预测和动态扩缩容技术,平台能够避免资源浪费,确保模型训练的高效性、精准性与稳定性。
2.训推一体:无缝衔接,全自动管理
传统模式下,模型的训练与推理往往分离,导致资源浪费、效率低下以及运维复杂度高。训推一体化作为一种新兴的技术范式,旨在将训练与推理无缝衔接,实现从数据预处理、模型训练到在线推理的全流程自动化管理。这不仅能够显著提升模型迭代效率,还能降低运维成本,为大模型的应用落地提供强有力的支持。
谐云基于Notebook交互式建模为用户提供一键式创建在线开发环境,实现基于算力集群进行在线开发训练,提供交互式建模、可视化建模、任务式建模三种模型训练方式。并支持对训练后的模型进行评估,便于用户直观观察同一模型不同版本的效果。
同时,支持将模型、镜像部署为在线服务,提供模型服务的在线测试、其他系统调用等能力,即将训练好的模型一键部署为在线服务,提供模型在线服务的创建、停止、升级、重启、删除全生命周期管理。通过统一的平台支持,企业可以显著缩短模型迭代周期,降低运维复杂度,确保模型在高并发场景下的稳定运行。
3. 异构算力管理:高效管理,弹性扩展
据统计,截至2024年6月,我国算力规模已达246EFLOPS,智算领域同比增速超过65%。然而,算力资源的供需矛盾日益突出,尤其是面向人工智能和高性能计算的高端算力缺口巨大,算力资源的异构化特点也愈发显著。
谐云基于kubernetes框架以多集群方式管理计算资源,实现计算资源集中式管理。旗下异构算力管理平台通过资源池化技术,将分散的CPU、GPU、FPGA等异构算力资源整合为统一的资源池,支持按需分配与弹性扩展。实现异构甚至异地的AI、HPC等不同算力资源的管理与运营能力。且能快速适配国内外主流厂商的加速芯片,统一智能算力资源的分配与调度。
异构算力统一管理满足对外运营,可以像使用水电一样方便的使用算力中心的各种算力资源,实现计费计量;实现多租户的数据、资源隔离,满足用户可根据业务需求选择算力进行作业提交。
无论是通用计算、智算还是超算场景,谐云都能提供灵活的资源分配策略,最大化资源利用率,降低算力成本。
谐云大模型支撑能力版图
场景应用
目前,谐云的大模型支撑能力已赋能金融、能源、交通、高校等多领域,为客户提供了数据中心资源统一管理、AI一站式服务能力,提升资源利用率与AI场景建设能力。
国家级实验室数据中心超算资源管理
谐云为客户实现所有资源统一通过多云管理进行管理。多云管理平台是用户提交任务的统一入口,根据任务类型分发到对应资源池;资源池之间能实现动态的资源调配。
高校计算中心-异构资源管理平台
谐云为高校计算中心打造了异构资源管理平台,统一管理高校自有数据中心与来自各类运营商、云厂商等提供的资源,实现资源一站式管理与运营,提升用户体验。
某省级运营商融合算力云
谐云为集团构建的分布式算力云平台,实现整个集团内统一的资源管理与调度、应用部署、用户体验。自2022年12月开始,已部署金华,温州等6套生产集群,生产节点近200台,上线AI算力服务达50多个,集群均采用高可用部署。
政府联合谐云建设一体化算法平台
某政府针对算力资源、数据、行业算法模型等资源分散、无法高效利用等问题,联合谐云建设一体化算法平台,将数据资源、算力资源、算法组件统一纳管管理。谐云提供AI全链路服务,从数据标注-模型构建-模型训练-模型服务-服务应用的端到端服务,支持将数据、模型、算法等进行共享,提高资源复用能力。
----------------------------
大模型时代,谐云通过大模型微调、大模型服务、算力管理与调度等核心能力,构建了全面的大模型支撑能力版图。无论是金融、交通还是能源等行业,谐云都能为企业提供高效、可靠的解决方案,助力智能化转型与可持续发展。未来,谐云将继续以技术创新为驱动,共同推动人工智能技术的普及与应用,为行业的数字化转型注入新动能。