在第四次工业革命的大背景下,以数字技术为核心驱动的数智模式正深刻改变着人类的生产和生活方式。各国均积极关注数据中心产业发展,市场规模不断扩大。在国内的“新基建”和“十四五”规划中也提出了数字中国和“东数西算”的建设目标,数据中心的规模快速增长,低碳高质、协同发展的格局已快速形成。 随着近期ChatGPT和大模型的爆发,使得大规模底层AI算力中心建设成为了AI发展的重中之重。有人说iPhone开启了移动互联网时代,当下AI算力的“iPhone时刻”也已到来,生成式AI不仅融合了云、边、端的算力,而且在未来10年内其算力能力也必将呈现几何式的爆发增长。 “东数西算”、“智算中心”、“大模型”等新兴技术的发展,都在推动着算力运营和运维的快速发展。本文着重介绍骞云科技自研的算力运营运维平台的先进理念和主要模块。 随着AI算力的飞速发展,算力资源已成为推动社会进步的重要力量,我们认为作为卓越的算力服务平台应当具有“算力编排”、“平台工程化思想”、并能实现“算力的全生命周期管理”、通过抽象建模“实现异构算力的池化”以及“一切皆服务(XaaS)”的理念;
算力商品化:当我们面对海量异构算力资源时,首先需要通过统一的资源抽象模型(组件化),实现异构算力统一标准、统一标识和算力抽象。根据统一资源抽象模型,完成算力资源商品统一建模,进而提升算力资源的动态管理和规范,便于算力供应商或者使用者能够通过统一使用关系来更好地利用算力,提升算力的综合使用率。算力商品化是算力平台规划的基础和基座;
算力服务编排:算力服务不再是传统的简单云网组合服务,而是需要通过算、网、数、智等多原子组件的灵活组合,实现多要素深度融合的一体化服务。算力服务模式逐渐从“资源式”向“网络一体化”、“算力一体化”、“应用一体化”转变,最终提供给用户智能、极简、无感的算网服务;
平台工程化思想:通过引入云架构及平台化思想,算力平台应当建立创新、敏捷的数字化生态环境,驱动并引领算力服务的创新发展;
算力全生命周期管理:当租户在申请、使用、计费、回收算力资源和服务时,租户需要能具有对算力全生命周期的管理能力:包括算力资源的自治、按需使用和计费、有出有回,实现算力资源的高效闭环管理,优化算力使用效率,减少能源消耗;
异构算力池化:算力平台应具有将底层数据中心的异构算力资源进行抽象建模的能力,并可以按照分区或队列实现资源池化。调度中心就可以在面对不同数据中心、不同架构的算力资源时,通过统一的资源池模型实现自动化、智能化的算力资源管理和调度;
一切皆服务(XaaS):用XaaS理念实现串联、跟踪服务所需的所有人工、自动化操作和安全控制,最终完成对外服务的管理闭环;为租户提供更完善的算力服务平台;
根据上述的平台设计理念,骞云科技自主研发的算力运营运维管理平台,实现了对专有数据中心和公有云平台从裸金属,网格计算到多云IAAS/PAAS等算力资源的统一纳管,实现了从基层的算力资源及标准云资源池的统一管理。平台的核心模块如下: 并在上层建立了统一算力运维运营平台,它包括云超市、统一运营管理、统一调度管理、统一运维管理来提供对智算算力调度,存储算力调度和数据算力调度等几大模块;- 云超市:云超市实现了对底层不同算力平台进行统一建模并实现全生命周期算力的监测、管理与部署调度等基本功能。为租户提供了各种面向算力资源的权限和角色管理,为租户提供算力全生命周期的自助服务。同时面向算力供应商提供了算力商品的接入、集成、发布和维护的框架,实现了不同供应商之间的算力商品组件的统一算力标识和资源抽象。为管理员提供了算力商品上架所需的审核框架,保证上架商品都经过合规审批并都是可信任的算力类商品;
- 统一运营管理中心:统一管理中心包括了商城管理、商品管理、订单管理、租户管理、数据中心管理、资源池管理、支付管理、报表管理、计量计费、权限管理、仪表盘和大屏分析等多个功能模块,帮助租户实现了算力资源的精细化管理。实现了算力资源的自助化流程管控以及费用管理、权限管理、报表统计等常用功能。并可根据各租户的算力资源实时使用情况,提供统计、分析、预测、告警、报告并实现智能决策辅助,实现了算力资源和服务的运营管理统一。并为管理员提供全局的系统配置管理功能,帮助管理员有效地配置门户界面、组织管理、权限管理以及安全审计等功能。统一运营中心作为运营运维平台的核心部分是算力运营运维平台高效运营的重要保障;
- 统一调度管理中心:调度中心是云计算平台中的关键组件,用于管理和分配资源,以满足租户对资源的需求。调度中心提供了资源调度、任务管理、监控和负载均衡等功能,对于算力运营运维平台的稳定性和可靠性至关重要。调度中心包括资源调度和任务管理。资源调度是指调度中心对各种算力资源的调度和管理,包括计算资源、存储资源、网络资源等,以保证平台的高效和稳定。任务管理是指调度中心对任务的管理和调度,包括任务的提交、分配、执行和监控等,还包括了资源的管理、先进的调度算法和高效的任务调度实现。特别是调度中心内预置了主流的先进算法,包括基于规则的调度算法、遗传算法、蚁群算法、贪心算法等,以实现资源调度的最优。任务调度是调度中心对任务的调度和管理,包括任务的调度策略、任务优先级排序、任务预处理等;调度管理中心在平台中起到了至关重要的作用,是保证整个平台高效、稳定和可靠的重要组件;
- 统一运维管理:它不仅提供了基础的算力资源运维和管理的能力,同时为平台管理员提供了服务编排、流程编排和工单设计的能力。例如:算力资源的启停、监控、变更(调整规格、增加磁盘、快照等)、回收等。通过一体化平台的建设实现对算力资源的监控,进而提供集成统一的分析、查询、报告和展示,实现算力资源的统一监控管理、自动化运维管理、全生命周期的资产管理、安全合规、流程管理等功能,帮助算力中心运维管理团队快速、准确、便捷的定位问题,直观快速地诊断和分析问题,将运维模式从被动支持提升到主动管理;
- 底层算力聚合管理基座:平台基座主要包括了管控平台、作业平台、配置平台、调度平台、低代码平台和异构算力平台统一管理等模块;通过算力融合引擎,可以快速接入多数据中心、多种异构算力资源供应商;
当AI算力资源越来越为各企业所重视,算力的运营和运维体系建设势必成为关键点。骞云算力运营运维平台,不仅能有效提升算力使用效率,实现算力的服务费,费用化,推动数字经济的发展,从而赋能各行业在大模型时代实现数字化转型和AI升级。