降本增效,某新能源车企平台工程和FinOps案例介绍

发表时间:2024-06-03 14:28
随着科技的发展和环保观念的增强,新能源汽车发展迅速,成为汽车产业的重要发展方向。新能源车企既具有高端制造的复杂工艺、供应链管理,又带有互联网企业的海量终端(汽车)、海量数据、高并发,还有类似AI企业的大量算力使用。在这样一个既要又要还要的行业,其IT系统的规模、复杂度、高效性,必然有着极大的挑战,也是企业的核心。

项 目 背

本文将介绍某新能源车企,通过骞云平台,统一管理云上云下的海量资源,实现降本增效的案例。此案例客户是全球布局的新能源车企,目前该客户已经使用的云有阿里云公有云、AWS、国内两个城市数据中心的两种私有云,以及欧洲两个城市数据中心的私有云。所有这些国内外的混合云,共同构成了此新能源车企的IT基础设施。
经调研和分析,该新能源车企面临的核心问题包括以下几点:

一、整个IT资源分布在多云多数据中心,数据统计分析难

因当前企业内,IT服务资源分布在不同的数据中心,资源统计存在明显困难,需要每月安排运维同事拉取各个云平台数据更新在本地,数据更新周期长、时效低,无法实时掌控维护资源分布情况和整个IT服务、部门、业务系统的资源增长趋势,缺乏全局IT服务中心视角。

二、运维主要依赖手工,负担大、运维效率低

当前企业内云平台及资源管理由基础设施云平台团队统一进行管理,因企业业务场景需求,云平台分布在公有云、私有云和多数据中心中,其中私有云平台分布在杭州、武汉、法兰克福、伦敦等私有数据中心,公有云中存在阿里云、AWS云,且同时存在多个云账号,割裂的多套laaS/PaaS等平台资源管理给运维管理带来很大负担。日常运维过程中,运维管理员需登录到不同的云平台、云账号管理、创建现有资源,运维管理日渐复杂繁琐,急需一个系统来统一多个云平台,并提供日常的运维自动化能力。

三、资源交付依赖人工处理,平均交付周期长达2至5天

该新能源汽车企业当前资源交付运维均通过飞书平台申请,再由运维管理员人工线下处理,导致资源交付周期长,效率低下。伴随着企业内部业务量增长,交付效率问题更加突出,人工操作无法满足企业日常IT服务需求,交付效率问题亟待解决,急需建立统一自服务管理平台,减少资源理人员重复机械操作,提高资源交付效率。

四、服务申请和变更流程繁琐、种类繁多,缺乏标准化和结构化

用户通过飞书申请,经理和运维人员在飞书审批,但信息都是非结构化的描述,存在随意性,缺乏标准化服务体系,大部分需通过线下沟通补充完善,导致沟通周期长,效率低。

五、管理孤岛问题日益突出

客户已经建设了不少运维工具,包括飞书、堡垒机等系统。目前各个系统间相对独立,依赖人工将过程打通,比如在虚拟机创建完后,需要人工注册堡垒机等一系列任务,费时费力。

六、云成本持续上升,资源浪费问题屡见不鲜

当前企业内IT投入云成本失控,没有有效工具追踪云资源的使用情况和相关成本,导致大部分项目支出超过规划预算;同时没有统一平台工具监控资源利用率,运维管理员无法发现资源浪费或资源分配不均的问题,导致某些服务分配了过多的资源而未被充分利用,资源使用率低效同时难以优化。另外无法培养员工对云成本的意识,业务员工在使用云资源时缺乏成本控制意识,对业务系统资源使用率、费用成本无法直观查看数据,从而增加了不必要的支出。
以上这些问题减缓了客户的数字化进程,需要一个统一的平台,提供完整的解决方案。

项 目 整 体 建 设 方 案

为解决该客户的问题,骞云科技针对目前客户的多云基础架构,建设了一体化的IT运维和服务平台,覆盖多云管理的各个方面,最终实现对AWS、阿里公有云、百度私有云、阿里私有云的统一纳管,实现各资源服务的自服务全生命周期管理,为其各单位部门提供网络、计算、存储、安全和监控的专业运维服务,达到资源统一调度、集中运维的目的,最终将多朵云整合为一朵云,并通过FinOps建立整套费用运营及管控体系,加强成本管控的同时大幅提升资源使用率。下图是骞云多云管理平台在此项目的整体架构图。

图片

骞云平台建设的核心内容如下:

一、多云纳管,建设统一资产台账

项目对接现有多个数据中心和多个云,将不同云平台通过资源池进行逻辑抽象,以实现资源的细分、配额、优先级等资源池能力。项目纳管了虚拟化、私有云、公有云、容器云和PaaS应用,总共资源数量接近8000VM和RDS等资源。通过平台统一纳管云资源,运维管理员可以在一个系统,查看、分析、操作各种云资源,避免在运维过程中登录到不同云平台操作,大大提高了运维人员的工作效率。

二、标准化、自动化的统一服务目录

项目设计和实现了统一的云服务目录,集中提供各个云平台的IaaS、PaaS云服务,业务人员通过骞云平台,按照业务需求提交资源申请。在业务领导及基础设施领导审批通过后,骞云平台将自动化部署资源。

目前构建的标准化服务目录共48个,包括:基础计算Linux、Windows、对象存储服务、阿里云SLB、阿里云MySQL、阿里云Redis、阿里云Mongodb、阿里云PostgreSQL、AWS云S3和AWS云MySQL等集群服务目录。

统一云服务门户基于基础设施及代码(IaC)能力,实现了端到端的资源自动化编排能力,可实现应用所需的多个节点的基础设施(计算、网络和存储等)和基础软件(数据库、中间件等)环境的端到端一键自动化部署,最大限度地降低手工操作,减少跨部门的工单流转,标准化、规范化基础软硬件安装配置,从而提高整个IT的敏捷性。

三、建设完整的面向研发人员的自服务,初步建立平台工程体系

有了标准的服务目录,通过骞云平台,客户的研发人员可以直接申请各种云服务,查询审批状态,查看可视化部署过程,日常运维操作、资源变更、监控告警、资源续租或回收资源等。帮助业务部门的用户真正体验全面的一朵云服务,并减少运维管理员简单重复劳动。
在此项目,我们在以下两个方面优化了面向研发人员的自服务场景:
1. 以研发人员的视角,简化申请参数。资源申请时候的网络选择、规格选择等都需要大量的运维知识和客户的网络规划等,这些都是研发人员不能理解的运维专业知识。通过骞云平台的云中立,减少多个云之间的差异化内容,通过资源动态规划,研发人员只需要选择场景标签,具体的技术参数都由编排引擎根据资源策略动态选择。
2. 不同的场景,不同的申请审批流程,尽量下发权限。根据开发,测试和生产环境,可以配置不同的审批流程,做到千人千面的IT服务。
图片

四、通过FinOps能力实现精细化运营

目前该车企的各个业务团队对云资源成本缺乏意识,存在一定的资源浪费,每年公有云开支增长快于业务成长。为降低成本,提高资源利用率,需要让业务团队清晰地了解项目成本,形成IT成本预算制度,并不断提升资源的利用率。为此,本项目进行了以下几个方面的建设:
1. 面向运维人员的资源和容量分析能力
使运维管理员能对云平台纳管的资源池进行统一的可视化管理,及时掌握总体资源概览、各部门和项目已使用资源和可使用资源配额、资源申请回收趋势等。基于对资源的精细化管理,进一步提供资源计费及容量趋势分析等各类报表。
2. 建立细化的成本分析能力,面向各相关角色提供成本数据和分析
建立完整费用分摊规则,每天拉取阿里公有云、AWS云费用账单,照资源归属、产品类型、资源标签等计费规则,分摊到对应业务系统、部门,将硬件成本、机房托管成本等费用按照规则分摊到计算、存储、网络服务的定价中。按照部门、应用系统、云平台、费用类型等维度对整体费用进行统计分析,帮助领导层、采购、财务人员了解企业内资源分布情况、费用使用趋势等详细数据。
3. 完善业务系统、部门费用预算制
业务系统管理员、部门管理员每年度向财务申请本年度项目及部门预算费用,在骞云平台中针对业务部门设定费用预算,业务系统人员可在预算范围内申请资源,超过预算则需提交预算新增申请。通过流程管控部门费用管理方式,帮忙企业建立IT投入控制机制。
4. 多种手段持续提升资源使用率
通过资源的自服务和完整的配置信息,确保资源有出有回。制定资源合规策略,通过合规检查每天扫描资源使用率,结合业务系统实际情况进行资源回收。并对每个业务系统出具资源使用率合规情况,制定资源降低配置或回收的计划,提高资源使用率,降低资源规模,减少IT成本。
通过骞云平台的FinOps精细化运营,促进了业务部门更加积极地参与到资源的选择和使用中,从而实现了资源的最优配置和成本的最大化利用。

五、打通管理孤岛,实现多平台高效整合

在该项目,骞云平台与客户现有的飞书、堡垒机、大数据系统围绕业务场景进行深度流程和数据集成,解决了过去系统割裂、数据依赖人工整合的问题,提升了企业的管理能力。具体实现效果如下:
1. 与飞书平台对接,集成飞书审批功能。当用户在骞云平台提交资源申请时,平台将用户提交的资源信息推送到飞书审批卡片,审批领导可在飞书中审批,审批结果自动反馈到骞云平台,增加移动办公带来便利体验。
2. 虚拟机创建后,骞云平台会自动在堡垒机上注册资源。用户在骞云平台上删除虚拟机后,资源也将自动在堡垒机上删除。对服务器的桌面访问也通过骞云平台直接操作,两个系统无缝衔接。
3. 与大数据系统对接实现数据交付,将骞云平台云资源数据、计费账单推送到大数据平台,形成统一数据管理,便于二次数据加工。

价 值 收 益

通过使用骞云多云管理平台,该新能源车企实现了混合云资源的统一运维体系,统一服务体系,建设了整体的面向研发团队的平台工程和FinOps体系,获得了如下的价值收益:

一、统一入口管理多个私有云和多个公有云,通过自动化减少大量日常运维人工操作

通过对异构资源的统一纳管,完美地解决了割裂的多数据中心/多云平台管理问题,避免运维人员多平台的繁琐操作,大大提高了运维人员的工作效率。实现资源的全生命周期管理,运维人员通过平台即可实现对底层资源的创建、变更、监控、回收等运维操作,提高资源交付效率。资源交付从原来的一周缩短至15分钟左右。

二、加强IT资源与集团业务的关联

通过云管平台实现了底层云平台与组织架构的关联,从而实现按组织架构对资源的管理要求。落地资源管理标准化要求;落地资源定期回收要求;落地部门间计费要求;实现IT部门由传统运维向服务化部门的转变。

三、建设高效的自服务体验,极大提升交付效率

以应用市场方式对外提供服务,业务用户可通过服务门户申请服务,不需要运维人员参与,解放人员生产力,将运维人员从重复劳动中解放出来,在原有团队人数不变的情况下,满足了资源交付数量翻倍的需求。

四、初步建立FinOps能力,规范资源使用,提高资源使用率,降低成本

实现所有资源使用可追踪,可追溯,通过资源使用期限、资源使用率监控及空闲资源提醒等机制,建立资源使用规范。

五、加速创新与变革

通过技术和管理模式的创新、资源交付模式的变革、成本管理模式的优化、运营方式的转变,实现了资源管理集中、成本管理集中、运营管理集中。
骞云平台遵循平台工程思想,构建了标准化服务目录,为该新能源车企提供了网络、计算、存储、安全和监控的自动化运维服务,打通了多个不同的工具和流程管理系统,打破管理孤岛,实现数据的互通和共享,让资源创建和变更的流程将变得更加协调和高效。同时,通过现代化的FinOps落地,大幅提高了云资源的使用效率并显著降低了云成本,实现了新能源车企的资源管理集中、成本管理集中、运营管理集中,推动了业务创新,提升了企业的数字化水平。


 
 
 联系方式
咨询电话:400-669-7728