深圳市万物云科技有限公司
2021.07-2026.02
系统工程师
负责公司云平台与SRE方向工作,覆盖阿里云、腾讯云、华为云、IDC机房、容器平台、监控日志、安全合规、成本治理和自动化工具建设,支撑业务系统稳定运行、资源高效交付和多云架构演进。
- 负责多云与IDC基础平台管理,维护 ECS、IDC服务器、VPC、交换机、负载均衡、EIP、CDN、对象存储、文件存储、消息队列、时序数据库等资源,保障基础设施高可用。
- 负责 ack/tke/cce 多云 Kubernetes 集群规划与日常运维,覆盖集群生命周期管理、节点扩缩容、版本升级、容器网络与存储配置、业务容器化改造和迁移支持。
- 建设统一监控与日志体系,整合多云监控、日志服务、Prometheus、Zabbix 等能力,提升故障发现、告警响应和日志分析效率。
- 负责 Linux/Windows 操作系统维护、补丁更新、故障排查和系统安全加固,推进安全基线、WAF策略、安全组规则、多云 IAM 子账号、命名规范、权限策略和访问合规管理,并结合等保二级、等保三级要求持续优化安全配置标准。
- 负责域名、SSL证书、ICP备案、网站备案、APP备案、公安备案等合规流程,并维护基于 BIND 的自建 DNS 服务,覆盖内部域名解析、业务解析配置、解析变更和故障排查,保障业务解析稳定与上线合规。
- 负责云资源治理、环境隔离与 FinOps 支撑,推动生产/非生产环境 VPC 隔离,规范资源命名、标签、资源组和分账口径,开展账单分析、资源包管理、闲置资源治理和成本数据跟进;参与 FinOps 平台和多云管理平台选型评估,完成多家厂商 POC 验证并输出适配结论。
- 使用 Python、Shell、Go 开发自动化工具,结合 Terraform、Ansible、Jenkins、GitLab CI、Helm 等工具优化资源交付、变更、备份恢复和发布流程。
- 支撑业务团队完成资源申请、环境配置、容量规划、性能监控、问题定位和应急处理,保障业务连续性。
业绩:
- 跨云迁移:主导核心业务系统从阿里云迁移至腾讯云和华为云,制定迁移方案、变更窗口、回滚计划、数据同步策略和灰度发布流程,保障迁移过程平稳可控,未发生重大业务故障。
- IDC迁移与资源重构:主导原托管机房设备迁移和新机房承载能力建设,完成旧服务器、存储、超融合设备搬迁,并负责新增48台服务器和一套超融合平台的选型、招标采购、上架和集群搭建,项目投入280万元+。
- 资源治理与标准化建设:围绕生产/非生产环境隔离、VPC 拆分、资源命名、标签、资源组、操作系统发行版、用户、磁盘、系统目录、内核参数、安全基线及等保二级/三级要求等场景,完善云资源、操作系统和信息安全标准化规范,提升资源管理一致性、环境边界清晰度和合规治理能力。
- 成本治理:通过账单分析、闲置资源治理、弹性伸缩、竞价实例、预付资源包、对象存储分层和生命周期管理等措施,持续优化云资源使用效率和成本结构。
深圳市点猫科技有限公司
2020.06-2021.06
高级业务运维工程师
- 负责 Linux、x86 服务器和虚拟化平台运维,覆盖 CentOS、Ubuntu 等系统环境,支撑业务运行环境稳定。
- 参与内部 CI/CD 平台维护和功能开发,打通 Phabricator、GitLab、Jenkins、Ansible、Groovy、Docker、Helm、Maven、Gradle 等工具链,覆盖代码评审、代码拉取、构建、打包、镜像制作、部署发布和回滚等交付场景,提升业务持续集成、持续部署和发布稳定性。
- 负责 Kubernetes、Docker 容器平台运维,支持业务发布、扩缩容、服务异常排查和容器化运行环境维护。
- 负责业务应用稳定性保障与可观测性建设,覆盖 CDN、Nginx、SLB 等接入层组件,Apollo、Eureka、XXL-JOB 等微服务公共组件,以及自建聚合短信平台,支撑业务访问链路、基础组件和消息触达链路稳定运行。
- 基于 Prometheus、日志仓库和告警平台建设指标监控、日志分析和告警响应能力,提升业务故障发现、问题定位和恢复效率。
- 负责阿里云、腾讯云等公有云平台运维,支撑业务系统资源交付、容量管理、稳定性保障和故障处理。
- 负责自建短信平台日常运营与维护,平台聚合5家以上短信供应商并提供发送冗余能力;负责供应商通道维护、短信发送异常处理、业务联调支持和模板配置管理,覆盖推广短信、验证码短信、通知类短信等多类型场景,保障短信发送链路可用性和业务触达稳定性。
- 负责 IT 资源成本管理与 FinOps 支撑,按月输出资源费用报表,覆盖阿里云、短信服务、七牛存储与 CDN、网宿 CDN、白山云 CDN、腾讯云 CDN 等资源账单,并负责费用核对、账单异常跟进和成本数据整理。
业绩:快速迭代与稳定运营支撑:在业务快速增长和高频发布场景下,参与 CI/CD 平台维护和功能开发,结合 Kubernetes、Docker、公有云、可观测性、自建聚合短信平台和 IT 资源成本管理,支撑业务快速迭代、稳定运行和关键链路持续可用。
顺丰科技有限公司
2009.09-2020.05
云计算SRE工程师 / 呼叫中心IT负责人
前期负责呼叫中心核心生产平台IT保障,后期转入基础云平台中心,参与集团级计算资源平台建设与运维。整体经历覆盖大规模操作系统、虚拟化、容器、高可用、自动化、标准化交付、容量规划、故障治理和业务连续性保障。
云计算SRE工程师(2017-2020)
所属部门:顺丰科技基础云平台中心云平台与计算服务部,参与企业级计算资源平台建设与运营,团队负责 Linux/Unix、VMware、KVM、OpenStack、Kubernetes、Mesos、公有云及私有云平台。
- 负责大规模 Linux/Unix 操作系统运维,参与10万+服务器运维管理,覆盖系统巡检、容量规划、故障分析、疑难问题处理和稳定性保障。
- 参与 VMware、KVM、OpenStack 等计算与虚拟化平台运维,支撑集团计算资源交付、运行维护、问题定位和一线技术支持。
- 参与 Kubernetes、Mesos 容器平台运维,以及公有云、私有云平台运营,保障业务计算资源稳定交付和平台连续运行。
- 负责 Oracle RAC、Data Guard、Pacemaker、Keepalived 等高可用平台运维,支撑核心系统容灾、故障切换和连续性保障。
- 参与自动化运维平台建设与维护,将系统初始化、资源交付、巡检、标准化配置等场景纳入自动化流程,提升交付效率和运维一致性。
- 参与集团操作系统标准化建设,制定操作系统基线规范,编写标准化初始化脚本,维护标准系统镜像,推动操作系统版本管理和服务器交付标准落地。
- 面向全国一线IT工程师提供技术赋能,覆盖操作系统、服务器、虚拟化平台技术咨询,协助处理快递分拣、本地服务器和现场生产环境复杂问题。
- 定期开展技术培训与经验分享,推动标准化方案在集团范围内落地,提升一线团队故障处理效率和运维标准统一性。
呼叫中心IT负责人(2009-2017)
负责顺丰呼叫中心核心生产平台IT保障,完整支撑客服规模从400+人增长至2800+人、办公终端扩展至2500+台的过程。围绕业务快速扩张,持续推进服务端运维、终端支持、网络通信、机房基础设施、监控告警、外包客服中心接入和风险治理,保障话务、电话下单、查询、投诉、客户资料维护等核心生产流程连续稳定运行。
- 负责呼叫中心服务端运维与升级发布、客户端使用支持、业务运行环境保障、业务故障排查与跨团队协调处理。
- 保障深圳95338客服电话下单、查询、投诉业务,以及丰巢、顺银、嘿客、顺丰商业客服、全国投诉热线83151111等核心客服业务连续运行。
- 负责 Linux、Windows、VMware ESXi、Oracle Data Guard、Nagios、Zabbix 等软件基础设施运维,保障呼叫中心生产平台服务端稳定运行。
- 负责服务器、存储、路由器、交换机、城域网、裸纤、电话交换机、数字中继、华为排队机等计算、存储、网络和通信资源运维。
- 负责机房基础设施运行保障,覆盖 UPS供电系统(2x160KVA、2x120KVA、2x30KVA)、650KW柴油发电机、环境监控系统和消防系统。
- 负责外包客服中心IT管理,参与10余家外包话务供应商IT能力评估,围绕基础架构、网络冗余、机房建设、UPS、环境监控、消防设施和信息安全执行等维度进行技术评估,最终支撑4家外包客服中心落地。
- 负责外包客服中心接入实施与运营保障,包括网络互联、数字中继对接、呼叫中心业务系统接入、日常运营检查、基础架构达标检查、信息安全执行检查和风险整改跟进,保障外包话务业务稳定运行。
业绩:
- 集团级计算资源平台支撑:参与顺丰企业级计算资源平台建设与运营,支撑 Linux/Unix、VMware、KVM、OpenStack、Kubernetes、Mesos、公有云及私有云等平台稳定运行,覆盖10万+服务器运维管理、容量规划、故障分析和疑难问题处理。
- 操作系统标准化与自动化交付:参与集团操作系统标准化建设,推动操作系统基线规范、标准化初始化脚本、标准系统镜像、版本管理和服务器交付标准落地,并参与自动化运维平台建设,提升服务器交付效率和运维一致性。
- 一线技术赋能与故障治理:面向全国一线IT工程师提供操作系统、服务器、虚拟化平台技术支持,协助处理快递分拣、本地服务器和现场生产环境复杂问题,推动标准化方案落地,提升一线团队故障处理效率。
- 呼叫中心规模化扩张保障:完整支撑顺丰呼叫中心客服规模从400+人增长至2800+人、办公终端扩展至2500+台的过程,保障95338、丰巢、顺银、嘿客、顺丰商业客服及全国投诉热线等核心客服业务连续稳定运行。
- 外包客服中心接入落地:参与10余家外包话务供应商IT能力评估,最终支撑4家外包客服中心落地,完成网络互联、数字中继、呼叫中心业务系统接入、基础架构达标检查、信息安全执行检查和运营风险整改跟进。