岗位职责 1.负责分析云日志服务的控制面和数据面等架构设计,包括但不限于接入、缓存、通道、存储实现逻辑等,识别潜在的稳定性风险,提出优化方案; 2.推动日志服务面向高可用、弹性扩展方向演进,设计并实施容灾方案,包括多可用区部署、故障自动切换机制及弹性资源调度策略,确保服务 SLA 达标; 3.负责将共性问题或风险治理方案、工具推广到全链路系统,不断提升整体的研发效率和服务质量,并不断降低系统性风险。
岗位要求 1.熟悉云计算/云原生系统生态,对 Nginx 、Kafka 、Mysql 、Kubernetes 等系统有了解,有 ES/Prometheus/CK 等相关开源项目贡献或运维经验者优先; 2.熟练掌握 Golang 语言开发,具备 Rust, Python, Shell 等其他一种或多种语言开发经验; 3.熟练掌握常见的运维和可用性治理方法,有大型项目的架构设计和工程实践经验者优先,有大规模存储系统或云服务生产环境运维经验者优先; 4.熟悉云计算帐号、认证、授权、计费、安全等公共服务体系; 5.有大规模云平台稳定性治理案例者优先。
加分项 1.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。