2024 KL 的年终总结 时间过得飞快,转眼便迎来了 2025 年。回想上一次写年终总结还是在 2023 年,那时正沉浸在疫情彻底告别后的自由感中,而今年则展现了另一番风景。回顾 2024 年,满满的收获萦绕心头。工作上迎来了显著变化,我加入了一个新项目【优化算法训练成本】,挑战虽多,却也让我在技术上实现了新的突破。开源方面,我继续深耕熟悉的领域;生活中,陪伴家人、享受点...
ClickHouse CPU 100%的问题排查与优化
背景 本文同步发布 OSC : https://my.oschina.net/klblog/blog/17901561 最近我们收到用户反馈,Sentry Web 无法正常刷数据,过一会儿又好了。经过初步排查,发现问题根源在于 ClickHouse 的 CPU 使用率居高不下,甚至达到了 100%,导致系统性能瓶颈。以下是我们对问题的详细分析、解决过程以及后续优化的总结,希望对遇到类似问题的团队有所帮助。 问题现象 从用户的反馈来看,Sentry Web 数据无法...
OpenTelemetry Collector 节点宕机场景下的排查与优化
前言 本文同步发布在 OSC : https://my.oschina.net/klblog/blog/17885767 OpenTelemetry Collector 是 OpenTelemetry 的核心组件,但在底层基础设施(如 Kubernetes 节点)故障时,可能暴露出阻塞或延迟问题。本文通过一次因 Sampling 服务节点宕机引发的故障,结合代码分析其原因,并提供临时和长期解决方案。 问题描述 一天,收到告警,OpenTelemetry 出现 Exporter Trace 异常的情况,具体表现为: OpenTelemetry Collect...
Redis 成本优化指南:45% 的成本节约
优化成果 2023 年,通过切换低成本的 Redis ESSD 实例、实施流量压缩方案、清理无效数据、治理实例 TTL、下线无用实例等措施,自研了 Redis 流量复制 流量放大、Redis 数据迁移、Redis 数据在线压缩 解压缩、Redis 数据定向清理 定向指定 TTL、Redis 扫描分析 Key 最后访问时间等工具辅助方案落地。实现 Redis 费用降本 46 万 / 月。 PS:文中所述 Redis , 均为阿里云的 Redis 相关产品。 优化措施 以下...
2023 KL的年终总结
接 : 《2020 KL的年终总结》 上一次写年总结还是在 2020 年,那会正是疫情爆发的一年,然后万万没想到,口罩一带就是 3年,已记不清什么时候才彻底和疫情拜拜。只记得有一天公司园区的围栏被拉走了,我漫无目的在在园区里乱走,享受自由。 回顾 新工作新挑战 是的,在接近年终快发年终奖的时间里,我闪辞了。可能很多人都有疑问,为什么不等拿完年终奖在走,为什么在凯京待...
记一次 golang 的 zstd 压缩、解压缩优化
问题背景 1、开发反馈 trs 的 stg 环境开启 zstd 解压缩后,内存有明显持续上涨趋势,最终导致 OOM 如图,内存频繁申请释放,当时分析导致 OOM 的原因是因为 stg 的 CPU 不够,导致 GC 不及时,调整 CPU 资源后确实 OOM 没有了。并未怀疑程序本身的性能问题 2、infra 同学发现 adx 的服务存在 zstd 压缩导致 CPU 资源消耗异常的问题,发现是压缩对象的 init 操作非常重导致。 问题分析 结合上面两...
Redis 流量复制、流量回放、流量镜像
背景 对 Redis 场景降本增效,涉及到将部分 Redis 实例迁移到类似社区 pika 这种支持 Redis 协议的基于 SSD 磁盘存储的项目(阿里云 Tair),降低存储成本。迁移过程需要进行性能验证,除了基本的选型压测之外,还必须对每个业务场景做全指令的性能覆盖,才能确保业务迁移的性能以及指令兼容稳定性。常规的做法是需要业务开发配合在工程里进行流量双发,或者小范围流量灰度。 以上...