快速点位排查问题的方法

开源代码
2025-09-04 22:00:02

一、核心思路：缩小问题范围 1. 分治法（Divide and Conquer）原理：将复杂系统拆分为独立模块，逐层验证。示例：网络问题：检查客户端 → 本地网络 → 服务器 → 数据库。代码问题：注释代码块 → 逐步启用，定位异常代码段。 2. 排除法（Elimination）原理：通过禁用/替换组件，确认问题源。示例：服务器负载高：停用非核心服务，观察负载变化。依赖冲突：移除可疑依赖库，验证功能恢复。

二、快速定位工具 1. 日志分析

关键命令：

# 实时追踪日志 tail -f /var/log/nginx/error.log # 按时间过滤（如最近5分钟） grep "$(date -d '5 minutes ago' '+%Y-%m-%d %H:%M')" app.log # 按错误级别过滤 awk '/ERROR/ || /WARN/' system.log #按类名过滤和错误级别 awk '/ERROR/ || /FinFreightReceivableItemServiceImpl/' fin.log > fin20.log

2. 监控工具系统级： top / htop：实时进程资源占用。iotop：磁盘 I/O 监控。nethogs：网络流量追踪。服务级： Prometheus + Grafana：指标可视化。APM 工具（如 SkyWalking、New Relic）：代码级性能分析。 3. 网络诊断

连通性：

traceroute 8.8.8.8 # 路由追踪 mtr 8.8.8.8 # 持续网络质量监测

端口与服务：

netstat -tuln | grep 3306 # 检查端口监听状态 telnet mysql_server 3306 # 测试端口可达性

三、高频问题检查点 1. 资源瓶颈 CPU：us（用户进程）高 → 代码逻辑问题；sy（系统调用）高 → 内核或 I/O 瓶颈。内存：free -h 观察 available，警惕 OOM Killer 日志。磁盘：df -h 检查容量，iostat -x 1 看 %util（使用率）和 await（响应时间）。 2. 配置错误常见陷阱：防火墙规则（iptables / firewalld）。文件权限（ls -l 检查用户/组）。配置文件格式（如 YAML 缩进、JSON 括号匹配）。 3. 依赖服务检查链：数据库连接池是否耗尽（SHOW PROCESSLIST）。缓存服务（Redis/Memcached）是否超时或内存不足。第三方 API 的限流或认证失败（抓包工具 tcpdump / Wireshark）。

四、高级技巧 1. 最小化复现

步骤：

剥离生产环境数据，构造测试用例。在简化环境中复现问题（如 Docker 容器）。 # 快速启动一个干净的测试环境 docker run -it --rm alpine:latest sh 2. 时间轴比对方法：对比故障前后系统变更（如 git diff、rpm -qa --last）。检查定时任务（crontab -l）或日志轮转配置。 3. 假设驱动法流程：列出所有可能原因（如磁盘满、内存泄漏、代码 Bug）。按概率排序，逐一验证或反证。

五、自动化辅助 1. 脚本化检查 # 快速检查系统健康状态 check_health() { echo "CPU Load: $(uptime)" echo "Memory: $(free -h | awk '/Mem/{print $4}') free" echo "Disk: $(df -h / | awk 'NR==2{print $5}') used" } check_health 2. 故障注入（Chaos Engineering）工具：Chaos Monkey、kube-monkey。场景：模拟网络延迟、服务宕机，验证系统容错能力。

六、经典问题速查表

现象

优先检查点

服务无响应

端口监听、进程存活、防火墙

请求超时

网络延迟、DNS、后端依赖服务

磁盘空间不足

日志文件、临时文件、Core Dump

内存泄漏

pmap

valgrind