1.
上线前与上线后必须核对的域名与DNS设置
1) 校验A记录/AAAA记录已指向新IP,TTL尽量在切换前降到300秒以缩短传播时间。
2) 核对反向DNS(PTR)与邮件服务器IP一致,避免导致SMTP拒收;示例:203.135.5.24 对应 PTR mail.hk-example.com。
3) 检查域名注册商锁(Registrar Lock)和WHOIS信息,避免被恶意转移;WHOIS更新时间应在24小时内确认。
4) 确认SPF、DKIM、DMARC记录都包含新IP或新的发信域中继,避免垃圾邮件判定。
5) 验证CDN回源设置已更新新IP,回源健康检查(HTTP 200、TLS握手)通过率≥99%。
6) 监控DNS解析时延,目标值:平均解析时间<50ms,最大不超过200ms(香港节点)。
2.
网络与路由监控(BGP、ISP链路与丢包率)
1) 对新IP做全网PING与MTR测试,记录延迟与丢包;目标:平均延迟<40ms,丢包率<0.5%。
2) 建立到主要ISP的带宽监控,阈值:上/下行使用率>70%发告警。
3) 监控TCP连接建立失败率(SYN-ACK比),若失败率>1%需排查防火墙或中间链路。
4) 配置BGP/路由可达性检测,若新增IP出现AS路径震荡,立即联系承载ISP。
5) 保存上线前后的MTR日志以便回滚或追责,建议保留90天。
6) 实时流量分析:异常峰值判断阈值设为瞬时流量>200Mbps或短时并发连接数>50000。
3.
主机与服务层面监控项(CPU/内存/磁盘/进程/端口)
1) CPU平均使用率阈值:单核均值>70%触发告警,连续5分钟。
2) 内存使用率>80%触发告警,并启用swap监控与OOM日志采集。
3) 磁盘使用率>80%发告警,监控iops与响应时间,目标磁盘延迟<20ms。
4) 关键进程(nginx、mysql、redis、sshd)存活检测,异常重启次数>3次/小时报警。
5) 端口健康检测(80/443/25/22),响应时间及证书到期监控(证书到期提前30天告警)。
6) 示例配置与状态表(用于展示新IP节点基础配置):
| 节点 | IP | CPU | 内存 | 磁盘 | 带宽 |
| hk-web-01 | 203.135.5.24 | 4 vCPU | 8 GB | 200 GB SSD | 1 Gbps |
| hk-db-01 | 203.135.5.25 | 8 vCPU | 32 GB | 1 TB NVMe | 1 Gbps |
| hk-cache-01 | 203.135.5.26 | 4 vCPU | 16 GB | 100 GB SSD | 500 Mbps |
| hk-mail-01 | 203.135.5.27 | 4 vCPU | 8 GB | 400 GB SSD | 500 Mbps |
4.
备份策略与恢复演练(本地、远端与快照)
1) 制定备份策略:全量备份每晚一次,增量备份每6小时一次,快照每4小时一次作为恢复点。
2) 备份存储分散:本地快照+异地备份(新加坡对象存储或AWS S3)、并启用加密传输。
3) 备份保留策略:最近7天的每小时增量、近30天每日全量、近365天按周保留快照(示例策略)。
4) 恢复演练至少每月一次,建议RTO<30分钟,RPO根据业务分级(站群重要站RPO<1小时)。
5) 记录备份吞吐量与窗口:示例:全量备份时间120分钟,数据量500GB,出站带宽峰值200Mbps。
6) 监控备份成功率与校验:每次备份完成后校验md5/sha256,成功率目标99.9%。
5.
安全与DDoS防护(边界防护、放大攻击与黑名单管理)
1) 在新IP上线同时配置防火墙白名单/黑名单策略,仅开放必要端口(22/80/443/25按需)。
2) 启用基于流量的DDoS阈值告警:比如SYN包速率>10000pps或流量>300Mbps立即触发自动清洗。
3) 与上游ISP/防护厂商确认新IP已加入清洗池,配置ACL和速率限制规则。
4) 部署WAF与行为分析规则,针对爬虫/扫描/暴力破解设置挑战页或限流。
5) 实时日志采集与异常连接分析:连接超时率、异常地理位置访问、同一IP短时请求数>1000次需封禁。
6) 案例:某香港站群在新IP上线后三小时遭到SYN flood峰值达到350 Mbps,启用ISP清洗后流量恢复正常并阻断了攻击源。
6.
监控告警与运维SOP(告警分级、值班与回滚步骤)
1) 建立告警分级:P0(服务中断)、P1(降级)、P2(性能问题)并定义响应时间:P0 5分钟内响应。
2) 值班轮班与联络链:值班表、电话/短信/企业微信三种通知方式并提供应急联系人。
3) 自动化脚本与Runbook:如接口检测失败时自动拉起进程、重载nginx配置、自动切换到备用IP或CDN回源。
4) 回滚步骤明确:DNS回滚、路由撤销、快照恢复、并记录每一步的时间与结果。
5) 真实案例回顾:2025-03某
香港站群在新IP切换时,因未及时更新PTR导致邮件被多家ISP拒收,按照SOP回滚DNS并恢复旧IP后60分钟内恢复95%邮件通道。
6) 事后复盘与监控仪表板:保存事件日志、MTR、抓包与备份记录,生成问题分析报告并在14天内完成改进项。