1. 运维总体架构与目标
1) 目标:实现美国与香港站群日志统一采集、索引与审计,支持7x24监控与溯源。
2) 部署思路:边缘采集 + 中心索引 + 可视化告警。采集节点部署Filebeat/rsyslog,集中至ELK/Opensearch集群。
3) 可用性:ES集群采用3主1冷,跨可用区容灾;Kibana多实例负载。
4) 安全性:传输加密(TLS1.2+)、鉴权(API Key/证书)与网段白名单。
5) 合规性:日志留存策略90天热存、365天冷归档(s3/对象存储加密)。
2. 采集与传输实现细节
1) 采集工具:Filebeat 7.10、Auditbeat、Packetbeat 分工明确,采集Nginx/系统/网络事件。
2) 传输策略:HTTPs对接Logstash或直接到ES/Ingest节点,启用压缩与批量发送以节省带宽。
3) 带宽预算:示例计算:单站群日均日志120GB,压缩后约36GB,峰值并发需保证50Mbps上行。
4) 本地缓存:Filebeat设置queue.mem.limit_size: 500MB与队列文件备份,断网不丢失。
5) 安全传输:tls.certificate_authorities与client auth强制双向证书。
3. 存储与索引规划(含表格示例)
1) 分索引策略:按天分索引:sites-YYYY.MM.DD,热点数据热节点,冷数据迁移到对象存储。
2) ES规格示例:3节点数据节点,16核/64GB内存,堆内存分配16GB(ES_HEAP_SIZE)。
3) 日志量与索引速率表(示例):
| 站点 | 日志/日(GB) | 索引量/日(GB) | 保留(天) |
| 美国节点 | 120 | 40 | 90 |
| 香港节点 | 80 | 25 | 90 |
4) 存储预算:索引速率65GB/day,热Tier 90天约5.85TB,考虑副本与碎片化,实际需求约12TB。
5) 背景迁移:冷存储使用S3/OBS+快照策略,月度归档并加密。
4. 安全审计策略与检测规则
1) 审计点:登录失败、配置变更、异常流量峰值、疑似爬虫/暴力破解事件。
2) 检测引擎:Kibana Alerting + Elastalert/Watcher 做规则告警并触发自动化脚本。
3) 规则示例:连续30次401来自同一/8网段,触发自动封禁并上报工单。
4) 审计日志:启用auditd对/etc/nginx与/var/www变更做文件级审计,auditctl规则示例如:auditctl -w /etc/nginx/nginx.conf -p wa -k nginx_conf。
5) 告警联动:与WAF/防火墙(Cloudflare/硬件)接口调用,实现IP冻结与流量分流。
5. DDoS防御与CDN协同
1) 多层防御:边缘CDN+云防护+回源限流,优先由Cloudflare/Alibaba CDN吸收大流量。
2) 策略示例:当每秒连接数>2000且回源带宽>500Mbps,自动切换到“仅缓存”模式。
3) 日志用于溯源:通过日志聚合发现攻击签名(UA/URI频率),并推送WAF规则。
4) 真实案例:
香港站群遭到UDP放大攻击时,CDN吸收98%流量,回源仅承受12%峰值,日志显示源IP集中于若干ASN,后续封禁降低了99%恶意请求。
5) 备份带路:部署备份公网出口(不同ISP)与BGP策略降低单点故障风险。
6. 真实案例与运维演练
1) 案例背景:某电商站群(US+HK)在促销期遭遇账号暴力登录与刷单流量。
2) 配置:US主机配置示例:Ubuntu20.04,8核/32GB,NVMe 1TB,nginx+php-fpm;HK边缘为4核/16GB,VPS。
3) 处置过程:日志显示异常登录IP集中在5个/16网段;通过ELK聚合与IP地理映射,生成封禁列表并下发firewall。
4) 结果:自动化封禁后24小时内登录失败率下降84%,业务在线率维持在99.95%。
5) 复盘:增加了更严格的rate-limit规则、二次验证并优化日志保留与索引策略以支持后续审计。
来源:从运维角度看美国香港站群服务器日志集中管理与安全审计方案