
关键指标必须覆盖网络、主机、应用和业务四个层面。网络层应监控带宽利用率、连接数、活跃会话、黑洞/清洗流量比;主机层关注CPU、内存、磁盘IO、文件句柄、进程列表与异常登录;应用层监控响应时间、错误率、请求率和会话崩溃率;业务层跟踪交易成功率、用户体验与关键业务SLA。
为每项指标设定动态阈值与历史基线;例如当带宽利用率超过80%且短时突增伴随连接数异常,标记为疑似流量攻击。对高防服务器特有指标,如清洗命中率、黑名单命中数也要纳入指标体系。
关键指标建议1分钟粒度采样,非关键指标可延长到5~15分钟;需要秒级响应的流量类指标可采用更高频率采样并结合流采样(sFlow/NetFlow)。
优先保证对流量、连接和错误率的即时告警,其次是资源瓶颈,最后是业务层面长期趋势分析。
实时检测DDoS既依赖流量采样与分析,也依赖行为基线与规则引擎。首先部署流量采集(NetFlow/sFlow、镜像端口)与DDoS防护设备或云端清洗服务,结合阈值、速率限制和行为特征(突发包率、单源并发、短连接比)实现检测。
当检测到攻击时,需自动化触发清洗或将流量切换到云端高防节点。策略包括按IP/端口黑白名单、协议分类(SYN/UDP/ICMP/HTTP)和分级流量限制。确保切换策略有回滚与验证步骤,避免误伤正常流量。
与上游运营商、云供应商和安全厂商建立预案与联动渠道,包含联系人列表与API调用权限,确保在攻击高峰时能快速扩展防护能力。
定期进行DDoS模拟演练,评估检测阈值、清洗规则及带宽扩容流程,基于演练结果调整IDS/IPS与WAF策略。
对运维团队来说,入侵检测要结合主机与网络两端:部署HIDS(如OSSEC、Wazuh)和NIDS(如Suricata),并开启文件完整性检测(FIM)、登录审计、多因子认证与异常行为分析(UEBA)。
监控SSH登录失败次数、非常规端口访问、异常进程启动、新增服务、二进制文件变更与计划任务(crontab/系统任务)修改。一旦发现可疑持久化手法(如修改rc.local、systemd单元、内核模块),立即隔离主机并触发应急响应。
通过监控内网扫描行为(短时间连接大量内网IP)、凭证滥用(多主机成功登录同一账号)、异常文件共享与数据访问频次,识别横向渗透并及时封堵相关账户与端口。
保持系统与第三方组件及时打补丁,实施配置基线管理(CIS基线),并对不符合基线的主机自动标记与修复。
日志是检测与取证的核心。建议统一采集主机日志、系统事件、安全日志、WAF/防火墙日志及网络流量日志到集中式日志平台(ELK/EFK、Splunk、Graylog),并做长周期归档与索引。
设定触发式日志等级,关键事件(登录失败、权限变更、异常请求)立即上报并保留至少1年,普通审计日志保留3~6个月。对跨境合规需考虑数据主权与加密存储。
通过SIEM规则关联登录事件、异常网络流量与WAF告警,实现疑似入侵链路的完整还原。定期进行威胁狩猎(Threat Hunting),基于IOC和TTP主动搜索潜伏威胁。
对关键日志实施写入不可篡改(WORM)或签名机制,确保审计证据可用于合规与法律取证。
告警策略要做到分级、去噪、并与SLA绑定。分级分为信息级、警告级、紧急级与致命级,不同等级配置不同的通知渠道(邮件、短信、电话、PagerDuty)与响应时间。
通过规则合并、抑制窗口与多条件触发降低误报。比如同一事件在短时间内重复出现应合并为一次告警并计数,避免告警风暴淹没值班人员。
制定基于场景的演练(DDoS、渗透、数据泄露),包含检测、升级、隔离、恢复四步骤,并模拟真实通信链路,记录响应时间与决策点以便复盘。
为每类告警制定SOP并指定责任人、替补与跨团队联动清单,确保在高峰期或节假日也能按流程处理。结合自动化脚本实现常见隔离与恢复操作,减少人为误操作。