AI in WAF | 腾讯云网站管家 WAF AI 引擎实践

导语:互联网公司数据被窃取并在暗网兜售的事件屡见不鲜,已引起了人们对网络安全风险问题的热议,某些站点的 Shell 也直接被标价出售。黑客是利用哪些缺陷成功入侵并获取站点权限的?我们的网站防护真的安全吗?

你的网站资料或许正在暗网兜售

△ 某社交软件与暗网上的资料兜售截图
(图片来自互联网)

 

上方图片可能很多人在前段时间见过,也有很多人闻风进群,只是售卖者可能出于自身隐私问题退群了,但这并没有让这条信息售卖之路彻底断掉,毕竟金钱的诱惑摆在那里,最常见的资料兜售链条是攻击者入侵窃取数据,通过勒索或转卖数据进行获利。在资本逐利的背景下,黑客攻击行动呈现出了极大的耐性和组织性,在攻击手法上,黑客也更多的开始使用多种手段,比如:复杂攻击、未知威胁以及 0day 漏洞利用等,以绕过用户现有的网站防护措施。攻防对抗不对等的情况愈发明显,频繁爆发的大型站点数据泄露及站点安全事件也逐渐变得不足为奇。

 

 

WAF (Web Application Firewall) 是网站安全防护体系里最常用也最有效的防御手段之一,被广泛应用于 Web 业务及网站的安全防护中。我们知道,安全防护是一个体系化工作,单独部署 WAF 并不一定能防止安全事件的发生。但是如果核心防护 WAF 存在缺陷,只要黑客有足够的耐心,就一定能找到渗透防护体系的突破点。

 

一旦发生了网站入侵事件,问题自然而然追溯到安全团队,常见的问题是部署的 WAF 为什么没检测到入侵? 这本质上是一个 WAF 被绕过的问题。实际上,传统 WAF 的威胁检测判定的防护方式在面对黑客复杂 Web 攻击及 0day 威胁频发的形势下,越发显得捉襟见肘,已经无法有效检测并拦截攻击。

扫描二维码关注公众号,回复: 4760050 查看本文章

 

亟需变革的 Web 攻击检测技术

 

要保障 WAF 有效拦截黑客入侵,关键在于 Web 攻击检测的有效性。当前 WAF 的主流检测手段有基于规则和基于语义规则两种:

 

1、基于规则的 Web 攻击识别:

基于规则的 WAF,通过维护大量的已知攻击手法的特征规则,用特征规则匹配来检查目标流量中的攻击行为,这种方式简单有效,一直被沿用至今,随着攻击形势变化,目前突显出一些问题:

  • 积累的规则难以有效应对 0day 攻击:规则基于已知的攻击特征维护,对未知攻击及 0day 攻击则难以有效应对;
  • 僵化的规则难以应对灵活的黑客攻击手法:常见正则规则表达能力有限,黑客对攻击语句做编码、拼接等处理,可绕过防护;
  • 难以平衡的误判与漏判问题:太严格的规则容易误杀正常业务流量,造成误判。太松散的规则则容易被绕过,造成漏判。

基于规则的 WAF 本身并不对程序语义进行理解,攻击者也可以利用文本和程序语言的表达差别,设计绕过措施。

 

2、基于语义分析的 Web 攻击识别:

基于语义规则的原理是在理解程序本身语言规范基础上,通过匹配攻击特征检测 Web 攻击。其检测的前提是程序语言本身具备规则定义的语义规范,典型的应用是针对 SQL 数据库语言的 SQL 注入攻击,及针对 JS 语言的 XSS 攻击的攻击检测。基于语义规则的 WAF 大大提升了检出能力,是对规则检测缺陷的进一步探索,由于引擎具备对语义的理解能力,当黑客将攻击语句做回避式的变形时,能被语义分析引擎解析理解,行业中一些产品在实际应用中取得了比规则更好的检测能力。

△ 正则引擎与语义分析检测机制对比

 

 

用机器学习探索 Web 攻击检测新思路

 

基于语义分析的 WAF 将 Web 攻击检测技术推向了新的台阶,但防护仍然不具备对未知威胁的进化适应能力,处于被动应对攻击状态。如果能将“被动应对”变为“主动进化”,WAF 的防护能力可以进一步得到提升:

  • 获取威胁自学习能力:基于规则 WAF的检测能力通过安全专家编写,检测能力局限在安全专家维护的规则能力上,不能通过获取的威胁样本和攻击手法自行学习和训练;
  • 获取防护自进化能力:传统 WAF 在部分威胁响应上,只能采用人工添加黑白名单对 WAF 进行防护策略调整,而实际防护能力并未实际提升,缺乏防护自进化能力,本质上无法有效解决对未知威胁检测问题;
  • 获取业务自适应能力:传统 WAF 对所有用户采用通用的威胁检测规则库,而实际上每个用户的业务逻辑各不相同,业务表现方式各异,容易造成误判影响业务,同时,通用的规则防护也难以帮助业务各异的用户有效防护业务风险。

如果能通过AI学习经验数据,形成行为模型,然后对目标事件做出判断和预测,将使产品具备自学习、自进化、自适应的特性。将机器学习应用到 WAF 攻击检测中,理论上可以进一步提升当前传统 WAF 的能力,帮助企业安全团队从被动防护的困局中突破出来。

 

AI 应用于 Web 攻击检测需要解决的三个难题

 

相比其它领域,机器学习在 Web 攻击检测方向的落地应用发展明显滞后。这和 WAF 应用 AI 技术面临的诸多技术问题密切相关。

 

AI 技术小知识:

  • 有监督学习:用已知某种或某些特性的样本作为训练集,建立一个判定模型,再用已建立的模型来预测未知样本,此种方法称为有监督学习。特点:提前采用大量已标记的样本训练 AI 引擎,召回率高,误判率低。
  • 无监督学习:根据类别未知的样本解决模式识别中的各种问题,称之为无监督学习。特点:不需要提前标注样本训练 AI 引擎,通过大量数据学习自动实现分类,检出率高,漏判率低。

 

1)基于有监督的 AI 识别模式的“漏判”问题:

通过 Web 攻击样本建立数据标签,再采用有监督学习模式做出威胁检测与预测。这种方式的弊端在于,行业内存在 Web 攻击样本稀少、样本量级不足,简单通过攻击样本标签进行有监督的 AI 学习,可能会带来 AI 检测的“漏判”;

2)基于无监督的 AI 识别模式的“误判”问题:

基于“正常的载荷(流量)是类似的,异常有各自的异常”的原则,建立正常流量模型,不符合模型的流量都识别为恶意。然而“异常流量大部分并不是威胁”,将“异常流量”全部识别成攻击拦截是不可行的,会有大量的“误判”带来的误报;

3)AI 检测处理时间带来的“延迟”问题:

机器学习需要相对较长的处理时间,如相对复杂的算法理论上可以实现更加精准的识别,但是由于AI 检测的处理延迟将会严重影响业务性能,这也是 AI WAF 落地在线 Web 攻击检测必须解决的难题。

 

正是由于这些需要突破的技术问题,将 AI 技术应用到 WAF 领域在很长一段时间里,仅停留再理论研究或部分浅层面应用尝试。AI 技术在 WAF 行业中的应用也引起了“为 AI 而 AI”、“AI WAF 仅仅是噱头”的正义。

 

Gartner:严格评估 AI 带来的实际效益

Forrester:未见到真正的基于 AI 的 WAF

行业:每个 WAF 厂家都说自己有 AI 

 

那么腾讯云网站家 WAF 是如何实现技术突破?实际应用效果又如何呢?我们在下期一起探索 AI 引擎在 WAF 中的实际落地应用,并以 Demo 案例来展示腾讯云“AI in WAF”的创新成果,敬请关注。

猜你喜欢

转载自blog.csdn.net/qcloud_security/article/details/81297376