【安全告警分析之道：三】异常处理篇

【安全告警分析之道：三】异常处理篇

2024-10-31 18:10

一、引言

【安全告警分析之道：三】异常处理篇

“攻击是异常，异常不一定是攻击”，安全领域大部分的误报都可以用这句话来解释，这也是安全领域异常检测、UEBA等方法无法完全落地的重要原因，随着互联网用户网络行为的复杂化，企业业务、架构的快速更迭，海量的异常行为对于真实攻击的检测造成了巨大干扰。本期文章我们将浅析这些异常，并以内网横向移动为例，介绍一种处理这些异常找到真实攻击的方法。

二、异常的构成

2.1统计数据

在企业内部网络中，业务复杂、用户行为复杂，这些复杂的网络活动造成大量所谓的“异常”事件，其实何为“异常”在安全领域往往很难界定，异常事件的定义往往随场景、业务甚至人的理解而发生变化，在此，我们不对“异常”的定义做深究，仅以最直观的方式来理解异常：偏离正常活动的事件为异常事件。换句话说，UEBA等异常检测算法算出的结果我们都认为是异常。

告警、异常、攻击三者之间的关系如图1所示，在安全设备的海量告警数据当中，大量误报混杂其中，去除这些误报，还有小比例的异常告警，而极小比例攻击就混在这些异常告警当中。

图1、告警、异常、攻击的关系

我们以安全告警数据来做进一步阐述，在系列文章第一篇《》中,我们依据安全运营中告警的严重程度，将告警分为如下6类（比原文中扩充了2类）：

为了获取以上6类告警具体的分布情况，安全专家对某次红蓝对抗数据的进行了长期标注，得到了一份较为完备的数据集，该数据集包含红蓝对抗期间总计4000万以上的告警数据，其中99.7%以上的数据已经被标注，上述6类告警的分布如图2所示，其中横坐标为日期，纵坐标为告警数量（由于差异过大，以对数方式呈现），0~5类标签总数量比例分别为：2.6240%，89.3536%，5.9829%，0.4102%，1.5410%，0.0883%。

图2、红蓝对抗数据告警标签分布

对应以上数据和之前我们对异常的理解（偏离正常活动的事件为异常事件），标签1以外的告警均为异常告警，如果去除标签0这些无法分类的告警，异常告警的总数占总告警数量为8%左右，从绝对数量看，异常告警的数量在5天内超过400万条，已远超人力所能处理的范围。在日常安全运营过程中，我们需要进一步处理这些异常告警，找到真正由攻击者攻击触发的告警。

2.2异常的类型

正常的流量总是相似的，异常流量却各有各的不同，本小节的目标并不是遍历所有的异常行为，而是总结出几类在日常安全运营过程当中常见的异常行为类型，具体如下（按照告警数量的多少粗略排序）：

2.3异常检测

网络流量异常检测已经发展20多年，工业界所说的UEBA其实也是异常检测，这些异常检测算法大都通过对某些特征的统计分析，再配合一些智能算法对异常加以识别，如Kitsune[2]利用多层AutoEncoder对网络流量进行异常检测，Donut[3]利用变分自编码器对KPI数据进行异常检测，alertRank [4]通过机器学习的方法对运维告警进行异常检测等等，这些方法虽然在各自领域可以有效检测异常，但是在安全领域，面对海量异常但良性的告警，依然无法解决问题。

在安全领域的某些场景中，由于异常并不一定是攻击，因此在传统异常检测的基础之上还需要对这些异常做进一步处理。

三、异常的处理

本小节介绍一篇发表于Usexix Security2021的论文[1]，该论文以内网横向移动为场景，对攻击者的登录路径进行检测。论文以Dropbox公司的真实数据进行验证，在时间跨度长达15个月的登录记录中，对300个多个真实攻击场景的检出率达到94.5%，平均每天的误报小于9个，检测效果和误报数量均已达到日常运营的需求；该论文提出Hopper检测系统，使用统计+结构的方式寻找异常登录记录，能够有效过滤海量异常但无害告警。

3.1数据集

收集了Dropbox公司2019.1.1到2020.4.1共15个月的登录成功的登录记录，共计7.8亿条。每条记录包含：（1）时间戳，（2）登录用户名（3）登录记录的源和目的机器（4）源和目的机器的相关信息，这些记录共涉及634个账户，2327台机器。

数据集中包含327个攻击场景，包含一个由Dropbox公司红队模拟的APT场景和326个自行模拟的横向移动场景。

3.2方法

>>>>

3.2.1 过滤

为了最大限度消除误报，论文对登录记录进行了清洗，过滤了以下2种类型的记录：（1）Window相关登录。Window系统很容易触发登录记录，而这登录记录并不是真正能造成远控的”登录”,不能让用户获取数据或者控制目标机器。过滤这些数据能将总数据量缩减40倍以上。（2）自动登录类。文中采取3种简单规则过滤自动登录类记录，在此不赘述。

通过以上过滤方法，最终登录记录被缩减为352万条，为原始数量的 1/222.

>>>>

3.2.2 系统结构

Hopper的系统结构图如图3所示，主要由两部分构成，过滤后的数据首先会经过一个关联引擎，关联引擎将所有的登录记录进行构图处理（按天进行处理），以利用登录记录之间的结构信息，并且识别路径的边界（防止出现环路）,推理出登录路径的属性，第二部分（告警生成器）通过挖掘路径的特性，对每条路径打分并生成告警。

图3、Hopper系统结构图

>>>>

3.2.3 关联引擎

该部分首先将所有能关联的记录关联起来，构成一条条登录路径，这些路径包含如图4所示的属性：（1）包含的登录记录（2）路径起始点机器的所有人（3）用户名发生变化的记录（4）路径类型。其中路径类型包括BENIGN, CLEAR, UNCLEAR，3种，BENIGN路径代表：路径中的用户名未发生过变化，CLEAR路径和UNCLEAR路径中用户名都发生过变化，只不过CLEAR路径表示下一跳路径不再使用前一跳的用户名，UNCLEAR路径却接着使用。

图4、关联引擎生成的路径的属性

>>>>

3.2.4 告警生成器

除了上一小节中的路径信息，告警生成器还需要两个外部输入：（1）历史登录信息，用于特征提取（2）人为设定的阈值，控制UNCLEAR路径的数量。告警生成器整体流程如图5所示，首先进行场景匹配，文章定义了5种良性路径的场景，如BENIGN路径属于良性路径的一种，其他4中良性路径读者可自行阅读原文，若能匹配上这5种良性路径，则不生成告警，若未匹配上，则需要对路径进行进一步划分，分为两种攻击场景：有明显凭证切换，无明显凭证切换。

图5、告警生成器流程

对于第一种攻击场景：有明显凭证切换，这种场景中，只有路径满足以下条件则进行告警：（1）路径类型为CLEAR类型（2）路径中包含其中用户从未登录过的机器

对于第二种攻击场景，该场景较为复杂，文本在此仅介绍核心思想，详细步骤请读者自行阅读原文，这种场景应对多条关联的路径中，有些路径有用户切换，有些路径没有用户切换的情况，如图6所示，图中存在（L1，L4），（L2，L4），（L3，L4）3条路径，这3条路径因为机器Y关联在一起，由于（L1，L4），（L3，L4）存在用户切换，（L2，L4）不存在用户切换，因此（L1，L4），（L3，L4）属于UNCLEAR路径，而（L2，L4）属于BENIGN路径。论文利用历史数据提取UNCLEAR路径的3个特征，这3个特征刻画了该路径的稀有性，利用这3个特征对路径打出可疑值评分，对可疑值高的路径进行告警。

图6、登录样例

3.3小结

论文基于对数据的了解，提出一种能够缩减原始数据量200倍以上的过滤方法，并且基于对横向移动攻击特征的理解，提出横向移动的两个特性：（1）用户凭证切换（2）原始用户无权接触目标机器，将登陆记录构图，提取结构化特征（3种攻击路径），并且利用历史数据计算统计特征，最终达到满足安全运营需求的效果。

该论文虽然是一篇数据分析类论文，但是并未使用任何复杂的算法，作者将专家知识（对攻击的理解和对数据的理解）融入算法中，达到了远超其他所谓机器学习算法的效果。

四、总结

本文以安全告警数据为例，分析了异常告警的分布情况和组成类型，并且通过分享一篇顶会论文，探索对于海量异常但无害告警的处理方法，从方法论看，传统异常检测的方法不能直接作用于安全运营，可结合告警之间的结构信息对告警进行进一步筛选，以达到安全运营的需求，从理念上看，攻击检测效果的提升本质上还是基于对攻击行为和数据的深刻理解，对检测场景要尽量细化，这样才能对症下药。

以上观点仅代表作者本人观点，欢迎各位读者批评指正。

1. Ho, Grant, et al. "Hopper: Modelingand Detecting Lateral Movement." arXiv preprint arXiv:2105.13442 (2021).

2. Mirsky, Yisroel, et al. "Kitsune:an ensemble of autoencoders for online network intrusion detection." arXivpreprint arXiv:1802.09089 (2018).

3. Xu, Haowen, et al. "Unsupervisedanomaly detection via variational auto-encoder for seasonal kpis in webapplications." Proceedings of the 2018 World Wide Web Conference. 2018.

4. Zhao, Nengwen, et al. "Automaticallyand Adaptively Identifying Severe alerts for online Service Systems." IEEEINFOCOM 2020-IEEE Conference on Computer Communications. IEEE, 2020.

关于天枢实验室

天枢实验室聚焦安全数据、AI攻防等方面研究，以期在“数据智能”领域获得突破。

内容编辑：天枢实验室童明凯责任编辑：王星凯

本公众号原创文章仅代表作者观点，不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权，严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用，转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新中心负责运营，绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

以上就是本篇文章【【安全告警分析之道：三】异常处理篇】的全部内容了，欢迎阅览！文章地址：http://lianchengexpo.xrbh.cn/news/11496.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多