面向SOC警报分诊的决策感知信任信号对齐
大家读完觉的有帮助记得关注和点赞!!!
摘要
基于机器学习的检测系统正越来越多地用于安全运营中心 (SOC) 中,以筛选海量安全警报。实践中,这些系统通常会输出概率结果或置信度分数,但这些信号经常存在校准错误,且在实际压力下难以被正确解读。先前关于SOC实践的定性研究和调查结果表明,警报质量和警报过载与分析师的决策负担和难度有关,尤其是在工具输出嘈杂或难以一致执行的情况下 [3], [4]。主要的弱点是,置信度的概念通常被孤立地提出,而没有明确对应非对称的决策成本,即漏报攻击的危害远大于误报。
本文提出了一种用于SOC警报分诊的决策感知信任信号对齐框架。该框架不改变检测模型本身,而是将(i)校准后的置信度、(ii)轻量级不确定性提示和(iii)成本敏感决策阈值映射到一个连贯的决策支持层 [6]。校准基于常见的后处理策略,这些策略被证明可以增强概率预测的一致性 [5],而不确定性提示则在模型预测不确定时提供保守的保护 [6]。
为了在UNSW-NB15入侵检测基准 [1], [2] 上评估该方法的模型无关效应,我们使用了两种不同的分类器:逻辑回归和随机森林。模拟结果表明,未对齐的置信度显示会显著增加漏报,而决策对齐的信任信号则能将成本加权损失降低几个数量级。我们还提出了一个人在环研究方案,以便未来分析师可以对诸如分诊任务等SOC操作进行评估。
关键词: 安全运营中心 (SOC),警报分诊,可靠人工智能,概率校准,不确定性估计,成本敏感决策,人机交互,入侵检测。
1. 引言
1.1 背景
当前的安全运营中心 (SOC) 依赖于自动化检测系统来监控极其复杂的基础设施,以识别海量恶意活动。机器学习在入侵检测中的应用已变得普遍,因为它可以对高维网络遥测数据进行建模并适应各种攻击模式 [7], [8]。然而,工作环境中使用的检测模型并非独立运行:它们会产生持续的警报流,这些警报必须由人类分析师进行筛选、检查和提升。与传统IDS研究不同,本文不提出新的检测模型,而是关注现有模型输出在SOC环境中如何被解释和采取行动。
一些持续存在的挑战包括警报疲劳,这是由警报数量大、误报频繁以及时间压力共同导致的,它会造成分析师注意力下降和决策一致性降低 [4]。此外,根据对SOC工作的实证描述,警报质量对分析师的行动和工作量有重大影响,信号质量也决定了分诊质量和已检测事件的质量 [3], [1]。在这方面,假阴性(漏报攻击)与假阳性(额外调查)的成本不成比例,因此SOC分诊实际上是成本敏感的。
1.2 问题陈述
大多数SOC工具输出的模型结果为预测标签、排名或置信度分数。虽然这些信号可被视为可信度的指标,但它们通常并未面向成本敏感的决策制定。当置信度不准确时,高分和低分可能被分析师过度信任或信任不足,这可能带来风险。更广义地说,不存在可操作的“信任”,即置信度:一个概率可能在统计上是正确的,但在操作上,除非将其与升级与关闭决策的后果联系起来,否则可能是无效的。
1.3 研究空白
大多数IDS研究侧重于在模型层面提升准确率、检出率或AUC [7], [8]。同时,可信人工智能研究领域也取得了发展,产生了校准技术、不确定性估计技术 [5], [6] 以及提供模型无关预测解释方法的可解释AI技术 [9], [10]。但这些方向在以决策为中心的SOC环境中似乎从未融合。具体而言,信任信号(置信度、校准、不确定性)作为分诊决策的调节因素很少被研究,并且关于如何将展示的信任信号与实际漏报攻击和误报的成本模型相匹配的实证研究也很少。这催生了一种范式,将信任视为一种决策支持结构,而非简单的模型输出。
1.4 贡献
本文作出了以下贡献:
-
我们提出了一种面向SOC警报分诊的决策感知信任信号对齐系统,明确将信任信号与操作决策成本联系起来。
-
我们证明,即使基础检测模型保持不变,未对齐的置信度显示也可能增加漏报率。
-
我们提出了一种成本敏感的信任对齐机制,利用后处理校准和不确定性敏感的安全保障来做出升级决策。
-
我们在UNSW-NB15基准上,对逻辑回归和随机森林分类器进行了模型无关的实证验证。
-
为了促进未来对分析师或训练有素的代理使用的研究,我们设计了一个适合SOC风格分诊的人机交互评估方案。
2. 相关工作
2.1 基于机器学习的入侵检测
基于机器学习的入侵检测系统 (IDS) 作为大规模网络中恶意行为识别的方法已被广泛研究 [29]。公共基准数据集(如 KDD99、NSL-KDD、CIC-IDS 和 UNSW-NB15 [1], [2])使得在受控环境中评估检测方法成为可能。其中,UNSW-NB15 因其最新的攻击场景和更丰富的特征表示而被认为是更贴近现实的。
许多不同的机器学习和深度学习模型已被提议用于 IDS,其中包括逻辑回归、支持向量机、随机森林、卷积神经网络和循环架构 [7], [8]。这些文献的主要关注点在于提高检测准确率、召回率和曲线下面积。虽然这些进展极大地提升了预测性能,但它们大多假设检测是一个独立的分类任务,很少考虑模型输出如何被操作分诊中的人类操作员使用 [11], [29]。
2.2 可信与可解释人工智能
在追求更好检测性能的同时,可信人工智能领域研究了提升机器学习系统可靠性和可解释性的方法。概率校准方法试图实现这样一个特性:在置信度尺度上的预测分数能代表真实的准确概率,并试图修正当前模型中系统性的过度自信或自信不足 [5], [18], [27]。这些方法对于使用概率结果指导人类判断的决策支持系统变得日益重要 [21], [28]。
预测特征解释作为可解释AI (XAI) 方法已被广泛使用,例如 LIME 和 SHAP [9], [10], [19], [25]。这些技术通过揭示有影响力的特征和决策依据来增强透明度。然而,解释并非产生适当信任的唯一原因。先前的研究表明,用户可能误解解释,对看似可解释的模型产生过度信任,即使其预测并不可靠 [24]。因此,解释不能与校准或决策对齐的信任相混淆。
2.3 安全领域的人机协作
最近有研究关注实际SOC环境中安全分析师与自动化警报系统之间的交互。定性研究表明,分析师往往面临警报数量大、警报质量不稳定和上下文线索不足的问题,这些都是导致警报疲劳和决策能力受损的主要因素 [3], [4], [18]。这些论文强调,分析师的行为不仅受模型准确性的影响,也受警报呈现方式和置信度信号的影响 [22]。
人在环安全系统被提出以整合自动化和人类判断,特别是在高影响决策中。虽然这些系统没有忽视分析师在监控中的作用,但它们通常认为只需提供模型输出或解释即可 [17], [18], [19]。关于各种信任信号设计对分析师升级决策影响的实证研究很少,尤其是在非对称成本设置中 [26]。
2.4 以决策为中心和成本敏感学习
成本敏感学习处理的是不同分类错误受到不同惩罚的情况。在安全应用中,假阴性(漏报)通常比假阳性(误报)代价高得多。因此,鼓励使用阈值调整和损失敏感的优化策略 [14], [15]。先前的研究提出了基于错误成本调整分类阈值或学习目标的决策理论方法。然而,在所有这些进展中,成本敏感的推理很少体现在用户所见的操作系统的信任指标中。成本感知阈值通常隐含在模型中,而不是作为决策支持界面显示给用户。因此,分析师可能获得统计上有效但与操作风险不对齐的置信度分数。
总之,当前文献在入侵检测准确性、模型敏感度和成本敏感学习方面各自发展。然而,还没有一个统一的框架将信任信号、决策成本和人在环分诊整合到SOC环境中。具体来说,现有系统缺乏将升级决策的非对称成本与置信度和不确定性显示相匹配的机制。这一空白促使了本文提出的决策感知信任信号对齐框架。
3. 提出的框架
本章节提出了一种面向SOC警报分诊的决策感知信任信号对齐框架。其核心是确保呈现给分析师的信任指标(如置信度、不确定性)与安全决策的非对称成本直接挂钩和调整,而不是将其视为被动的模型输出。
3.1 问题描述
SOC警报分诊对我们而言是一个二元决策问题。对于每个警报,分析师需要做出选择:

其中,升级意味着启动额外调查,关闭则意味着驳回该警报。
3.1.1 成本非对称性
决策错误的成本在操作上存在非对称性。假阴性漏报恶意警报可能导致严重后果,而假阳性误关良性警报主要会增加分析师的工作量。这种不一致性与安全和风险敏感决策系统中现有的成本敏感学习公式是一致的 [11]。
这可以通过成本模型形式化表示:

3.1.2 信任信号错位
现代检测系统通常提供预测标签和置信度分数
。但是,这种置信度通常存在错误校准,且不再与操作决策的成本挂钩。因此,分析师可能对警报过度信任或信任不足,从而导致决策结果的错误判断不成比例。这种差异正是需要建立明确旨在辅助非对称成本背景下决策的信任信号的原因。
3.2 信任信号
建议的框架为每个警报生成一组模型无关的轻量级信任信号。
3.2.1 置信度
基础的置信度信号是检测模型生成的后验概率,来自等式-3。原始置信度虽常用,但在SOC情境下,其信息量不足以支撑可靠的决策。
3.2.2 校准
系统性的过度自信或自信不足可以通过后处理校准使用标准方法对原始概率进行修正 [5]。校准会生成一个修正后的概率 (p_cal),它能更准确地估计恶意活动的可能性。
校准的必要性在于,基于未校准分数形成的决策阈值可能与实际风险不一致,特别是当模型输出被人类分析师直接解读时 [5]。
3.2.3 不确定性
除了置信度,该框架还基于校准概率获得离散的不确定性信号。概率接近决策边界的警报被归类为高不确定性,而远离决策边界的警报则被归类为低不确定性。
这种不确定性信号在存在疑虑时提供保护性保障,体现了不应仅仅因为置信度的微小差异就消除不确定通知的原则 [6]。该框架可与 LIME 或 SHAP 等后处理解释方法 [9], [10] 结合使用,并可呈现特征级解释。尽管如此,解释被视为额外的上下文信息而非主要的信任指标,承认可解释性并不等同于适当的信任保证。
3.3 决策感知的信任对齐
本文的核心贡献在于信任提示与决策成本之间的对应关系。
3.3.1 成本敏感阈值设定
给定成本模型 C_FN 和 C_FP,我们得到一个决策感知的阈值:
令 C_FN 和 C_FP 分别表示与假阴性和假阳性相关的操作成本。在此成本模型下,我们推导出由以下公式给出的决策感知分类阈值:

该阈值直接代表了错误的非对称成本,并取代了通常的固定阈值(例如 0.5),后者在操作上是风险中性的。
3.3.2 信任信号到决策的映射
该阈值与非对称操作风险的 0-1 加权预期决策成本相关联。
对于升级决策:如果 p_cal ≥ t*,则建议升级警报。
这种映射确保置信度值被视为决策成本的函数,而非简单的绝对正确性度量。
3.3.3 不确定性安全保障
为了进一步减少漏报,该框架实施了一条安全规则:即使某个警报的校准置信度略低于阈值,但如果其不确定性为高,也应升级该警报 [11]。这是一种保守的方法,反映了SOC实践中应对模糊警报进行更多调查的做法。
3.4 界面条件
为了考察信任信号对齐的影响,我们将区分三种界面条件,它们在信任信号的呈现和使用方式上有所不同。
3.4.1 基线界面 - C0
基础或原始条件仅显示预测的类别标签。决策隐含地与一个固定阈值(如 0.5)相关联,不展示置信度、不确定性和成本信息。
3.4.2 错位信任界面 - C1
错位条件展示了未经校准且未与决策成本对齐的置信度。它假设分析师会过度依赖置信度值,并使用更严格的升级率,这在实践中对置信度的解读脱离决策背景时很常见。
3.4.3 提议的信任界面 - C2(对齐)
提议的条件将展示校准后的置信度、明确的不确定性,并基于成本敏感阈值提供决策建议。信任信号与操作风险直接挂钩,引导分析师做出风险较低的升级决策。
3.5 系统概览

图 1: 面向SOC警报分诊的拟议决策感知信任信号对齐框架概览。
流程环节详解
该流程的核心在于信任信号层和决策感知对齐,它们将冰冷的模型输出转化成了充满业务意义的决策支持信号。
-
ML检测模型分析:模型对传入警报进行处理,生成原始的预测标签(例如,攻击或良性)和一个置信度分数。这是自动化检测的起点。
-
信任信号层处理:此层对模型的原始输出进行加工,旨在增强其可信度与可操作性。
-
置信度校准:模型的原始置信度往往不能真实反映其准确概率。校准技术(如Platt Scaling或保序回归)将其修正为真实世界的概率估计。例如,一个经过校准的“90%置信度”意味着在100次类似预测中,模型大约会正确90次。
-
不确定性估计:这评估了模型对本次预测的确定程度。例如,将校准后置信度在0.45-0.55之间的警报标记为“高不确定性”,提示模型“拿不准”,需要分析师特别关注。
-
-
决策感知对齐:这是将技术信号与业务逻辑连接的关键一步。
-
成本敏感阈值:在SOC中,漏报攻击的代价远高于误报。因此,决策阈值不应是简单的0.5,而是根据公式
t* = C_FP / (C_FP + C_FN) 计算得出。其中C_FP(误报成本)远小于C_FN(漏报成本),这使得阈值t*变得很低(如0.09),从而显著降低漏报风险。 -
安全规则:对于被标记为“高不确定性”的警报,即使其校准置信度略低于阈值
t*,也建议升级。这为可能存在的新型或复杂攻击提供了一层安全缓冲。
-
-
SOC分析师决策:分析师接收的不再是简单的“是/否”警报,而是一个附有解释和明确建议的决策包。这使得分析师能将精力集中在最高风险或最模糊的警报上,实现人机协同的最优决策。
-
反馈与系统优化:整个流程是一个闭环。分析师的最终决策、事件响应的结果都可以作为反馈数据,用于重新训练和优化ML模型及决策阈值,使系统不断进化。
拟议的决策感知信任信号对齐模型如图1所示。通过校准和不确定性估计,模型预测被转化为信任信号。然后,这些信号与成本敏感的决策策略相匹配,并呈现给分析师。该框架的优点是明确解耦了检测和决策支持,使得信任信号可以在操作风险的背景下被理解。
4. 实验评估
本节通过实验研究信任信号与操作决策成本的对齐是否能提升SOC警报分诊结果。与第3节抽象地介绍框架不同,本节完全关注该框架在真实实验环境中的实例化、实施和测试方式。
4.1 数据集与警报流构建
这是通过构建数据集和警报流来完成的。
UNSW-NB15 是一个入侵检测实验集合,使用UNSW-NB15入侵检测数据集进行,该数据集旨在捕获当前攻击模式并反映真实的背景流量 [1], [2], [12]。每条记录对应一个网络流,被视为一条SOC警报,并带有良性或恶意活动的二元真实标签。
我们遵循初始的基准划分,并依赖预定的测试部分作为警报流的模拟。为了减少混淆变量的影响并能够比较不同模型的结果,仅保留了数值特征,这与先前关于UNSW-NB15的实证研究采用的方法类似 [7], [12]。警报被单独处理,类似于典型的SOC分诊过程,即分析师一次处理一个警报,且模型不进行再训练或反馈。
4.2 预测输出与检测模型
采用两种分类器来研究所提出方法对两种模型类型的鲁棒性:
-
逻辑回归:作为线性的、概率性的基础模型。
-
随机森林:作为非线性的集成分类器。
两种模型使用相同的特征集进行训练,并为每个警报生成后验概率 p(y = 1 | xᵢ)。值得注意的是,这些概率被视为评估的确切输入:在测试时,不进行再训练、阈值调整或损失重新加权。这种设计旨在隔离信任信号对齐和决策逻辑的影响,而非提升检测能力本身。
4.3 信任信号构建
-
校准:由于概率输出往往与真实世界的机器学习系统校准不佳,我们使用后处理校准将原始概率转换为校准概率 [5], [13], [14]。在我们的流程中具体操作如下:
-
对LR输出使用S型(Platt式)校准。
-
对RF输出使用保序回归(一种非参数单调校准器)。
-
-
不确定性:我们使用固定区间来定义不确定性类别:
-
高不确定性:p_cal ∈ [0.45, 0.55]
-
中等不确定性:p_cal ∈ [0.35, 0.45) ∪ (0.55, 0.65]
-
低不确定性:其他情况
这些不确定性类别被刻意设定为粗略的决策提示,而非概率保证,这再次反映了分析师面对的工作流特点。
-
我们应用后处理概率校准,使得模型置信度可以被解释为恶意活动的近似似然。图2报告了LR和RF的可靠性图,将原始概率输出与校准概率相对于理想对角线进行比较。校准后的概率 p_cal 在对齐信任条件(C2)中用作置信度信号,而错位条件(C1)则展示原始概率 [16]。
这些区间被刻意设定为粗略的,以便于作为界面指标阅读,并在模型几乎无法区分时提供保守的决策制定 [6], [9], [13]。

(a) 逻辑回归

(b) 随机森林
图 2: 比较原始概率估计与校准概率估计的可靠性图。虚线对角线表示完美校准。
4.4 界面条件
我们考虑三种界面条件,它们为每个警报生成升级或关闭决策。
-
C0,默认阈值(基线):
-
决策规则:如果 p ≥ 0.5,则升级;否则关闭。无校准,无不确定性提示。
-
-
C1,错位信任(过度信任置信度):界面展示未经校准的置信度 [28]。
-
决策规则:如果 p ≥ 0.7,则升级;否则关闭。这个条件模拟了一种故障模式(保守的分析师除非非常确信,否则会变得更加保守而容忍失败),它反映了实际操作情境:低置信度导致的代价高昂的漏报是不可接受的,但高置信度下的代价高昂的漏报却被容忍。0.7 的阈值代表了SOC环境中观察到的保守升级行为,即分析师只在他们认为置信度高时才进行升级。
-
-
C2,对齐信任(提议):界面展示校准后的置信度和不确定性类别,并根据成本模型提供决策建议。
-
决策规则:如果 p_cal ≥ t*,则升级。
-
安全覆盖规则:如果不确定性为高,则即使 p_cal < t* 也进行升级。
这是决策感知对齐和对可疑案例进行谨慎处理的具体应用。
-
4.5 决策感知成本模型与阈值

(a) 逻辑回归

(b) 随机森林
图 3: 使用校准概率时,成本加权损失随升级阈值变化的函数。垂直虚线表示根据非对称成本 (C_FN = 10, C_FP = 1) 推导出的决策感知阈值 t* = 0.0909。
图3说明了使用校准概率时,逻辑回归和随机森林的成本加权损失随升级阈值变化的函数。在两种情况下,预期成本都随着阈值升高而迅速增加,反映了在保守升级策略下假阴性的急剧增长。
我们设定:(C_FN = 10, C_FP = 1)。在此成本模型下,决策感知的升级阈值由下式给出:

图3中的垂直虚线表示此阈值,它非常接近两种模型预期成本最小的区域。这是C2(对齐)条件中使用的唯一阈值。
SOC分诊是不平衡的:误报的严重性通常远低于漏报的攻击。我们采用与成本敏感决策理论一致 [11], [15], [23] 的显式成本模型。
4.6 基于模拟的结果
非对称成本比 (C_FN ≫ C_FP) 反映了常见的SOC实践,其中漏报入侵的下游成本通常显著高于误报成本。我们采用一个有代表性的比值来说明决策的影响,但所提出的框架可以扩展到任意结构的成本模型,并可根据组织的风险承受能力进行调整。
表1展示了所有界面条件和模型的基于模拟的分诊结果。报告了假阴性、假阳性和由此产生的成本加权损失,以突显信任信号对齐对成本敏感决策性能的影响。
表 1: 在基线、错位和对齐信任界面下的SOC分诊结果。成本 = 10 * FN + 1 * FP。
| 模型 | 条件 | FN | FP | 成本 |
|---|---|---|---|---|
| LR | C0 基线 | 23693 | 12959 | 249889 |
| LR | C1 错位 | 32490 | 9285 | 334185 |
| LR | C2 对齐 | 2286 | 20396 | 43256 |
| RF | C0 基线 | 27400 | 12034 | 286034 |
| RF | C1 错位 | 27509 | 7681 | 282771 |
| RF | C2 对齐 | 77 | 18007 | 18777 |
如表1所示,错位信任条件(C1)尽管减少了误报,但相对于基线条件显著增加了漏报。相比之下,对齐信任条件(C2)通过积极减少漏报,在两种模型上都始终最小化了成本加权损失。
我们的结果通过假阴性、假阳性和成本加权损失计算得出:
成本 = 10 * FN + 1 * FP
逻辑回归:
-
C0 基线:FN = 23,693, FP = 12,959, 成本 = 249,889
-
C1 错位:FN = 32,490, FP = 9,285, 成本 = 334,185
-
C2 对齐:FN = 2,286, FP = 20,396, 成本 = 43,256
当展示原始置信度并应用严格阈值(C1)时,FN值相比基线显著增加;而决策感知对齐(C2)使FN值显著降低,成本加权损失降至最低。
随机森林:
-
C0 基线:FN = 27,400, FP = 12,034, 成本 = 286,034
-
C1 错位:FN = 27,509, FP = 7,681, 成本 = 282,771
-
C2 对齐:FN = 77, FP = 18,007, 成本 = 18,777

(a) 逻辑回归

-
(b) 随机森林
图 4: 逻辑回归和随机森林在不同界面条件下的假阴性数量。对齐信任界面(C2)与基线(C0)和错位(C1)条件相比,显著减少了漏报攻击。
我们确认,决策感知阈值设定的定性行为对于各种非对称成本比(C_FN/C_FP 在 5:1 到 20:1 之间)仍然有效,其中对齐的信任界面总是能优化预期成本。这表明所提出的对齐机制具有高度的鲁棒性,而不仅仅适用于单一成本配置。
该图表可视化展示了两种检测模型在三种界面条件下的假阴性数量。对于逻辑回归和随机森林,对齐信任界面(C2)相比基线(C0)和错位(C1)条件都导致了漏报攻击的急剧减少。这种效果与使用校准置信度和决策感知升级阈值相一致,两者共同鼓励对不确定警报采取谨慎处理。
同样的模式出现在不同的模型族中,这证明了对齐是一个模型无关的决策支持层的论点。
4.7 人在环研究方案
为了补充模拟结果并评估"决策感知信任信号对齐能改善人类分诊"的假设,我们引入了一个受控的人在环协议,该协议捕捉了SOC的两个现实情况:(i) 高警报量和警报疲劳,(ii) 漏报攻击的操作风险。过去的实证研究记录表明,SOC工具可能导致高误报负担,分析师需要投入大量精力来验证警报 [3], [4]。另一个持续存在的SOC挑战是警报疲劳,它影响了决策质量和工作量管理 [3], [17]。
为了能够对信任对齐效果进行受控验证,人对环方案已进行标注;由于资源和IRB限制,该方案的优化计划在未来的工作中实施。
4.7.1 参与者
我们招募40名参与者,分为两组:
-
25名代理分析师:基于安大略理工大学招募(研究生水平的网络安全或密切相关课程)。
-
15名从业者:从外部行业公司招聘(安全运营、IT安全或相关职位)。
4.7.2 材料与界面条件
参与者将在三种界面条件下执行分诊试验:
-
C0(基线):朴素界面(无明确的置信度/不确定性显示)。
-
C1(错位):展示未经处理的原始置信度。
-
C2(对齐,提议):展示置信度、不确定性、成本感知的决策建议,其中高不确定性采用保守升级。
每个条件的内容和呈现特征相同,唯一的区别在于信任信号的呈现方式。
4.7.3 任务与流程
采用被试内设计,每个参与者都会接触到一组固定的警报,并需要在所有三种条件下进行分诊:
-
引导(5-8分钟):简要介绍分诊目标(升级 vs. 关闭)和界面上各元素的含义。
-
条件区块:参与者按抵消平衡顺序(拉丁方旋转)C0/C1/C2 进行分诊,以克服不同条件间的学习和疲劳效应。
4.7.4 每试次行为
参与者选择"升级"或"关闭"。
-
(可选)提供置信度评级(如1-5李克特量表)
-
转到下一个警报(不会告知其决定是否正确)
-
为了最小化记忆效应,每个条件区块内的警报顺序是随机打乱的,但各条件下使用的警报集是相同的。
4.7.5 日志记录
对于每个试次,我们记录:
-
参与者标识符和组别(安大略理工代理分析师或行业从业者)
-
界面条件(C0, C1, 或 C2)
-
警报标识符及其对应的真实标签
-
参与者的决策(升级或关闭警报)
-
每个警报的决策时间
4.7.6 主要和次要结果指标
主要结果(成本敏感的SOC风险):
-
假阳性 和 假阴性
-
成本加权损失(使用与基于模拟的评估相同的非对称成本模型计算)
次要结果 评估效率以及主观信任行为:
-
每个警报的决策时间及每个界面条件下的汇总时间
-
自报告置信度与决策正确性之间的校准度(通过比较置信度评级与实际准确率计算)
4.7.7 分析计划
由于所有参与者都暴露于所有界面条件,因此采用被试内(配对)分析设计。主要分析集中在基线条件(C0)与对齐信任条件(C2)之间的差异。由于不对行为度量的分布做假设,使用非参数配对统计检验。在标准置信水平下评估统计显著性,并报告描述性统计结果以方便解释 [30]。
5. 讨论
本节旨在解释实验结果,并阐述为何基于决策感知的信任信号对齐能提高SOC警报分诊性能。讨论的重点不在于复述数字,而在于剖析不同界面条件下失败与成功的机制,并就SOC系统设计得出一般性结论 [6], [24]。
5.1 为何错位信任会失败
错位信任条件(C1)的表现比基线条件和对齐条件都要差,这主要归因于过度自信的放大和阈值的误用。当原始、未校准的置信度分数在没有上下文线索的情况下呈现时,用户更可能将高置信度视为答案正确性的良好预测指标,尽管这些分数与实际风险相关性差 [6], [22], [26]。有证据表明,人类经常过度信任明确量化的概率输出,尤其是在时间紧迫时,导致自动化偏见和决策自满 [14], [19]。
在SOC分诊背景下,过度严格的升级阈值加剧了这种效应。如模拟结果所示,采用更高的置信度阈值(例如从0.5到0.7)会减少误报,但也会显著增加漏报。这种行为反映了一种普遍的心理捷径:将特定的认知自信水平与重要性等同,并忽视了漏报攻击的成本非对称性。这种阈值的误用最终放大了而非减轻了人类偏见,导致决策质量低下,尽管可能有其他信息可用。
5.2 为何对齐信任有效
相比之下,对齐的信任条件(C2)通过将信任信号直接与决策成本而非原始模型输出挂钩来实现改进。校准后的置信度使概率值更接近经验似然,减少了系统性的过度自信。更重要的是,成本敏感决策阈值将置信度重新定义为与决策相关的度量,以此指导升级行为,使其与操作风险一致 [20], [25]。此外,明确的不确定性信号也有助于提升性能。接近决策边界的警报被标记为不确定并进行保守升级,从而避免因边际置信度的微小差异导致过早驳回。这种不确定性感知的升级方法与先前研究结果一致,表明在高风险领域谨慎处理不确定情况是有益的 [14]。成本意识和不确定性管理的结合,将决策目标转向最小化操作危害而非减少误报,因此在对齐条件下,成本加权损失和假阴性都显著降低。
5.3 对SOC设计的启示
这些结果直接关系到SOC工具和界面的设计。首先,它们表明,在操作结果方面,用户界面设计与模型性能同等重要。即使检测模型保持不变,改变信任信号的呈现或解读方式,也可能导致成本敏感性能发生数量级的变化。
其次,研究结果表明,信任不能被视为模型的绝对属性,而应是相对的。置信度的价值只有结合决策成本和不确定性来考虑才有意义。脱离上下文呈现原始置信度的界面,容易导致不当的依赖或排斥 [15]。
最后,结果表明,不应认为模型性能的渐进式提升就足以解决SOC决策失败问题 [27]。如果没有在信任对齐和决策支持方面取得类似的进步,更优的模型仍可能产生低效的人机交互。
5.4 模型无关的洞见
评估的另一个显著结果是,在逻辑回归和随机森林两种模型中都观察到了相同的定性模式 [3]。尽管两种模型的表征能力和错误分布不同,但在错位信任条件下假阴性都会增加,而在对齐信任条件下成本都会最小化。这种一致性表明,观察到的效应并不依赖于特定的分类器,而是信任信号与决策逻辑交互作用的结果 [14]。
这些结果是模型无关的,这增强了所提出框架的适用性。由于信任对齐是作为后处理和界面级框架实现的,因此可以在不重新训练或改变架构的情况下,应用于各种检测模型。这种灵活性使得该方法对现实世界的SOC部署特别相关,因为替换现有模型通常不可行。
6. 局限性与未来工作
6.1 局限性
尽管取得了有希望的结果,但本研究存在一些需要承认的局限性。
首先,主要评估基于对分析师行为的模拟,而非对实际SOC分析师的观察。虽然模拟分析是测试决策策略和系统行为的大规模普遍工具,但它无法充分反映影响现实安全操作的认知策略、情境推理和组织限制。先前研究表明,经验、工作量和态势感知会影响分析师的决策,这些因素难以在显式建模的模拟中反映 [18]。
其次,实验测试是在一个基准数据上进行的。尽管这是最流行的数据集之一,但其特征可能无法代表不断变化的威胁环境和企业网络设置的多样性。类不平衡、特征分布和标注实践等特定数据集的特性可能会影响绝对性能结果。
第三,本文关注二元决策。尽管这种抽象符合典型的SOC分诊流程,但现实世界的警报管理流程可能使用更详细的决策空间,包含优先级排序、延迟调查和部分升级等方面。因此,本文报告的收益主要归因于保守升级决策的改进,而非完整的事件响应流程。
6.2 未来工作
这些局限性催生了许多有前景的研究方向。
一个重要的后续措施是对专业的SOC分析师进行人在环测试,这将能够直接测定在信任对齐和未对齐界面下,信任校准、认知负荷和决策置信度的情况。受控用户研究可以更详细地研究校准置信度和不确定性信号在更长时间工作期间对分析师行为的影响。
该框架还应扩展到多类别和多阶段的警报环境中,分析师需要区分攻击类型、严重程度和响应紧急性 [23]。分层或顺序决策过程应考虑决策感知的信任对齐,使其更符合现实的SOC工作流程和事件升级路径。
另一个重要方向是实现动态和特定情境的成本模型。实际上,假阴性和假阳性的成本可能随时间变化,取决于资产重要性、威胁情报或操作环境。自适应成本模型可以根据风险状况随时间调整决策阈值,从而进一步增强操作稳健性 [21]。
最后,未来可以研究自适应信任界面,根据分析师的专业知识、工作量或过去的交互模式来调整置信度、不确定性和解释的显示方式。这些界面可能有助于避免长期的过度信任或信任不足,并促进安全活动中长期的人机协作。
7. 结论
在现代安全运营中心 (SOC) 中,基于机器学习的警报系统如何向人类分析师呈现模型输出并促使其采取行动已成为一个重要问题。具体而言,置信度分数的使用经常脱离决策成本或不确定性,导致系统性的过度信任或信任不足,进而引发代价高昂的分诊错误。这在SOC环境中尤为关键,因为漏报攻击具有高度的操作风险 [15], [21]。
本文引入了一个决策感知的信任信号对齐框架,它将模型确定性、校准和不确定性与成本敏感的升级决策直接联系起来。该方法不是在检测模型层面进行调整,而是在界面层面进行操作,通过校准概率和理论推导的决策阈值,将信任信号与非对称错误成本相匹配。该框架是模型无关的,无需重新训练或任何架构修改,可与现有的SOC流程集成使用。
与以往侧重于检测准确性或独立信任机制的研究不同,本文通过将模型置信度、操作成本和分析师行为联系起来,将信任重构为一个决策一致的控制问题。
在UNSW-NB15数据上使用逻辑回归和随机森林模型进行的分析表明,决策结果发生了显著变化。在两种模型中,对齐界面条件(C2)相比基线和错位条件,将漏报率降低了一个数量级以上,并在 C_FN = 10, C_FP = 1 的成本模型下实现了成本加权损失的急剧下降。
这些收益是在不需要更复杂决策的情况下获得的,证明了决策感知信任对齐的实用性。
综上所述,研究结果表明,许多SOC决策失败可能源于信任界面的错位,而非模型限制。在传达置信度和不确定性的过程中明确纳入决策成本,可以使SOC在保持模型通用性和可部署性的同时,采取更安全、更保守的分诊行为。将信任信号与决策成本对齐,为实现网络安全活动中更安全的人机交互提供了一条实用且模型无关的途径 [19], [22]。










