企业中的大数据审计

Author: Abdullah Al-Mansour, Security+
Date Published: 30 October 2017
English | español

信息安全技术发展从未停息。一起重大的全国性事件往往会导致更严苛的报告要求、文书工作和额外职责。2013 年,Edward Snowden 的行为直接导致问责制度、内部威胁计划和特权用户审计发生变革。虽然我们因此获得了更有效的实践,知道必须做些什么来防范具备访问特权人员可能带来的新威胁,但为履行这一使命而制定的战略可能已经过时。

信息系统安全官 (ISSO) 或信息系统安全经理 (ISSM) 如何从信息系统产生的深入而广泛的信息中觉察到可疑行为?一个系统可能有 10 位或 100 位用户,每位用户每天活动 8 小时,此外后台的各服务组和工作组账号间还存在不间断的聊天互动活动。大部分审计师需要负责多个系统,还可能要更新计划和基准,执行合规性检查,提供安全教育课程和简报,出席必要的会议,批准或拒绝账号申请,以及处理大量其他活动。根据系统规模和审计师需要审查的日志量,系统可能会在一天之内产生相当于一周的有价值数据。审计师不仅应该谨慎确保日志存在且没有损坏,还要审查这些日志,确认是否存在异常或恶意行为。

由于审查的数据量巨大,信息安全专业人士的工作范围也相应扩大,他们已经从审计师演变为数据挖掘和分析专家。这种改变使得他们必须掌握一套新技能。

系统审计

系统审计是一种用于审查和分析用户系统行为的对策。现如今,职责分离被视为最佳实践,系统审计通常是由指定的安全专业人员(而非系统管理员) 执行。审计并非持续数周和数月的深入讨论,而是对系统事件的浅层审查,耗时很短。数据挖掘可能有违审计师的直觉。毕竟,ISSO 或 ISSM 的主要职责之一是确保信息完整性。信息安全的初始原则是:防止经过授权或未经授权的人员操纵数据。但数据挖掘和分析却植根于数据操纵中。

要审计大数据,必须将“审计”一词抛在脑后。这个术语不足以描述系统安全审查。就好比小目标、大目标和使命这些术语不得互换使用,而应指向一段时间(分别为短期、中期和长期)那样,审计是针对较小数据量的技术。既可以审计单机系统,也可以审计对等系统,但无法审计广域网 (WAN) 或局域网 (LAN) 上每周产生各种各样海量数据的联网系统。这些更复杂的网络必须进行数据挖掘。

预先存在的资源

幸运的是,在利用数学和科学建模来分析数据的领域,流行软件(如 MATLAB)成为高度可靠的工具,无意中满足了安全专业人员的需求。在后 Edward Snowden 时代的安全环境中,这些辅助其他专业社区方法论的工具,将必须被引进和采用。

在基础层面,ISSO 必须使用计算语言,而不仅仅是考虑合规性。无论是 C++、Visual Basics 还是 Python,要对与事件相关的日志进行有效的数据挖掘,ISSO 需要熟悉一种编程语言。ISSO 必须了解字典、列表、数组(例如,二维数组、三维数组)、布尔、定义函数、条件语句和循环等基本概念。ISSO 往往是第一道防线,随着捕获和检测恶意活动的负担日益增大,他们必须更具工程师思维。安全部门将需要对工程学科教育进行投资,因为它与数据操纵和分析科学密切相关。

模式

如何在干草堆中找到众所周知的那根针?答案是通过模式。

任何人都没有时间详细审查堆积如山的数据。使用模式能让数据挖掘具备可扩展性。系统具有多种模式,这些模式构成了基准。信息系统并不局限于一个主要基准。服务账号、特权账号、一般用户账号、第一轮班、第二轮班和测试时间全部可以单独 组合在一起,以寻找共同点或差异。典型的安全事件日志可分为成功和失败两个类别,然后进行比较,了解有哪些重复的失败后来变为成功。模式可借助编码、条件语句、循环等元素发现。

分析

收集并集中模式后,就可以进行分析,以衡量发生的频率、比特 (bit) 大小、执行的文件数量和平均使用时间。其中的数学信息可让数据挖掘者掌握大局。个人通常会被海量信息压倒,但自动化的模式识别技术能让大数据广受欢迎。

样本规模越大,就越容易确定正常和异常行为的模式。算法解决了网络干草堆的难题,可通知信息挖掘专家对某一内部威胁展开调查。

教育

与所有新事物的发展一样,教育培训是数据挖掘的必要基础。如果数据挖掘者不知道如何解释信息,就无法获得通过程序收集信息并仔细对其进行分析的好处。1 和 0 必须有实质含义。构成统计信息钟形曲线的平均值决定了事件已经发生、正在发生或将要发生的可能性。

但这种统计信息对未接受过培训的审查人员来说没有用处。多家声誉良好的组织专门针对希望在数据分析领域寻求职业发展的人士推出免费课程。Udacity1 是一个在线学习平台,面向初学者、中级学员和资深专家提供多种课程,教授如何使用带 Numpy 和 Pandas 编码库的 Python 软件进行数据分析。EdX2 也是一个免费网站,与哈佛大学(美国马萨诸塞州剑桥)、微软、麻省理工学院 (MIT)(美国剑桥)等多家机构建立了教育合作伙伴关系。EdX 介绍如何使用 Microsoft Excel 进行数据分析。

经验教训

透过一个强大的公式来审计大数据不切实际。经验必须转换成代码并不断积累。例如,部署脚本来对审计日志是否存在进行每日检查。如果审计日志不存在,系统会通过自动化的程序通知 ISSO。该脚本每天都会检查是否是预期的审计日期,如果是,审计数据和日期将位于受到适当写入保护的文件夹中。但是,该脚本并不会通过检查来确保前一天的审计日志位于同一文件夹中。原始文件每天都会被新文件覆盖。执行审计脚本时出错可能是独立事件,否则就会被系统地覆盖。像这样细小的经验教训可帮助我们开发用于衡量信息准确性的更精准的自动化流程,并且该衡量系统可推广至整个企业,以发现其他网络上的相似异常值。

数据结构

应对异常值的另一种辅助工具是数据表示法。没有比系统的 ISSO 只有原始数据更糟糕的情况了。从早期的 Windows 事件查看器到 Solaris 审计日志,调查原始文件的难度都很大。但系统管理员至少可以对原始数据进行划分行并加入列标题的操作。通过对数字索引进行降序排列也可以提供帮助。

数据流应该进行合理组织,并借助当今技术进行图像化展示:线性表示法、条形图、饼图、数据分析和标注颜色可让数据解读变得更容易。实际上,成千上万条数据线和无数小时的滚动数据绘制于一幅线形图之后,只需 5 分钟即可研究清楚并准确地显示某一天、某一周甚至某个月的活动模式。

沟通

沟通对于任何流程(包括数据挖掘)而言都是一个关键要素。如果 ISSM 不了解企业中发生的异常情况或发展趋势,可以减轻和防止这些趋势的定义和模式标识就无法显露。位于某国西海岸的 A 公司的用户使用计算机习惯需要与其位于该国东海岸的卫星工厂用户保持一致。妨碍良好沟通的因素是自我保护。人们很自然地不愿意共享信息,因为其中可能包含关于某个人或某个工作地点的负面言论,并且这种抗拒情绪会阻碍过度延伸的数据挖掘流程。如果一个站点收集了真实的数据,而另一个站点没有,最终这两个站点都不会收集真实的数据。没有沟通,企业层面的数据挖掘始终会受阻。

沟通提供了一个集中的位置,可以在这里收集和评估分析数据,以发现趋势和模式。如果数据被添油加醋,制定对策的速度就会放缓,对策的有效性也会降低。与大多数在企业层面取得成功的工作一样,有效的沟通要从最高层开始。如果有既定的政策来增强凝聚力,部门经理就可以执行该政策,并制定流程予以支持和强化。如果沟通不力,政策制定水平也不会高,这会导致愿景被误解,并不可避免地制约沟通。

当前网络产生的信息量比以往任何时候都大。审计师必须配备所需的工具来应对挑战,确保信息的机密性、完整性、可用性并控制访问权限。要达成此目标,审计师的思维方式必须改进,一套简单的数据管理技能已无法满足需求。如果没有通过数据挖掘和分析获得的工具,审计师隔三岔五就会被数据压倒。这也会导致审查质量大打折扣,从全面的尽职调查演变为谨慎审查部分领域,或者也可能只对捕获的前几百行数据执行尽职调查。

学习如何编写在整个审计日志中循环搜索特定模式的脚本至关重要。数据的图形表示法为分析打开了大门,让审计师得以了解大局并确定趋势。沟通有利于分发用户行为相关数据,扩大信息池,以便更好地进行统计分析。这些是有效施行企业审计的关键。

定量

企业层面的成功需要 ISSO 编写脚本来更好地分析事件。该数据可能是每周登录的人数或每天审计日志的大小。该数据的汇总可用来确定平均发生率,从而为系统建立正常基准。记录发生频率也可以帮助预测脚本故障或用户活动激增等事件。定量分析增加了审计的深度并建立了模型,可使用这些模型根据数字趋势来预测事件。

结论

没有数据分析,企业层面的审计就是一门被低估的学科,其范围和有效性都会受到限制。如果审计工作人员没有受过培训并且没有掌握自动化编程语言、数据挖掘理念和一系列技能,就无法满足企业级领导的需求。这样领导层就无法对数据进行大规模分析,也无法建立每周或每天获取数据的工作机制。

但从安全的角度来看,数据分析的优势在于,它能让安全部门与企业的关键业务部门协调一致。数据分析可以发现其他方法可能遗漏的重复事件和共同趋势。通过建立数字基准或量化数据,不仅可以协助审计师完成日常审计任务,还能提高他们在审计中透过现象看本质的能力。如能有效沟通分析数据,决策者便可通过全局方法更好地了解自己的系统,这有助于企业层面目标的制定。数据挖掘增加了企业层面审计流程的维度和深度。

尾注

1 Udacity, https://www.udacity.com/
2 edX, https://www.edx.org/

Abdullah Al-Mansour, Security+
一名信息系统安全专业人员。兴趣包括分析、数据挖掘和技术。