最新消息:

网络安全改善不能依赖机器学习

安全知识 admin 2216浏览 0评论
jinglingshu_2017-11-01_13-25-42
马特·哈里根(Matt Harrigan)信息安全领域成名已久的专家,他开发过多个挑战传统安全模型的产品。机器学习并非网络安全的万灵药。

我知道你现在肯定在说“但是据我所知,现在每家热门的网络安全公司都是以机器学习为基础的,而且机器学习公司在行业未成熟的情况下也获得了前所未有的风险投资。”

你的说法没错,情况确实如此——它们的背后通常都有合理的原因。

我不是要反对整个机器学习研究领域,只是对机器学习最近被不当应用于全面分析网络感到不满。

算法学习理论、群集算法、自组织映射——这些听起来很高大上的东西确实可以在特定的安全领域发挥极大的作用。

例如 UBA 和 EDR 都有不错的发展,而且在大规模应用方面相当可行。我认为 Exabeam 和 Cylance 等公司所做的东西都拥有非常广阔的前景。在网络安全领域之外,机器学习也可以实现一些有价值的技术解决方案。

我认为问题在于这种观念——将机器学习模型看成是高效检测复杂网络攻击的主要方式。我在过去 2 年之内已经与无数家安全服务商接触过,然后发现它们或多或少都会出现下面提到的问题:

不当的数据和特征选择

jinglingshu_2017-11-01_13-25-56

在从网络协议数据提取特征的时候,数据科学家通常会选择字节和数据包的数量,并从中辨别出异常的网络使用情况。这类算法主要用于检测出网络处于闲置状态时突然出现的数据传输。这些情况通常被认为是“有其他人入侵了那台机器!”或者“恶意软件正在窃取机密信息。”

事实上,终端用户一般给出的回应是,“是的,我在过去两周都在将整个硬盘的数据备份到 Dropbox 上”或者是“你没有看到我在上传什么 BT 种子吧?没有就好,那只是一些任天堂的游戏包而已。”

数据规模所带来的巨大成本

jinglingshu_2017-11-01_13-25-41

我们希望利用机器学习进行分析的特征数量已经让大多数数据科学家无所适从。这是因为这些数据的数量和特征变化实在太大了。PacketSled 会捕捉从第 2 层到第 7 层网络的所有流量,而且我们会长时间保留这些数据(我们规模最小的客户每天也能获取和保存 1 亿个事件)。客户一般得到的回应是“在这个数据组中进行这项操作需要花费大量成本,除非你想了解的是非常具体的问题。”

同样地,我们也不想找出太多的威胁误报,或者过于详细具体的问题。这是只认证签名的方式所带来的问题。它们实在过于特殊,而且它们的意义只体现在极短的一段时间内。机器学习的应用价值应该不止于此。

机器学习能否检测出恶意行为?

jinglingshu_2017-11-01_13-25-411

即使主要利用机器学习检测异常状况的安全平台能够获取和处理所有数据,提取我们想要的所有特征,然后正确地对它们进行集群,但是这里还有一个严重的问题哲学问题——客户基准数据的纯洁性。那些将机器学习标榜为核心技术优势的安全服务商通常都会首先抛出 Verizon 式的统计数据——“几乎 100%的网络都遭到了入侵!”

那么你的模型是如何从杂乱无章的网络中得出基准网络流量呢?如果你可以向我展示这项技巧的话,我就能从加州北滩太空漫步到阿尔卡特拉兹岛。

“一个能使用谷歌的 10 岁小孩都能比它更快、更准确地回答问题。”

除了数据的深度、特征和基准问题以外,我们还要关注时间问题。机器学习算法需要在一定时间之内从海量数据中获取有意义的数据。即使你只是在查找少量的参数,在数据分析上花费过长的是时间都会导致严重的性能问题,甚至是完全的失败。

对于机器学习来说,持续运行和大范围的内存查找是必须的。我们可以想象如果 IBM 的 Watson 是在只有 SD 卡知识容量的掌上电脑上运行的话会怎样——一个能使用谷歌的 10 岁小孩都能比它更快、更准确地回答问题。还有值得一提的是,一般的机器学习算法是不可能达到 Watson 的水平的。

假如用户在网上下载了一个可执行文件,然后该文件在潜伏 30 天之后才开始进行恶意行为,这样即使使用机器学习也无法侦测出恶意行为的发起方。如果没有长期记录的数据组来告诉你 30 天前发生的事情,那你就有大麻烦了。

你的网络是一个不断变化的动态系统,要为一个混乱的动态目标定下基准不仅是不切实际的,而且是不可能做到的。

话虽如此,机器学习仍然在网络安全领域占有一席之地。机器学习模型可以作为触发一连串事件的单个输入,帮助我们了解到更为全面的情况。我们不能要求它实时整理出数十亿计的对象,或者处理历史上任何有价值的数据。

企业并不需要一个能够洞察一切的神奇数学机器人。我们要做的是整合安全专家的知识,自动将微量分析结果、威胁情报以及有迹可循的网络流量和文件元数据联系在一起,帮助我们理解和避免网络攻击。我们的方式需要体现安全专家的逻辑,让应急工作人员可以不再被威胁误报困扰,并把精力放在他们真正的职责——回应安全事件之上。

题图来自:Winui/Shutterstock

翻译:关嘉伟(@consideRay

Machine Learning Is Not The Answer To Better Network Security

转载请注明:jinglingshu的博客 » 网络安全改善不能依赖机器学习

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址