2017年11月份,通付盾移动安全实验室发布了《移动互联网勒索病毒分析报告》,从威胁行为、传播源、攻击目标三个方面对移动互联网勒索病毒的攻击模式和整体趋势做详细表述。
本篇报告将着重介绍病毒样本的分析方法以及样本数据可信度的校验方法两个方面,当然,其中也包括对如何进行全网的勒索病毒数据挖掘这一工作的详细说明。在此基础上阐述移动互联网威胁信息平台搭建的价值所在,详细介绍基于威胁信息平台的TBS病毒挖掘模型的工作机制。威胁信息平台的搭建实现了威胁场景还原、威胁来源追踪、未知威胁感知等。在保证威胁信息时效性的基础上,实现了利用威胁信息驱动安全管理的主动防御机制。
注:报告中的数据以及观点,均为根据网络公开数据进行自主分析所得,仅供参考。
移动安全管理现状
2017年5月,勒索病毒像颗长熟的脓疮,借着移动互联网的“东风”在全球大范围的爆发。勒索病毒给网络用户特别是移动端设备严重依赖人群带来了恶劣影响。尽管各安全厂商对勒索病毒响应及时,但是不得不承认在这场网络安全战中,我们损失惨重。这场网络攻防战使得安全厂商们心有余悸,甚至要求安全厂商们重新思考传统的应用安全管理方法是否能够经得起下一次的病毒攻击?
移动互联网作为这个时代的“弄潮儿”,它的每一场技术革新改变的不仅是信息传输的便捷性,同时还隐藏着数以万计的高危漏洞、恶意程序、仿冒等,仅仅靠对应用进行检测、加固或者监测是远远不能取胜的。对于类似勒索病毒这样级别的威胁攻击,移动应用安全管理不仅包括舆情监察和公开的威胁情报,还需要能够做到对威胁攻击场景的还原的移动互联网威胁信息管理平台。
移动互联网威胁信息管理平台
传统的应用安全管理平台以威胁识别为主且数据处理能力有限,处于被动应急响应,威胁信息之间的关联分析维度较低,主要依赖于人工分析,威胁对抗能力不足。在威胁主动防御战中,我们需要一个高度具备驱动力的数据流转和响应驱动体系,平台反馈的威胁信息在时效性、数据关联复杂性以及威胁信息构成多样性上具有高度要求,不仅仅是一个威胁感知平台,更是一个基于大数据技术的威胁信息分析平台。
本文将从威胁信息的数据来源、数据处理以及如何实现威胁信息挖掘三个角度,介绍通付盾移动安全实验室推出的,一个具有大数据智能分析能力的移动互联网威胁信息管理平台。平台共包含威胁信息采集、数据标签化处理、威胁信息挖掘三个层面。
2.1应用信息采集:全渠道覆盖
通付盾移动安全实验室通过对300多个应用渠道的应用数据进行实时采集,实现对全网移动应用数据的基本覆盖。包括手机厂商应用商店、运营商应用商店、第三方应用商店、手机论坛、下载网站、网盘等。
图2-1样本采集覆盖渠道 在完成应用信息获取以及清洗之后,研究人员对数据进行进一步处理。在分布式文件服务器的支撑下,对获取的数据进行存储,包括应用的文件信息、运行信息、网络信息、代码特征等数据,基于分布式处理技术,实现数据的实时查询与分析。通过对全渠道应用的增量采集,使应用信息库保持持续更新,应用信息达到全网覆盖,数据质量高,具备高度可用性。
2.2数据标签化处理
仅对已有的数据进行简单整合后加上可视化的呈现方法展现,这并不足以体现出数据的全部价值,对于大数据量的应用信息我们采用数据标签化的处理方式。
在警匪类电影中,我们通常会看到破案者在分析案件过程会在白板上标记从已知线索中拆解出的小标签,利用标签之间的联系梳理案件线索,找出犯罪嫌疑人并最终锁定罪犯。这其中就体现了数据标签化处理的思想。研究人员对所存储的应用信息建立应用画像,给应用从多维度“贴”上不同类型标签,建立应用“线索”关系图谱。同时,通过漏洞检测引擎、病毒检测引擎、内容违规检测引擎的多维度分析实现对已知威胁、疑似威胁信息的识别。
图2-2数据标签化--多维分析线索图示 数据标签化的处理可以使得应用与应用之间更好的关联起来,对威胁场景还原、威胁行为溯源起到支撑作用。
2.3威胁信息挖掘:TBS病毒挖掘模型
在数据标签处理的基础上,就已经实现对已知威胁的识别具备安全管理平台的功能。为了提升威胁信息的深度挖掘能力和对威胁事件的应急响应能力。在此基础上,通付盾移动安全实验室提出并引入了TBS病毒挖掘模型(简称TBS模型;Target-Behavior-Source,缩写:TBS)。TBS病毒挖掘模型基于已有的应用数据标签,从恶意程序的攻击目的、传播方式和恶意行为三个方面的特征建立多层挖掘模型,实现从威胁识别到威胁感知、威胁溯源的体系升级。
2.3.1 TBS病毒挖掘模型的依据
恶意程序的三个重要特征为目的性、传播性和破坏性,这三者也是判断一个程序是否为恶意应用的主要依据。其中,目的性是恶意代码的基本特征,也是法律上判断恶意程序的标准;传播性是恶意程序达到攻击目的的重要手段;破坏性体现了恶意程序的攻击行为,例如破坏软硬件系统、窃取用户数据等。不同的恶意应用,在攻击目的、传播方式和恶意行为这三个方面也会有所区别。
图2-3恶意程序基本特征 移动端恶意应用与PC端应用相比具有不同的特点。例如,移动恶意应用的来源主要为第三方应用市尝网站以及公开的论坛等,通过社交软件、网盘、恶意网站等方式传播,获取用户的个人数据或勒索用户个人财产是其主要的攻击目的,因此,所利用的攻击行为与PC端存在显著差异。我们在传统恶意程序特征的基础上进行调整和细化,衍生出针对移动端恶意应用的三类特征作为TBS病毒挖掘模型的三个主要依据,分别为:攻击目标、威胁行为、传播源。
攻击目标(Target):与恶意攻击的目标和目标用户等相关的信息,例如恶意应用的目标用户、伪装方式等信息。
威胁行为(Behavior):与具体恶意破坏行为相关的特征,例如恶意扣费、信息窃娶远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为等。
传播源(Source):与移动端恶意应用的传播方式、传播来源相关的信息,例如相关的社交账号信息、网址、开发者信息等。
图2-4移动端恶意程序特征衍生关系 2.3.2 TBS病毒挖掘模型单层结构
如前文所述,TBS病毒挖掘模型在应用数据标签的基础上,将恶意程序样本特征作为病毒挖掘依据,实现多层迭代式搜索挖掘。每层搜索过程分别检测与样本集合特征相匹配的应用。当某个应用有两种以上特征符合病毒样本特征,则认为该应用为相关恶意应用。而符合一个病毒特征的视为潜在恶意应用。下一层的迭代搜索以对应的上一层获得的恶意应用为基矗
图2-5 TBS病毒挖掘模型顶层示意图 图2-5描述了TBS模型基本的病毒挖掘过程。将移动应用从传播源、攻击目标以及威胁行为三个特征匹配的结果作为三个集合,根据集合之间的关系,每层挖掘得到的病毒样本结果分为7个部分。
具有两种或两种以上病毒样本特征的应用均具有较高的恶意性,我们将这些样本作为捕获的新增病毒样本,并且在下一层的挖掘过程中作为分析病毒特征的依据。主要包括以下4个部分:
1.新增同质病毒样本
三个集合交集处的应用与原始样本具有相同的传播源、攻击目标以及威胁行为特征(即具有同质性),可以认为这些样本的恶意性程度很高。我们称这些新增的样本为同质病毒样本。
2.威胁行为变异型病毒
若应用的传播源和攻击目标特征与原始病毒样本匹配,而在威胁行为方面有所不同,可以认为这些样本具有较高的恶意性,我们将其标记为威胁行为变异型病毒。
3.攻击目标变异型病毒
若应用的威胁行为和传播源特征与原始病毒样本匹配,而在攻击目标方面有所不同,可以认为这些样本具有较高的恶意性,我们将其标记为攻击目标变异型病毒。
4.传播源变异型病毒
若应用的威胁行为和攻击目标特征与原始病毒样本匹配,而在传播源方面有所不同,可以认为这些样本具有较高的恶意性,我们将其标记为传播源变异型病毒。
仅匹配了一种特征的应用程序被标记为潜在恶意应用,包括:传播源衍生潜在恶意应用、攻击目标衍生潜在恶意应用以及威胁行为衍生潜在恶意应用3个部分。
1.传播源衍生潜在恶意应用
若被扫描应用具有原始病毒样本的传播源特征,则该应用具有一定的潜在恶意性,我们将此类应用称为传播源衍生潜在恶意应用。
2.攻击目标衍生潜在恶意应用
若被扫描应用具有原始病毒样本的攻击目标特征,则该应用具有一定的潜在恶意性,我们将此类应用称为攻击目标衍生潜在恶意应用。
3.威胁行为衍生潜在恶意应用
若被扫描应用具有原始病毒样本的威胁行为特征,则该应用同样具有一定的潜在恶意性,我们将此类应用称为威胁行为衍生潜在恶意应用。
2.3.3 TBS病毒挖掘模型多层迭代过程
在单层病毒挖掘模型的基础上,进行多层迭代搜索,通过已经获得的病毒样本得到更多的病毒和潜在恶意应用,使我们能够获得更完备的恶意应用样本库,为分析威胁态势提供可靠依据。
图2-6 TBS病毒挖掘模型层级迭代过程 TBS模型第n层的病毒挖掘以n-1层获得的病毒样本为基础,并且根据第n-1层的获得的样本所属的来源集合进行扩张:
威胁行为变异型病毒:对该集合,在威胁行为特征上进行扩充,即:搜索与该集合样本具有相同威胁行为的应用样本。
攻击目标变异型病毒:在攻击目标特征上进行扩充,即:搜索与该集合样本具有相同攻击目标的应用样本。
传播源变异型病毒:在传播源特征上进行样本扩充,即:搜索与该集合样本具有相同传播源特征的应用样本。
通过这种样本扩充方式,能够在维持模型可靠性的同时挖掘出更多的变种病毒样本,并且尽可能避免了重复的搜索。
与单层模型相同,迭代获得的样本根据所属的集合分为同质病毒样本、威胁行为变异型病毒、攻击目标变异型病毒、传播源变异型病毒、传播源衍生潜在恶意应用、攻击目标衍生潜在恶意应用、威胁行为衍生潜在恶意应用7类。并且根据样本所匹配的病毒特征的个数,分别作为新增病毒样本和新增潜在恶意应用。
2.3.4 TBS病毒挖掘模型效果验证
此前,我们针对勒索病毒进行了全网的态势分析,基于TBS病毒挖掘模型我们对勒索型恶意应用进行了全网搜寻,通过三层的检测过程,共检测到5万余勒索类病毒样本和30万余潜在的恶意应用。图2-7展示了经过TBS模型各层检测过程捕获的样本数量,包括病毒样本和潜在的恶意应用。图中,每层对应的样本数量为累积值(例如Level 1的样本数量为第一轮检测所获得的数量,Level 2的样本量为前两轮获韧病毒样本去重后结果,以此类推)。
图2-7 TBS模型每层捕获样本数量 下面,结合获得的病毒样本的数量和增长局势的情况来看TBS病毒挖掘模型的实际挖掘效果。
TBS模型具有较强的病毒样本挖掘能力
TBS模型具有较高的病毒挖掘能力经过第一层的基于TBS模型的检测,我们从200余个病毒样本的原始样本集出发,获取到51151个恶意应用和潜在恶意应用247332个。从比例来看,第一层检测捕获的病毒样本数量是原始样本个数的两百余倍、捕获的潜在恶意应用数量原始样本个数的一千余倍。这表明,TBS模型具有较高的病毒样本挖掘能力,能够通过有限个数的原始病毒样本迅速地挖掘出大量相关病毒样本和潜在恶意程序样本,从而能够有效地评估和预测病毒威胁态势。
TBS模型具有较准确的病毒识别能力
TBS模型具有较准确的病毒样本识别能力TBS模型是通过应用特征多次迭代进行挖掘,因此,如果模型所基于的检测特征不够准确、缺乏代表性,会导致每次迭代引入大量无关的(非恶意)样本,使得检测结果不可信。从实际数据来看,前三层检测过程所获取的新增病毒数依次为50935个、2943个、1218个。换言之,对于TBS模型每层检测到的病毒样本数量,其增长趋势是逐层减缓并收敛的。这表明TBS模型所选择的三个方面特征能够捕捉到病毒程序的特性,与我们对TBS模型捕获的样本进行抽样核验的结论相符。因此可以认为,我们此次获取的样本具有较高的覆盖率和可信性,并且能够反映勒索类病毒的分布和数量趋势。
价值落地:从威胁识别到威胁感知和溯源
平台搭建的最终目的是对威胁数据的有效利用,输出具有时效性强、数据关联复杂度高的威胁信息。高覆盖率和高可信度的样本数据的价值也从威胁识别提升到威胁感知和溯源。
3.1多维度感知,源头可溯
要想洞悉整个威胁场景,要求安全研究人员对威胁信息的分析维度要足够全面。在此前发布的勒索病毒研究报告中,通付盾移动安全实验室研究员在自动化感知的病毒数据基础上,针对勒索病毒从伪装类型、传播源、威胁行为三个维度上展开分析,在威胁地域、时间、攻击者特征等方面得出重要结论,并以此追踪到较大的犯罪团伙—彼岸花技术团队。针对攻击场景的威胁信息能够更直观的反映出攻击目的,为相关部门采取防护行动提供参考。我们已经具备在获悉部分条件的情况下,还原整个威胁场景的能力。
图3-1多维度威胁溯源分析示意图 3.2多角度告警,隐患可防
在利用数据关联性分析还原威胁事件的前提下,我们对威胁趋势进行预判,从攻击手段、攻击地域、攻击目的等不同角度分析威胁趋势,针对攻击者本身以及攻击事件向移动网络用户个人、企业发出告警信号并提供专业、全面的防护措施方案,形成具有决策性的威胁情报。
移动互联网威胁信息平台的搭建实现了威胁场景还原、威胁来源追踪、未知威胁感知等。在保证威胁信息时效性的基础上,实现了利用威胁信息驱动安全管理的主动防御机制。
当然,威胁情报驱动安全威胁信息管理平台要想实现大范围的威胁告警需要和企业、公安部门、监管部门、应用商店以及各安全厂商等建立联动机制,保证威胁信息时效性的前提下采取网络威胁的应急措施,在遭受攻击之前排查隐患、修复漏洞,切实的保护网络数据安全和个人财产安全。
总结
穷源溯流,网络安全威胁的来源主要包含技术风险、网络安全管理环节薄弱以及人为攻击三个因素。尽管目前移动安全管理处于初步阶段,但是随着国家相关政策的支持,尤其是《网络安全法》的出台,网络安全管理机制逐渐完善,公安部、监管部门、网络运营者、安全厂商等各方面的力量逐渐汇聚在一起,政企联合、警企联动的防御体系逐渐形成,安全团队正逐渐扩大,共同维护网络安全。
参考资料
[1]《移动互联网勒索病毒分析报告》
[2]数据与威胁情报
[3]如何评估安全威胁情报对企业的价值
[4]以数据为核心的SOC3.0时代到来
[5]如何利用用户标签数据