东北大学学报:自然科学版  2019, Vol. 40 Issue (1): 26-31  
0

引用本文 [复制中英文]

徐久强, 周洋洋, 王进法, 赵海. 基于流时间影响域的网络流量异常检测[J]. 东北大学学报:自然科学版, 2019, 40(1): 26-31.
[复制中文]
XU Jiu-qiang, ZHOU Yang-yang, WANG Jin-fa, ZHAO Hai. Anomaly Detection of Network Traffic Based on Flow Time Influence Domain[J]. Journal of Northeastern University Nature Science, 2019, 40(1): 26-31. DOI: 10.12068/j.issn.1005-3026.2019.01.006.
[复制英文]

基金项目

中央高校基本科研业务费重大科技创新项目(N161608001)

作者简介

徐久强(1966-), 男, 辽宁北镇人, 东北大学教授;
赵海(1959-), 男, 辽宁沈阳人, 东北大学教授, 博士生导师。

文章历史

收稿日期:2017-10-18
基于流时间影响域的网络流量异常检测
徐久强, 周洋洋, 王进法, 赵海    
东北大学 计算机科学与工程学院, 辽宁 沈阳 110169
摘要:针对如何提高网络流量异常行为检测准确率的问题, 提出基于网络流时间影响域(TID)的网络流量检测模型.通过分析正常和异常情况下流量网络模型平均度的变化, 构建了基于复杂网络平均度指标的网络流量异常检测算法.实验结果表明, 基于网络流时间影响域的流量网络模型能合理地描述网络流量间的依赖关系, 具有良好的检测性能, 同时该网络模型仅需时间戳、源IP、目的IP三维网络特征即可实现, 检测方法适用于绝大多数网络类型, 检测效率优于其他网络流量异常检测方法, 具有较高的普适性.
关键词网络流量    异常检测    流时间影响域    流量网络模型    网络平均度    
Anomaly Detection of Network Traffic Based on Flow Time Influence Domain
XU Jiu-qiang, ZHOU Yang-yang, WANG Jin-fa, ZHAO Hai    
School of Computer Science & Engineering, Northeastern University, Shenyang 110169, China
Corresponding author: WANG Jin-fa, E-mail: jinfa.wong@gamil.com
Abstract: Aiming at improving the accuracy rate of anomaly network traffic detection, a network traffic detection model was proposed based on the time influence domain(TID)of network flow. By analyzing the changes of average degree of traffic network model under the normal and abnormal conditions, an anomaly detection algorithm of network traffic based on the average degree metric of complex network was developed to detect the abnormal traffic. Experimental results show that based on the flow time influence domain, the anomaly detection model of traffic network can reasonably describe the inter-dependency relationship between network traffic. The proposed method has a better detection performance, meanwhile only three network features, i.e. timestamp, source IP and destination IP, are needed to implement the above model. Detection efficiency is better than other methods. The method proposed meets most network types and has a better ubiquity.
Key words: network traffic    anomaly detection    flow time influence domain    traffic network model    network average degree    

目前互联网所承载的数据, 基本形态为网络流量.为保证业务的可靠运行, 构建可信的网络环境, 减少各类异常事件对通信网络及其承载业务的危害, 网络流量异常行为的检测变得更加重要.针对网络流量异常检测技术, 程艳云等提出一种基于大数据的全新时间序列异常点检测方法[1].赵海等为了研究地震网络的动力学行为, 提出基于时空影响域的地震网络[2].贺涛提出基于网络数据流依赖关系的拟阵构造[3].由此可知, 网络间的数据流之间存在依赖关系, 并且可以进行量化.大多数异常攻击的通信行为在时间上是分阶段进行的, 在异常通信行为中, 通信行为在一个合理的时间影响域内存在依赖关系[4].

基于网络流量特征具有自相似特性[5], 本文提出基于流时间影响域的流量网络模型(TID网络模型)并用于流量异常检测, 提出基于网络平均度的网络流的异常检测方法, 并通过实验数据进行验证.

1 TID网络模型构建

异常行为是连续行为, 即当在一个源IP的流中发现了异常行为, 那么在下一阶段中网络行为仍是异常的是个大概率事件, 因此可知网络通信行为具有时间局部性特征, 在一个时间影响域(time-influence-domain, TID)内的网络数据流之间存在依赖关系是一个大概率事件, 因此基于流时间影响域的网络流量异常检测是可行的.

通过对网络数据流中的每条数据流提取三维网络特征x(时间戳t、源IP、目的IP)的网络流量数据集D={x1, x2, …, xn}, n≥2, 构造基于时间影响域的流量网络来表示数据流之间的依赖关系, 并通过分析其特征值的变化来检测网络异常行为发生的时间.首先将网络数据流量按照时间演进顺序分解为更小的尺度分量, 每个小分量为一个采样窗口, 窗口长度为Δw, 然后基于流时间影响域内网络数据流间的依赖关系构造TID网络模型, 最后计算网络特征值, 分析可能的网络异常时间段, 进行网络流量异常检测[6-10].

数据集D以采样窗口Δw进行切割后得到流量子集为

, xj表示在i·Δw到(i+1) · Δw采样窗口下的网络数据流.

1.1 网络节点

考虑到通信行为的方向问题, 本文构造两种不同节点的TID网络模型, 节点的认定方式如下:

SrcIP→DstIP:如果存在从源IP到目的IP的通信数据流就认定为一个节点;

SrcIP DstIP:如果存在从源IP到目的IP或从目的IP到源IP的通信数据流就认定为一个节点.

1.2 连接关系

在网络攻击行为中, 在网络流的时间影响域内, 每一条网络流(TID网络模型的节点)与在该条流之后该影响域内的每条网络流之间均具有相关性.因此在该时间影响域内可以建立连接关系.TID网络模型中的连接关系代表网络设备间通信行为的依赖关系.

网络数据流是按照时间来进行数据采集的, 按照采样窗口长度Δw进行数据切割后, 得到若干个采样窗口, 每个采样窗口均造一个TID网络, 得到若干个TID网络, 记为T={t1, t2, …, tn}, n≥2.

1.3 TID网络构建实例

图 1为例, 图 1a中数据描述如下:

图 1 对应采样窗口ti的TID网络模型构建示例 Fig.1 An example for TID network model in time-window ti (a)—网络拓扑时序图;(b)—对应TID网络wi.

时间戳(0~8)表示当前网络采样窗口下数据流时间戳; 数据流(A~D)表示当前网络采样窗口下存在的数据流, A~D分别对应具有不同的源IP与目的IP组合的数据流;矩形条带表示该网络流的影响范围, 即流时间影响域.

根据当前采样窗口的网络数据流, 以每条网络数据流为初始节点, 通过时间影响域判断对应节点在该网络数据流的时间影响域中是否和其他网络节点形成连接关系, 形成TID网络模型,如图 1b所示.

2 流量异常检测方法研究

近年来的研究发现, 数据网络中的业务量呈自相似特性[11],这种网络的自相似性成为网络流量异常检测的理论基础.在异常情况下, 网络拓扑结构发生变化, 网络拓扑特征值也相应发生变化.

当网络数据流发生变化时会导致在当前时间影响域下的网络平均度均会偏离, 故可通过分析网络平均度分布的变化, 推断可能的网络异常行为时间段.

本文构造TID网络模型来表示网络数据流之间的依赖关系, 通过分析网络拓扑结构的网络平均度分布情况来判断可能的异常网络时间段.

异常网络行为在时间上是有序的, 大多数的异常行为都有一个共同的行为特征, 它们发生时间较短, 并且攻击行为集中.这种异常行为会导致网络特征分布发生变化.图 2所示为不同的攻击行为导致的网络异常流量特征分布情况.

图 2 基于时间顺序的异常流量特征分布 Fig.2 Distribution of abnormal traffic characteristics based on chronological order (a)—分布式拒绝服务攻击;(b)—端口扫描攻击;(c)—蠕虫攻击.

基于以上分析可知, 网络发生异常行为时, 会使网络节点的节点度分布发生变化, 因此可知, 根据度分布来分析异常网络行为是可行的.复杂网络中, 节点的度及网络的平均度 < k > 定义如下:

定义1 节点的度.在网络中, 节点vi的邻边数ki称为该节点vi的度.

定义2 网络平均度.在网络中对所有节点的度求平均值, 可得到网络的平均度 < k > :

(1)

在TID网络模型中, 当其样本数量变大, 随着时间顺序连续变化时, 其网络行为是连续行为, 因此网络平均度分布符合中心极限定理[12].互联网具有自相似性, 因此当实验数据结果超过某个阈值时, 可认为该时间段为可能的异常时间段.

在本文中, 异常判定的规则如下定义:

(2)

其中:Dc(ti, Ui)为i·Δw到(i+1)·Δw采样窗口下的TID网络模型的网络平均度; η为网络拓扑的网络平均度偏差; 0表示该采样窗口对应的时间段可能为异常网络时间段; 1表示该采样窗口对应的时间段可能为非异常网络时间段.

该规则表明, 当在第i个采样窗口中, 当前TID网络模型的网络平均度的偏差超过η时, 认为采样窗口对应的时间段为异常时段.η的取值, 本文通过对其他场景下正常网络流量的数据集进行训练获得[13].本文中, μ为TID网络模型的网络平均度均值, σ为标准差, L为给定对应置信区间的正态分布的分位数, 置信区间由正常流量训练可得.阈值η的计算公式为

(3)
3 实验结果分析 3.1 实验数据集

本文使用数据集包括背景流量与异常流量所构成的真实僵尸网络流量, 选取3个僵尸网络场景, 并用标签表示该条数据流是否为异常流量[14].僵尸网络场景描述如表 1表 2所示.

表 1 僵尸网络场景特点[5] Table 1 The characteristics of the botnet scene
表 2 僵尸网络场景标签分配[5] Table 2 Labeling of botnet scene
3.2 实验结果及评价 3.2.1 实验数据结果

本文中, 采样窗口长度Δw=2.5 min, 流时间影响域确定为Δt=75 ms.抽取背景流量, 即为无攻击行为的网络数据流量.由此, 可将实验分为两部分:背景流实验和攻击流实验.将两种不同的网络流量均按照TID网络模型进行处理.背景流实验与正常流实验结果的对比过程仅用于对TID网络模型的正确性验证, 并不作为可能的异常时间段的确定.在实验过程中, 发现以SrcIP DstIP和以SrcIP→DstIP为节点的TID网络模型的网络平均度呈现同样的变化趋势, 故在本实验中仅表示以SrcIP DstIP为节点的TID网络模型实验结果.

图 3为这3个场景的实验结果及可能的异常网络时间段判别结果.其中, 横坐标表示采样窗口wi, 为了方便表示, 将其映射为对应的时间, 纵坐标表示TID网络模型的网络平均度, 检测结果表示根据攻击流实验结果检测的可能的异常行为时间段.

图 3 攻击流实验与背景流实验对比及检测结果 Fig.3 Comparison between attack flow and background flow and detection results (a)—场景1;(b)—场景2;(c)—场景3.

图 3中可以得出, 在无攻击情况下攻击流的实验结果与背景流的实验结果相同;当发生攻击行为时实验结果不同, 在数据结果不同的时间段为异常行为发生的时间.本文中背景流实验与攻击流实验数据结果不同时, 所得的异常时间段同捷克理工大学判定的异常时间段相吻合.由此可知, TID模型对异常行为检测是合理且有效的.接下来将给出仅依据攻击流实验可能出现的异常时间段的判定结果.

3.2.2 依据攻击流实验确定可能的异常时间段

实验过程中针对场景1、场景2、场景3实验数据集分别构造了TID网络, 依据网络平均度分布确定阈值, 获取可能的异常网络时间段.场景1、场景2、场景3依据TID模型进行可能的异常网络时间判别结果见表 3.

表 3 TID检测异常网络时间判别结果 Table 3 TID detection results for abnormal network time

其中场景2与其他网络流量异常检测方法的实验对比结果见表 4.本实验评价指标采用准确率(accuracy, ACC)、精确率(precision, PRE)、召回率(recall, REC)和综合评价指标(Fb=1).其中TP(true positive)表示模型预测为正常流量且模型预测正确的样本数量, TN(true negative)表示模型预测为异常流量且模型预测正确的样本数量, FP(false positive)表示模型预测为正常流量但模型预测错误的样本数量, FN(false negative)表示模型预测为异常流量的样本且模型预测错误的样本数量.

表 4 场景2实验对比结果 Table 4 Experimental comparison results for scenes 2

实验结果表明, TID模型对网络流量的异常检测的准确率最高达93.52 %, 精确度最高达74.63 %, 通过实验对比可知, TID网络模型的检测结果优于异常检测结果.对比3个场景的实验结果, 场景3的异常发生的持续时间较突然且短暂, 因此导致异常网络流量数据中的数据依赖程度较低, 且通过分析数据集可知, 在场景3中存在用户数据集激增的情况, 因实验数据是基于捷克理工大学的真实校园网络的背景流量, 而背景流量存在不可控及不可预知性, 其网络平均度远高于正常情形下的网络平均度, 推测原因为在此采样窗口下, 校园用户激增, 故导致在场景3中的ACC较高,但PRE较低.

4 结论

本文提出流时间影响域的概念, 同时基于流时间影响域, 首次提出基于流时间影响域的网络流量异常检测模型, 用于网络流量异常时间段的检测.以网络平均度作为衡量指标, 通过分析其分布特点, 判断可能的异常网络时间段, 并通过实验加以验证.实验结果表明, TID网络模型, 在网络流量异常检测分类中取得了良好的效果, 其平均准确率达到88.42 %, 可以较为准确地判断出可能的异常网络时间段,且更加适用于异常行为连续发生的情况.本文为异常网络流量检测的研究提供了新的思路和方法, 该方法仅需获取网络数据流中的时间戳、源IP、目的IP, 可以满足绝大部分网络, 具有普适性.

参考文献
[1]
程艳云, 张守超, 杨杨. 基于大数据的时间序列异常点检测研究[J]. 计算机技术与发展, 2016, 26(5): 139–144.
( Cheng Yan-yun, Zhang Shou-chao, Yang Yang. Research on time series outlier detection based on big data[J]. Computer Technology and Development, 2016, 26(5): 139–144. )
[2]
赵海, 张娅, 何璇, 等. 基于时空影响域的地震网络动力学演化特征分析[J]. 东北大学学报(自然科学版), 2015, 36(9): 1232–1236.
( Zhao Hai, Zhang Ya, He Xuan, et al. Dynamic evolution analysis of earthquake network based on the time-space influence domain[J]. Journal of Northeastern University(Natural Science), 2015, 36(9): 1232–1236. DOI:10.3969/j.issn.1005-3026.2015.09.004 )
[3]
贺涛.基于网络数据流依赖关系的拟阵构造[D].上海: 复旦大学, 2009.
( He Tao.Matroid contruction based on data streams dependent relationship in network[D].Shanghai: Fudan University, 2009. http://cdmd.cnki.com.cn/article/cdmd-10246-2009183039.htm )
[4]
程光, 龚俭, 丁伟. 基于抽样测量的高速网络实时异常检测模型[J]. 软件学报, 2003, 14(3): 594–599.
( Cheng Guang, Gong Jian, Ding Wei. A real-time anomaly detection model based on sampling measurement in a high-speed network[J]. Journal of Software, 2003, 14(3): 594–599. )
[5]
Grill M, Stiborek J, Zunino A. An empirical comparison of botnet detection methods[J]. Computers & Security, 2014, 45: 100–123.
[6]
Akoglu L, Tong H, Koutra D. Graph based anomaly detection and description:a survey[J]. Data Mining & Knowledge Discovery, 2014, 29(3): 626–688.
[7]
Oz L E, Eilertson E, Lazarevic A, et al. MINDS-minnesota intrusion detection system[J]. Cd Technology, 2007, 31(5): 151–153.
[8]
Ahmed M, Mahmood A N, Hu J. A survey of network anomaly detection techniques[J]. Journal of Network & Computer Applications, 2016, 60: 19–31.
[9]
Sridharan N A, Ye T, Bhattacharyya N S.Connectionless port scan detection on the backbone[C]// IEEE International Performance Computing and Communications Conference.Phoenix, 2006: 567-576.
[10]
Tavallaee M, Stakhanova N, Ghorbani A A. Toward credible evaluation of anomaly-based intrusion-detection methods[J]. IEEE Transactions on Systems Man & Cybernetics:Part C, 2010, 40(5): 516–524.
[11]
Xu K, Zhang Z L, Bhattacharyya S. Profiling internet backbone traffic:behavior models and applications[J]. ACM SIGCOMM Computer Communication Review, 2005, 35(4): 169–180. DOI:10.1145/1090191
[12]
Barbara D, Wu N, Jajodia S.Detecting novel network intrusions using bayes[C]// Siam Conference on Data Mining.Philadelphia, 2001: 308-317.
[13]
Sengar H, Wang X, Wang H, et al.Online detection of network traffic anomalies using behavioral distance[C]// International Workshop on Quality of Service.Charleston: IEEE, 2009: 1-9.
[14]
Hua L, Joe H. Strength of tail dependence based on conditional tail expectation[J]. Journal of Multivariate Analysis, 2014, 123(1): 143–159.