请选择 进入手机版 | 继续访问电脑版

ISCXTor2016数据集(Tor-nonTor dataset)介绍

[复制链接]
期待幸福 发表于 2021-1-2 19:44:51 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
简介

  ISCXTor2016数据集是UNB(University of New Brunswick)发布的Tor流量有标签数据集。这个大学发布了许多网络安全范畴的数据集,包罗广泛使用的NSL-KDD数据集和CICIDS2017数据集。本文对该数据集举行尽大概详细的先容。
数据集生成

  为了生成现实世界流量的代表性数据集,作者界说了一组任务,以确保数据集具有足够的多样性和条目数。作者为用户Alice和Bob创建了帐户,以便使用Skype,Facebook等服务。数据集包罗来自高出18种代表性应用步调(比方,facebook,skype,spotify,gmail等)的以下8种范例的流量(browsing, chat, audio-streaming, video-streaming, mail, VOIP, P2P 和 File Transfer)。
   Tor流量捕捉场景如图1所示。图出自参考文献中的论文。

  图1 Tor流量捕捉场景    工作站通过网关虚拟机毗连到Internet,后者又通过Tor网络路由所有流量。通过此设置,在工作站虚拟机上使用Tor网络变得透明。作者同时捕捉了工作站和网关处的传出流量,并收集了两个.pcap文件:一个通例流量(工作站)pcap文件和一个Tor流量(网关)pcap文件。捕捉的流量通过以下两步举行标记。 首先,对在工作站捕捉的.pcap文件举行处置惩罚:作者提取了流,并确认大部门流量是由应用步调X(skype,ftps等)生成的,X即流量捕捉的对象。然后,作者未来自Tor .pcap文件的所有流标记为X。这种标记Tor流量的方法背后的原因是,Tor是一种面向电路的协议:从网关到入口节点的所有流量都将被加密并通过相同的毗连发送。
   数据会合界说了8种种别,即Browsing, Email, Chat, Audio-streaming, Video-streaming, File Transfer, VoIP和P2P。详细界说可以看文献。同时,作者界说了一系列特征,详见文献。
   作者思量了两种场景:


  • Scenario A: Tor流量检测。为了创建这种场景,作者归并了两个差别的数据集,即本文中先容的Tor数据集和Draper-Gil等人生成的加密流量公开数据集,其包罗了同一网络上的相同应用。作者根据pcap文件生成了流,并从每个数据会合提取了所提出的基于时间的特征,并未来自Tor数据集的所有流标记为Tor,并未来自Draper-Gil等人的数据集的所有流标记为NonTor。作者归并了两组带标签的流,并将它们用作场景A实验的输入。在这种场景下,用例是一个给定从加密流量(输入)中提取的一组基于时间的特征,分辨出是否属于Tor(输出)流量的应用。
  • Scenario B: Tor流量中的应用辨别。在这种场景下,仅使用了本文先容的Tor数据集。根据在网关处捕捉的.pcap文件生成了流,并根据工作站上执行的应用步调对它们举行了标记(Browsing, Audio, CHAT, Mail, P2P, FILE TRANSFER, VOIP, 和Video)。此场景中的用例是一个应用步调,给定从Tor流提取的一组基于时间的特征(输入),该应用步调将检测(标记)在该流中运行的应用步调范例(输出)。
  实验部门不做先容了,感兴趣的可以去看原文献。
数据集文件

  共有两个压缩包,即TorCSV.zip和TorPcaps.zip。


  • TorCSV.zip中有Scenario-A和Scenario-B两部门,此中Scenario-A中文件如图2所示,Scenario-B中文件如图3所示。数据会合的时间为UDP流的timeout时间(生成流时,TCP根据FIN包确定竣事时间,UDP流根据timeout时间竣事)。

  图2 Scenario-A

  图3 Scenario-B

  • TorPcaps.zip中有nonTor和tor两部门,此中nonTor中文件如图4所示,tor中文件如图5所示。nonTor应该就是Draper-Gil等人生成的加密流量公开数据集,tor为作者捕捉的数据。

  图4 nonTor

  图5 tor 写在最后

  由于水平有限,不敷之处,还请品评指教。别的,由于一些众所周知的原因,大概官网下数据集比力慢。我把数据集下下来存到onedrive上了,需要的可以接洽我分享onedrive链接。
参考文献

Arash Habibi Lashkari, Gerard Draper-Gil, Mohammad Saiful Islam Mamun and Ali A. Ghorbani, “Characterization of Tor Traffic Using Time Based Features”, In the proceeding of the 3rd International Conference on Information System Security and Privacy, SCITEPRESS, Porto, Portugal, 2017.

来源:https://blog.csdn.net/wisemanchen/article/details/111877592
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


专注素材教程免费分享
全国免费热线电话

18768367769

周一至周日9:00-23:00

反馈建议

27428564@qq.com 在线QQ咨询

扫描二维码关注我们

Powered by Discuz! X3.4© 2001-2013 Comsenz Inc.( 蜀ICP备2021001884号-1 )