云计算背景下网络流数据的存储和分析(合作企业:深信服)

2021-06-28

本项目针对大量网络流数据(Netflow v9或者IPFIX数据)设计一个基于大数据平台的存储和分析框架,实现进行网络流量的实时可视

本项目设计的存储分析框架由模拟数据生成系统,分析系统,存储系统,可视化系统四部分组成。

模拟数据生成系统使用Python编写,实时生成模拟的Netflow v9网络流数据输入到Kafka消息队列中。

分析系统采用FlinkKafka消息队列中的网络流数据排序,将排序结果写入Kafka的另一个Topic中。

存储系统将排好序的网络流数据存储从Kafka消息队列读入Druid数据库中,提供查询接口给可视化系统。

可视化系统向存储系统请求数据,实现对网络流数据趋势图,饼状百分比图,节点关系图的可视化展示。

本项目完成了网络流存储分析框架的开发,并在Kubernetes容器编排系统上进行了集群化部署和性能测试。根据测试结果,流处理速度达到了20万条每秒,查询反应时间为亚秒级,符合项目要求。