华为十大问题：网络流量建模和性能分析问题

发布时间：2022-07-01 文：任疆

问题背景：

随着整个社会数字化程度的提高，各种信息和数据可以接入网络，网络业务逐渐从以话音业务为主演进到由数据业务主导。近年来，5G通信、云服务、VR与AR、物联网、无人驾驶等技术和应用的兴起，使得网络中的数据业务爆发，进一步加剧网络的承载压力。除了个人用户常用的电子商务、多媒体游戏、远程教学、视频会议、视频点播等，企业用户也希望通过VPN技术，将分布在各地的分支机构连接起来，开展一些事务性应用，比如访问公司的数据库或管理远程设备。

网络的普及，业务的多样化，使互联网流量激增，容易产生网络拥塞，增加转发时延，严重时还会产生丢包，导致业务质量下降甚至不可用。与此同时，用户对高质量、高速率、低延时的网络服务的要求越来越高，而且存在多种差异化 SLA（service level agreement，服务等级约定）要求，为SLA保证造成巨大挑战。传统上，解决网络拥塞的最直观办法是增加网络的带宽，但是从运营、维护的成本考虑，这是不现实的，最有效的解决方案就是应用一个 “有SLA保证” 的策略对网络拥塞进行管理。QoS（quality of service，服务质量）技术就是在这种背景下发展起来的。目前存在多种IPQoS服务模型，其中应用最广的是区分服务模型（DiﬀServ），每种业务数据包被标识为一定的服务类型并记录在包头字段里，在每一跳转发分组时使用一定的调度机制体现服务等级。现网转发设备的转发服务机制较为灵活和复杂，不仅有单层的普通QoS调度，还有多层次 HQoS 调度，同时还有主动队列管理、出口整形、联合整形等属性，涉及参数众多，目前工程上主要基于专家经验进行配置，缺乏性能理论保障，资源利用率不高。

发掘现网流量的基本模型和规律、建立网络转发服务机制的合理模型，对SLA保证有重要意义。我们希望对网络系统建立一个SLA 理论模型，准确刻画现网流量和转发服务过程，从而准确计算SLA性能。SLA理论模型将支撑多种网络运维使能，例如在给定的SLA要求下，根据SLA理论方法可以准确预测流量门限，进行容量规划，并且为调度配置提供重要指导。

问题定义：

(1) 现网流量的数学建模

网络中同时存在众多种类的业务流量，流量生成与用户行为模式、网络拓扑、网络协议等因素耦合在一起。流量经常具有时变、突发、相关与自相似等特性，超出了传统流量模型的刻画能力。针对现网流量，有如下几个重要问题：如何建立准确的流量模型？如何有效预测流量？如何实现流量特征的在线学习？

(2) 服务过程的数学建模

服务过程包括单台网络转发设备的服务过程以及网络端到端的服务过程。网络转发设备的转发服务机制较为灵活和复杂，不仅有单层调度器(QoS），还有多层次调度(HQoS），同时还有主动队列管理、出口整形、联合整形等属性；参见图1和2。

网络端到端的服务过程包括了多个转发设备的级联，复杂度更高。如下几个问题非常重要：如何建立基于真实转发设备的数学模型？如何建立网络端到端服务过程的数学模型？如何做到不仅模型准确，而且能够支持SLA性能的可计算？

(3) 保证高精度SLA要求的转发动态调优

除了平均速率、平均时延等传统指标，业务SLA要求还包括很多高精度的指标要求，比如时延分布等，现有技术无法支持。那么，能否提供一种动态调优方法，及时有效调整大量的网络转发。

未来研究方向：

网络流量建模和性能分析问题的主要研究方向包括：现网流量建模问题、转发设备建模问题、网络端到端建模问题以及转发性能优化问题。在这些方向上，现有研究还远远不足，需要在更多实测场景数据基础上，结合排队论、DNN算法等工具，对模型泛化、SLA求解效果等方面进行深入研究：

(1) 现网多种场景的数据业务流量的数学建模、特征提取、流量预测以及生成算法，其中现网流量特征提取和流量预测的在线算法目前仍是开放问题。

(2) 大规模多层级调度服务系统建模、SLA性能高效求解。单转发设备经常需要服务几千个队列，并且使用多层级调度，这一问题的相关工作非常少，属于开放问题。

(3) 泛化的端到端级联网络建模、SLA性能高效求解。一般级联网络的排队论分析属于开放问题，针对实际应用可能需要提出逼近函数，并给出损失分析。

(4) 基于现网流量、转发服务过程和SLA需求，如何优化转发性能？如何实现网络设备转发参数动态调优？该问题在未来网络应用上有重要意义，仍需要深入探索。

(5) 网络流量建模的本质问题是网络业务的不确定性问题，需要分析不确定业务模型下网络的服务质量保证问题。现有的数学工具都是基于经典的概率模型，而非线性期望理论从非独立同分布的假设出发，对于不确定性建模问题能够从理论上提供一个新的工具，需要探索利用非线性期望理论解决此问题的可行性。

附件下载：