Analysis of network delay measurements : Data mining methods for completion and segmentation - Equipe Math & Net
Theses Year : 2023

Analysis of network delay measurements : Data mining methods for completion and segmentation

Analyse des mesures de délai réseau : Méthodes de data mining pour la complétion et la segmentation

Sanaa Ghandi
  • Function : Author
  • PersonId : 1393468
  • IdRef : 278664652

Abstract

The exponential growth of the Internet requires regular monitoring of network metrics. This thesis focuses on round-trip delays and the possibility of addressing the problems of missing data and multivariate segmentation. The first contribution includes the orchestration of delay measurement campaigns, as well as the development of a simulator that generates end-to-end delay traces. The second contribution of this thesis is the introduction of two missing data completion methods. The first is based on non-negative matrix factorization, while the second uses collaborative neural filtering. Tested on synthetic and real data, these methods demonstrate their efficiency and accuracy. The third contribution of this thesis involves multivariate delay segmentation. This approach is based on hierarchical clustering and is implemented in two stages. Firstly, the delay time series are grouped to obtain, within the same group, series with similar and synchronous variations and trends. Next, the multivariate segmentation step collectively and jointly segments the series within each group. This step uses hierarchical clustering followed by post-processing using the Viterbi algorithm to smooth the segmentation result. This method was tested on real delay traces from two major events affecting two Internet Exchange Points (IXPs). The results show that this method approximates the state-of-the-art in segmentation, while significantly reducing computing speed and costs.
La croissance exponentielle d'Internet nécessite une supervision régulière des métriques réseau. Cette thèse se concentre sur les délais aller-retour et la possibilité de résoudre les problèmes de données manquantes et de segmentation multivariée. La première contribution comprend l'orchestration de campagnes de mesure des délais, ainsi que le développement d'un simulateur qui génère des traces de délais de bout en bout. La deuxième contribution de cette thèse est l’introduction de deux méthodes de complétion de données manquantes. La première méthode repose sur la factorisation de matrices non négatives et la seconde utilise le filtrage collaboratif neuronal. Testées sur des données synthétiques et réelles, ces méthodes démontrent leur efficacité et précision. La troisième contribution de cette thèse porte sur la segmentation multivariée des délais. Cette approche repose sur le regroupement hiérarchique et se déroule en deux étapes. Dans un premier temps, il s'agit de regrouper les séries de délais afin d'obtenir des séries présentant des variations similaires et synchrones. Ensuite, on segmente de manière conjointe les séries groupées. On utilise le regroupement hiérarchique suivi d'un post-traitement à l'aide de l'algorithme de Viterbi qui vise à lisser le résultat de la segmentation. Cette méthode a été testée sur des traces de délais réels et les résultats indiquent que cette méthode se rapproche de l'état de l'art en matière de segmentation tout en réduisant de manière significative la rapidité et les coûts de calcul.
Fichier principal
Vignette du fichier
2023IMTA0382_Ghandi-Sanaa.pdf (11.33 Mo) Télécharger le fichier
Origin Version validated by the jury (STAR)

Dates and versions

tel-04616653 , version 1 (19-06-2024)

Identifiers

  • HAL Id : tel-04616653 , version 1

Cite

Sanaa Ghandi. Analysis of network delay measurements : Data mining methods for completion and segmentation. Networking and Internet Architecture [cs.NI]. Ecole nationale supérieure Mines-Télécom Atlantique, 2023. English. ⟨NNT : 2023IMTA0382⟩. ⟨tel-04616653⟩
15 View
54 Download

Share

More