Longitudinal, large-scale and unbiased Internet measurements

Flavia Salutari

Résumé

Today, a world without the Internet is unimaginable. By interconnecting billions of people worldwide and by offering an uncountable number of services, it is now fully embedded in the modern society. Yet, despite technology evolution and development, its pervasiveness and heterogeneity still raise new challenges, such as security concerns, monitoring of the users' Quality of Experience (QoE), care for transparency and fairness. Accordingly, the goal of this thesis is to shed new light on some of the challenges emerged in recent years. In particular, we provide an in-depth analysis of some of the most prominent aspects of modern Internet. A particular emphasis is given on the World Wide Web, which among all, is undoubtedly one of the most popular Internet applications, and a specific regard to its interaction with machine learning. The first part of this work studies the Quality of Experience of users' browsing the Web, with measurements led both in the wild and in controlled environments. Our contributions follow with an original analysis of both the subjective user feedback and the objective QoE metrics, showing how hard it is to build accurate supervised data-driven models capable to predict the user satisfaction, along with an in-depth discussion of the multi-modal nature of the subjective user opinions.In the second part of this work, we analyze and discuss the fairness of state-of-the-art transformer-based language models, which are pre-trained on Web-based corpora and which are typically used to solve a wide variety of Natural Language Processing (NLP) tasks. Here, we question whether the sheer size and heterogeneity of the Web guarantee diversity in the models. The core of our contributions rests in the measure of the bias embedded in the models, that we discuss under different angles. Finally, the last part of this dissertation addresses the classification of objects generated by machines through some of the simplest state-of-the-art supervised machine learning algorithms. Through a minimally intrusive, robust and lightweight framework, we show that the different behaviors of a field of the IP packet, the IP identification (IP-ID), could be easily classified with few features having high discriminative power. We finally apply our technique to an Internet-wide census and provide an updated view of the adoption of the different implementations in the Internet.

Aujourd’hui, un monde sans Internet est inimaginable. En interconnectant des milliards de personnes dans le monde et en offrant un nombre incalculable de services, il est désormais pleinement intégré à la société moderne. Pourtant, malgré l’évolution et le développement de la technologie, son omniprésence et son hétérogénéité soulèvent encore de nouveaux défis, tels que les problèmes de sécurité, le contrôle de la qualité d’expérience des utilisateurs (QoE), le souci de transparence et celui d’équité .En conséquence, l’objectif de cette thèse est d’apporter un nouvel éclairage sur certains des défis qui ont émergé ces dernières années. En particulier, nous fournissons une analyse approfondie de certains des aspects les plus importants de l’Internet moderne. Un accent particulier est mis sur le World Wide Web, qui, parmi tous, est sans doute l’une des applications Internet les plus populaires, et un regard spécifique sur son interaction avec l’apprentissage automatique.La première partie de ce travail étudie la qualité de l’expérience de navigation des utilisateurs sur le Web, avec des mesures effectuées à la fois “in the wild" et dans des environnements contrôlés. Nos contributions continuent avec une analyse originale de l’avis subjectif des utilisateurs et des mesures objectives de la qualité d’expérience, montrant la difficulté de construire des modèles supervisés précis, basés sur des données, capables de prédire la satisfaction des utilisateurs, ainsi qu’une discussion approfondie de la nature multimodale des avis subjectifs des utilisateurs. Dans la deuxième partie de ce travail, nous analysons et discutons l’équité des modèles de langage basés sur des transformateurs de pointe, qui sont pré-entraînés sur des corpus basés sur le Web et qui sont généralement utilisés pour résoudre une grande variété de tâches de traitement du langage naturel (NLP). Nous nous demandons ici si la taille et l’hétérogénéité du Web garantissent la diversité des modèles. Le cœur de nos contributions repose sur la mesure du biais intégré dans les modèles, que nous discutons sous différents angles. Enfin, la dernière partie de cette thèse traite de la classification d’objets générés par des machines à l’aide de certains des plus simples algorithmes d’apprentissage automatique supervisés à l’état de l’art. Grâce à un framework solide mais peu intrusif, nous montrons que les différents comportements d’un champ du paquet IP, l’identification IP (IP-ID), peuvent être facilement classifiés avec peu de caractéristiques ayant un haut pouvoir discriminatoire. Nous appliquons enfin notre technique à un census à l’échelle de l’Internet et fournissons une vue actualisée de l’adoption de ses différentes implémentations dans l’Internet.

Longitudinal, large-scale and unbiased Internet measurements

Mesuré d'Internet à large échelle, longitudinale et sans biais

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager