Aller au contenu Aller au menu Aller à la recherche

Événements et séminaires - LSTA
Laboratoire de Statistique Théorique et Appliquée

Partenariats

15/11/2016 - Nicolas Goix (Télécom ParisTech)

 Groupe de Travail Théorie des valeurs extrêmes

Apprentissage Automatique et Extrêmes pour la Détection d'Anomalies

En pratique, un algorithme de détection d'anomalies retourne une fonction de score à valeurs réelles définie sur l'espace des données de manière à quantifier l'anormalité des observations. Tout d'abord, nous introduisons deux critères pour mesurer les performances d'une fonction de score. Ces critères (critère masse-volume et critère d'excès de masse) ont pour but la construction de fonctions de score via la minimisation du risque empirique, mais peuvent aussi s'appliquer à la selection de modèle.

La seconde partie de ce travail porte sur les régions extrêmes, qui sont d'un intérêt particulier en détection d'anomalies. En particulier, des outils probabilistes issues de la théorie des valeurs extrêmes (multivariées), comme la STDF (stable tail dependence function) et la mesure angulaire, peuvent être combinés avec une approche plus classique de détection d'anomalies afin de gagner en précision sur ces régions extrêmes. Des bornes non-asymptotiques sont établies pour l'estimation de la STDF, cette dernière caractérisant la structure de dépendance dans les extrêmes. Une méthode statistique produisant une représentation (potentiellement parcimonieuse) de la structure de dépendance est ensuite dérivée de l'estimation non-paramétrique de la mesure angulaire restreinte à un ensemble représentatif de directions. Cette représentation peut être utilisée pour produire une fonction de score précise sur les régions extrêmes. Des bornes non-asymptotiques attestant la qualité de l'estimation sont établies.