[Statlist] séminaire en ligne sur les sondages

Tue Oct 4 11:16:30 CEST 2022

L'Institut de statistique, Université de Neuchâtel et le groupe Enquêtes, Modèles et Applications de la SFdS (Société Française de Statistique) organisent le jeudi 20 octobre à 14h00 (CET) le séminaire en ligne : « Utilisation des méthodes d'apprentissage automatique pour le traitement de la non-réponse totale dans les enquêtes » par David Haziza.

L'événement est gratuit et ouvert à tous et toutes, mais l'inscription est obligatoire à l'aide du formulaire : https://forms.gle/V7BoWMb1ZokkpHVQ9 
Le lien de connexion sera transmis après l'inscription.

Jeudi 20 octobre à 14h00 (CET)
Invité : David Haziza (University of Ottawa, Canada)
Titre : Utilisation des méthodes d'apprentissage automatique pour le traitement de la non-réponse totale dans les enquêtes
Co-auteurs : Khaled Larbi (ENSAE, France) and Mehdi Dagdoug (Université de Bourgone Franche Comté, France)

Résumé :
Ces dernières années, l'apprentissage automatique a suscité un intérêt considérable dans les offices nationaux de statistique. Grâce à leur flexibilité et leur bonne performance en termes de prédiction, ces méthodes peuvent s'avérer utiles au stade du traitement de la non-réponse totale. Cependant, dans un contexte de non-réponse totale, nous sommes confrontés à un problème d'estimation plutôt qu'à un problème de prédiction. Notre objectif est d'estimer un paramètre de population finie (par exemple, un total de population) et le modèle de non-réponse le plus prédictif ne conduit pas nécessairement au meilleur estimateur (en termes d'erreur quadratique moyenne) d'un total/moyenne de population. Cette situation est différente de celle que l'on rencontre dans un contexte d'imputation pour la non-réponse partielle où l'on s'attend à ce que l'algorithme le plus prédictif soit performant en termes de biais et d'efficacité. Nous illustrerons ce problème au moyen d'un exemple simulé. De plus, nous présenterons les résultats d'une vaste étude par simulation dont le but est de comparer plusieurs méthodes d'apprentissage automatique en termes de biais et d'efficacité. En plus des procédures d'apprentissage automatique classiques (arbres de régression, forêts aléatoires, boosting, etc.), nous évaluerons la performance de certaines approches d'ensemble qui utilisent différentes procédures d'apprentissage automatique pour produire un ensemble unique de poids ajustés pour la non-réponse.

Biographie : David Haziza est professeur au département de mathématiques et de statistique à l'Université d'Ottawa. Il est également consultant à Statistique Canada. Ses intérêts de recherche portent sur l'inférence en présence de valeurs manquantes, l'inférence en présence de valeurs influentes, les méthodes de rééchantillonnage et les méthodes d'apprentissage automatique.