Logo de l'organisme de formation

La BI au service des entreprises durables

Représentation de la formation : MACHINE LEARNING AVANCE EN PYTHON

MACHINE LEARNING AVANCE EN PYTHON

Maîtrisez les meilleurs algorithmes du Machine Learning pour optimiser vos modèles.

Formation mixte
Accessible
Durée : 14 heures (2 jours)
Durée :14 heures (2 jours)
HT
Se préinscrire
Durée :14 heures (2 jours)
HT
Se préinscrire
Durée :14 heures (2 jours)
HT
Se préinscrire

Formation créée le 30/11/2022. Dernière mise à jour le 26/10/2023.

Version du programme : 1

Programme de la formation

Apprenez à utiliser les techniques actuelles de modélisation prédictive les plus performantes, employées par les meilleurs compétiteurs dans les challenges de Machine Learning. Au travers de cette formation, vous mettrez en pratique la théorie sur divers types de données structurées — y compris sur de très gros volumes (plusieurs Go) — au travers de challenges Kaggle, en utilisant les librairies Python pandas, scikit-learn, XGBoost et Hyperopt. À la fin des 2 premiers jours, vous disposerez de connaissances avancées et pratiques vous permettant de sélectionner les meilleurs algorithmes pour vos problèmes de ML, d’optimiser vos modèles de façon intelligente, et de les mettre à jour en continu.

Objectifs de la formation

  • Savoir choisir les bons algorithmes d’apprentissage en fonction du problème à résoudre (ensembles d’arbres de décision, modélisation linéaire / non linéaire, régularisation)
  • Créer des modèles prédictifs qui peuvent se mettre à jour en continu, et ingérer de gros volumes de données (Online Learning)
  • Trouver les meilleurs compromis entre temps de calcul et qualité des prédictions
  • Comprendre et mettre en pratique la technique du Boosting, utilisée dans les meilleures solutions aux compétitions de Machine Learning
  • Optimiser ses modèles prédictifs, grâce aux techniques intelligentes d’optimisation du choix d’hyperparamètres (“AutoML”) et aux architectures complexes d’ensembles de modèles (Stacking)

Profil des bénéficiaires

Pour qui
  • Data scientist, data engineer, data analyst, chercheur, ingénieur R&D, statisticien, et toute personne travaillant dans la data et ayant une première expérience des modèles prédictifs
Prérequis
  • Avoir suivi une formation Machine Learning niveau 1 (Machine Learning avec Python), ou un MOOC en ligne (par exemple le MOOC d’Andrew Ng sur Coursera), ou avoir une première expérience dans la création de modèles prédictif et leur évaluation
  • Expérience de Python et de scikit-learn

Contenu de la formation

  • Rappels et/ou explications des principaux algorithmes de Machine Learning : ce contenu sera adapté en séance en fonction des connaissances des participants et de leurs attentes :
    • Rappels théoriques et description des principaux hyper-paramètres de : o Régression linéaire, polynomiale et logistique o K-plus proches voisins (KNN) o Machines à vecteur de support (SVM) o Arbres de décision, forêts aléatoires o Réseaux de neurones
    • Avantages et inconvénients : comment et pourquoi sélectionner un type de modèle
    • Méthodologie projet : workflow complet et best-practices
    • Ecueils à éviter (et comment les éviter) : fuite de données (data leak), surapprentissage (overfitting)
    • Mise en pratique avec scikit-learn
  • Boosting
    • Principe du boosting, classe d’algorithmes souvent plus performants que les random forests (XGBoost, CatBoost, LightGBM...)
    • Description de leurs principaux paramètres, délicats à prendre en main et importants à maîtriser
    • Principe des techniques avancées d’optimisation intelligente des hyper-paramètres
    • Mise en pratique avec Hyperopt
  • Apprentissage sur gros volumes de données et Online Learning
    • Présentation de l’algorithme de descente de gradient (stochastique, mini-batch) ; intuition de ses principaux paramètres
    • Mise à jour de modèles en flux continu et apprentissage hors-mémoire
    • Mise en pratique avec scikit-learn sur un jeu de données qui ne tient pas en mémoire vive
    • Considérations supplémentaires : hashing trick, dilemme exploration/exploitation
  • Stacking
    • Principe du stacking et état de l’art des architectures d’ensembles de modèles prédictifs
    • Explication des systèmes les plus performants sur les concours Kaggle sur des données structurées
    • Exercice final mettant en pratique une architecture de stacking utilisant les types de modèles vus dans la formation
Suivi de l'exécution et évaluation des résultats
  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
Ressources techniques et pédagogiques
  • Accueil des apprenants dans une salle dédiée à la formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Capacité d'accueil

Entre 1 et 8 apprenants

Délai d'accès

2 semaines

Accessibilité

Remplir le questionnaire de pré-formation Les moyens d’accès physiques aux personnes handicapés sont soumis aux normes des installations du client. Des dispositifs peuvent être prévus en cas d’un handicap auditif, visuel, mental ou psychique.