L'apprentissage à partir de données : régression, classification, prévision

Optimisation en environnement incertain, analyse statistique, prévision de consommation, estimation du nombre d'appels ; tous ces domaines reposent sur une brique logicielle commune : l'apprentissage à partir de données.

Prévoir une quantité y à partir d'informations x peut se réaliser de manière experte, via des règles physiques, scientifiques ou heuristiques, mais aussi à partir de données. Cette seconde approche s'avère meilleure dans de nombreux cas, notamment lorsque la complexité du problème, la quantité d'interactions entre composants d'un système ou le niveau de bruit ou d'inconnues de modélisation font que la démarche purement statistique, où les relations sont entièrement extraites des données, est l'approche la plus fiable. Si l'on dispose de données d'archives de qualité, un modèle statistique, certes imparfait mais sans a priori, extrait les liens cachés entre les variables dites "indépendantes", que l'on utilisera comme entrées de notre outil de prévision, et les variables dites "dépendantes", que l'on chargera notre outil de prévoir.

Combien d'appels téléphoniques recevrai-je le mois prochain ? Connaissant le niveau de mes ventes ν1,ν2 et ν3 sur les trois derniers mois, le nombre de pannes p et différentes informations annexes i1,..., in, je peux utiliser mes données d'archives pour établir une fonction ƒ telle que ƒ(ν1,ν2,ν3,p,i1,..., in) soit empiriquement une bonne estimation du nombre d'appels le mois prochain.

Dans la tradition statistique, on appelle alors "individus" les données d'archives ; plus le nombre d'individus est grand, plus la fiabilité des données est grande, plus ƒ sera précise. Le choix de la fonction ƒ s'effectue à partir des données et en fonction aussi de contraintes liées au problème :

si l'objectif est la performance brute, i.e. la plus grande précision possible, des outils "boîte-noire", ininterprétables mais souvent de très grande performance, comme les réseaux neuronaux ou les SVM (Support Vector Machines), sont envisageables. Les réseaux de neurones ont l'avantage de permettre la mise à jour en temps réel de la fonction ƒ lorsque de nouvelles données arrivent, ainsi que de traiter de manière transparente des variables dépendantes multivariées. Il est également possible de traiter de très grands nombres d'individus, mais ces outils souffrent d'un handicap de taille : la non convexité du problème d'optimisation sous-jacent à la construction de ƒ à partir de données. A l'inverse, les SVM présentent l'avantage d'être basées sur un problème convexe (souvent strictement), d'être algorithmiquement "tractables" en grande dimension, mais peinent à travailler sur plus de 100 000 individus et sont d'utilisation délicate pour des variables dépendantes multivariées ;

si la lisibilité de ƒ, son analyse experte, font partie des priorités, alors les arbres de décision sont une solution efficace. Fournissant naturellement les p-valeurs des tests statistiques sur lesquels est basée leur construction, ils sont en outre très robustes et très proches de la façon de travailler d'un statisticien qui prendrait en charge "à la main" le problème. Enfin, quoique lents lorsque le nombre de variables est grand, ils sont utilisables même lorsque le nombre d'individus analysés est grand et facilitent le traitement des absences de données. Regroupant les individus par classes, ils permettent en outre de tracer commodément l'évolution des caractéristiques des individus en fonction du temps ;

de nombreux autres outils existent, des réseaux à base de fonction radiales aux tables de décision ou aux forêts aléatoires, en passant par les réseaux bayésiens. La bonne connaissance de leurs spécificités permet de choisir au mieux la méthode adéquate.

De plus, différents outils annexes permettent de prétraiter les données ou d'améliorer les performances des outils d'apprentissage : de la classique analyse en composantes principales à l'extraction de règles ou aux méthodes d'ensembles, de nombreux travaux permettent le changement d'échelle : par exemple, le subagging permet le traitement rapide de données massives et possiblement la parallélisation de leur traitement.

Artelys, dont l'expérience en matière de prévision inclut prévision de taux d'appels, prévision de consommation d'énergie selon les données météorologiques, prévision d'écoulements d'eaux, projections démographiques, prévision de charges de réseaux de transport des personnes, propose des formations, y compris sur mesure, dans ces domaines.

 
Artelys - 12 rue du Quatre Septembre 75002 Paris France.
Tél. : +33 1 44 77 89 00 - Fax : +33 1 42 96 22 61 - E-mail :
info@artelys.com

© Artelys SA 2000-2006, tous droits réservés.