|
Optimisation
en environnement incertain, analyse statistique, prévision de
consommation, estimation du nombre d'appels ; tous ces domaines
reposent sur une brique logicielle commune : l'apprentissage à
partir de données.
Prévoir une
quantité y
à partir d'informations x
peut se réaliser de manière experte, via des règles physiques,
scientifiques ou heuristiques, mais aussi à partir de données.
Cette seconde approche s'avère meilleure dans de nombreux cas,
notamment lorsque la complexité du problème, la quantité d'interactions
entre composants d'un système ou le niveau de bruit ou d'inconnues
de modélisation font que la démarche purement statistique,
où les relations sont entièrement extraites des données, est l'approche
la plus fiable. Si l'on dispose de données d'archives de qualité,
un modèle statistique, certes imparfait mais sans a priori, extrait
les liens cachés entre les variables dites "indépendantes", que
l'on utilisera comme entrées de notre outil de prévision, et les
variables dites "dépendantes", que l'on chargera notre outil de
prévoir.
Combien d'appels
téléphoniques recevrai-je le mois prochain ? Connaissant le niveau
de mes ventes ν1,ν2
et ν3 sur les trois derniers
mois, le nombre de pannes p
et différentes informations annexes i1,...,
in,
je peux utiliser mes données d'archives pour établir une fonction
ƒ telle que ƒ(ν1,ν2,ν3,p,i1,...,
in)
soit empiriquement une bonne estimation du nombre d'appels le
mois prochain.
Dans la tradition
statistique, on appelle alors "individus" les données d'archives
; plus le nombre d'individus est grand, plus la fiabilité des
données est grande, plus ƒ sera précise. Le choix
de la fonction ƒ s'effectue à partir des données et
en fonction aussi de contraintes liées au problème :
si
l'objectif est la performance brute, i.e. la plus grande précision
possible, des outils "boîte-noire", ininterprétables mais
souvent de très grande performance, comme les réseaux neuronaux
ou les SVM (Support Vector Machines), sont envisageables.
Les réseaux de neurones ont l'avantage de permettre la mise à
jour en temps réel de la fonction ƒ lorsque de nouvelles
données arrivent, ainsi que de traiter de manière transparente
des variables dépendantes multivariées. Il est également
possible de traiter de très grands nombres d'individus, mais ces
outils souffrent d'un handicap de taille : la non convexité du
problème d'optimisation sous-jacent à la construction de ƒ
à partir de données. A l'inverse, les SVM présentent l'avantage
d'être basées sur un problème convexe (souvent strictement),
d'être algorithmiquement "tractables" en grande
dimension, mais peinent à travailler sur plus de 100 000 individus
et sont d'utilisation délicate pour des variables dépendantes
multivariées ;
si
la lisibilité de ƒ, son analyse experte, font
partie des priorités, alors les arbres de décision sont une solution
efficace. Fournissant naturellement les p-valeurs des tests statistiques
sur lesquels est basée leur construction, ils sont en outre très
robustes et très proches de la façon de travailler d'un statisticien
qui prendrait en charge "à la main" le problème. Enfin, quoique
lents lorsque le nombre de variables est grand, ils sont utilisables
même lorsque le nombre d'individus analysés est grand et
facilitent le traitement des absences de données. Regroupant les
individus par classes, ils permettent en outre de tracer commodément
l'évolution des caractéristiques des individus en fonction du
temps ;
de
nombreux autres outils existent, des réseaux à base de fonction
radiales aux tables de décision ou aux forêts aléatoires,
en passant par les réseaux bayésiens. La bonne connaissance de
leurs spécificités permet de choisir au mieux la méthode adéquate.
De plus,
différents outils annexes permettent de prétraiter les
données ou d'améliorer les performances des outils d'apprentissage
: de la classique analyse en composantes principales à l'extraction
de règles ou aux méthodes d'ensembles, de nombreux travaux permettent
le changement d'échelle : par exemple, le subagging permet
le traitement rapide de données massives et possiblement la parallélisation
de leur traitement.
Artelys,
dont l'expérience en matière de prévision inclut prévision de
taux d'appels, prévision de consommation d'énergie selon les données
météorologiques, prévision d'écoulements d'eaux, projections démographiques,
prévision de charges de réseaux de transport des personnes, propose
des formations, y compris sur mesure, dans ces domaines.
|