Le small data ou la fin des lois de probabilités artificielles

Le monde réel est limité

Dans un cadre d’univers borné, un phénomène réel est par nature limité : les valeurs observées ont des bornes maximales et minimales (pas toujours observables). Cette simple remarque devrait éliminer d’office toute modélisation par des lois de probabilité à support infini. Malheureusement, beaucoup de praticiens semblent attachés à ces distributions de probabilité alors pour ne pas trop s’en éloigner, ils sont amenés à les tordre en les tronquant ce qui induit d’autres difficultés, calculatoire notamment.

Stop aux réflexes inadaptés

D’autres d’habitudes peu rigoureuses nous tiennent au corps, comme par exemple la recherche d’une loi de probabilité académique dès que la loi de Gauss ne fonctionne pas, sans même tenter de rechercher la loi de distribution « réelle ». Cette simplification est acceptable dans une phase exploratoire, qui doit être suivie d’une seconde qui discute des hypothèses sous-jacentes. L’analyse ne peut s’abstenir d’une véritable démarche scientifique même si son cadre de travail est le monde réel et l’entreprise.

Trop souvent, les outils mathématiques existants sont utilisés de manière brute sans souci de leur validité. Cela peut se produire par exemple avec le test asymptotique du chi deux ou lorsqu’on utilise un modèle de régression sans avoir contrôlé la stationnarité des données ou des résidus. Les attentats du 11 septembre 2001 ont également révélé aux assureurs que leurs hypothèses d’indépendance de certaines branches d’activité étaient abusives.

Particulièrement pour les phénomènes extrêmes (ou rares), l’utilisation des lois paramétriques (loi GEV par exemple) s’est répandue sans justification scientifique poussée, l’argument principal étant la maniabilité. Le faible nombre de paramètres dont elles dépendent permet une calibration au phénomène étudié avec un faible nombre de données à disposition. Or les phénomènes réels auxquels s’exposent les entreprises nécessitent un soin plus approfondi et des lois de probabilité adaptées.

D’autres l’ont déjà dit

Nicolas Bouleau explique à ce sujet : « Ayant observé durant une période d’un siècle dans une certaine région des enregistrements sismiques de magnitude comprise entre 0 et 2, est-il possible d’en déduire avec quelle probabilité se produira un séisme d’une magnitude supérieure à 4 ? A un problème ainsi posé, rares seraient ceux qui répondrait par l’affirmative, néanmoins l’usage de plus en plus répandu dans le milieu des ingénieurs de procédures rapides utilisant les lois des valeurs extrêmes conduit à des affirmations de ce type, dont l’enjeu socio-politique est important notamment par l’habit de scientificité qui leur est donné. Après avoir rappelé les fondements de la théorie des lois des valeurs extrêmes et relevé quelques-unes des hypothèse cruciales, difficiles à vérifier en pratique, qui la sous-tendent, nous montrons que la méthode qui consiste à caler les paramètres d’une des trois lois de valeurs extrêmes à partir des extrêmes d’un échantillon fini dont la loi est mal connue, est fortement encouragée par la pression sociale de quantifier les risques graves d’autant plus que tels errements, par la rareté même des événements considérés sont peu réfutables. » [Bouleau Nicolas, Splendeurs et misères des lois de valeurs extrêmes, Risques, 3, 1991, p.85-92].

Puis il poursuit : «  […] toute démarche attribuant une valeur numérique précise pour la probabilité d’un phénomène rare est suspecte, sauf si les lois physiques régissant le phénomène sont explicitement et exhaustivement connues ».

Ces phénomènes ne peuvent donc simplement se résumer par un seul nombre et le croire promet des interprétations douteuses et donc dangereuses lorsque son utilisation se généralise au sein de la société.

Osons !

Engager des changements de méthodes est compliqué. Même lorsque les interlocuteurs entendent les défauts de leurs pratiques, ils se réfugient derrière un comportement conformiste, arguant que leurs voisins font comme eux. Il leur est trop dangereux de ne pas agir ou penser comme le reste du troupeau. Effectivement, pendant de nombreux siècles, notre civilisation a cru notre planète au centre du monde et que le Soleil lui tournait autour. Pourtant, comme le dit Warren Buffet : « vous n’avez jamais raison ou tort parce que les autres sont d’accord avec vous, vous avez raison parce que vos données sont exactes et votre raisonnement juste ».

Il faut donc oser. Oser ne pas simplifier par l’utilisation de résultats académiques, pratiques d’un point de vue calculatoire, mais possiblement dévastateur car leurs hypothèses ne sont pas satisfaites. C’est possible car il existe d’autres manières moins contestables scientifiquement pour analyser les problèmes qui se présentent dans le monde réel.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.