Les probabilités, et non les statistiques, pour le Small Data
12 décembre 2016 Laisser un commentaire
Il est intéressant de noter que le calcul des probabilités et les statistiques sont au départ deux branches distinctes. Entre la fin du 17ème siècle et le début du 18ème, les travaux de Pascal et Bernoulli encouragent le développement d’une géométrie (c’est-à-dire une mathématique) du hasard, soutenu par l’Académie des sciences, dont les applications sont le dénombrement, la mortalité, les rentes viagères. La statistique, sous la forme d’un recueil de données, apparait dès l’antiquité pour ensuite devenir administrative grâce à Chaptal, ministre de l’intérieur en 1800 et le lancement d’analyses départementales, appuyée par l’Académies des sciences morales et politiques. Ce n’est qu’au 19ème siècle que les deux sciences s’harmonisent, les probabilités fournissant un modèle théorique à la série de nombres mise en avant par la statistique.
Ainsi, la théorie des probabilités est une branche des mathématiques qui introduit une axiomatique permettant de modéliser le hasard. La statistique est une branche des probabilités qui s’applique à l’analyse d’un grand nombre de données (des résultats d’expérience). Ces données doivent permettre de comprendre le comportement du phénomène étudié, de déterminer sa loi de probabilité et de procéder à des généralisations à une population entière sur la base des observations d’un échantillon.
Toutefois, la plupart des résultats statistiques, la loi des grand nombre et le théorème central limite pour citer les plus célèbres, sont asymptotiques. Cela suppose deux points importants :
- avoir suffisamment d’observations pour admettre que ces théorèmes soient applicables
- l’expérience produisant la donnée est répétable infiniment
Dans un monde réel, l’infini n’est jamais atteignable et beaucoup de travaux statistiques ont dû alors s’intéresser à déterminer quel seuil fini permettait d’approcher suffisamment l’infini. Malheureusement, aucun résultat n’unifie un seuil unique qui n’est qu’une approximation. Dans d’autres expériences, les conditions pour ce seuil ne sont tout simplement pas respectées.
C’est pourquoi, puisque nous nous proposons d’évaluer dans un monde fini où peu de données sont disponibles, l’outil statistique doit céder la place au calcul des probabilités qui peut s’appliquer dans un cadre plus général, offrant des résultats moins fins mais plus robustes dans le contexte de données rares.