Le small data, approche inspirée d’une vieille technique

Dans l’approche classique, la loi de probabilité du phénomène (accident, catastrophe naturelle, décès,…) est supposée parfaitement connue une fois estimée. L’estimation est fréquentiste, suppose que l’évènement est répétable à l’infini et ne fournit pas toujours d’intervalle de confiance. Les résultats ne sont alors qu’asymptotiques, on l’oublie trop souvent, hypothèse parfois peu réaliste dans des situations pratiques. Il en est de même des tests d’adéquation de loi, type chi deux, qui n’ont qu’une validité asymptotique, c’est-à-dire lorsque l’on a suffisamment (et pour cause !) de données pour caractériser parfaitement les lois en jeu.

Avec le small data, nous utilisons uniquement des outils probabilistes. En effet, les statistiques sont appropriées lorsque les lois de probabilités sont parfaitement identifiées et en cohérence avec le phénomène observé. Pour citer Daniel Schwarz : « La méthode statistique vise à induire, à partir d’un échantillon, des propriétés d’une population, parfois bien déterminée, mais souvent abstraite, forgée à l’image de l’échantillon », alors que « dans le calcul des probabilités, une démarche déductive permet au sein d’une population, des prédictions pour les échantillons qui en sont tirés au sort ». Les phénomènes qui nous intéressent ici, en particulier rares, n’ont pas de loi identifiée.

Ainsi, notre parti va être de construire une loi de probabilité en introduisant le minimum d’information factice et celle-ci sera enrichie à mesure que nous obtenons de l’information. Cet outil est bien connu, parfois controversé (mais sans volonté de polémique) : il s’agit de l’approche bayésienne. Ainsi, nous allons donc considérer que les lois de probabilités que nous cherchons à identifier sont elles-mêmes aléatoires.

Une probabilité étant une fonction à valeurs dans [0,1], en l’absence d’information plus précise à ce stade, et pour tenir compte de l’incertitude, il est naturel de supposer qu’elle suit une loi uniforme sur cet intervalle. Cette hypothèse est assez classique et nous la retrouvons chez de nombreux auteurs. Son origine remonterait à Laplace et ses travaux connus sous le nom de loi de succession de Laplace, qui explique que pour un phénomène non démontré, mais seulement observé, la probabilité qu’il se produise à nouveau est N+1 / N+2 si N est le nombre de réalisations antérieures.

Cette approche présente enfin l’avantage de pouvoir tenir compte d’une opinion exogène provenant par exemple d’une caractéristique admise grâce à l’observation d’un phénomène analogue. Nous disposons maintenant de notre outil de base pour traiter les données rares, le small data, outil aux applications multiples, notamment pour l’estimation de loi de probabilité en assurance.

Références :

Beauzamy Bernard, Méthodes probabilistes pour l’étude des phénomènes réels, SCMSA, 2004

Dacunha-Castelle Didier, Chemins de l’aléatoire, Champs Flammarion, 2002

Dacunha-Castelle Didier, Duflo Marie, Probabilités et Statistiques, 1. Problèmes à temps fixes, éd. Masson, coll. Math. Appl. pour la Maîtrise, 1982 (rééd. 1990)

Jacquard Albert, Les probabilités, Que sais-je ? n°1571, PUF, 2000

Laplace Pierre Simon, Théorie analytique des probabilités, 1812 (1ère édition)

Saporta Gilbert, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006

Schwarz Daniel, Le jeu de la science et du hasard, Champs Flammarion, 1999

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

%d blogueurs aiment cette page :