Le small data en Assurance : pourquoi ? comment ?

L’assurance a besoin de comprendre les phénomènes pour lesquelles elle offre une forme de garantie. Cette compréhension passe par la modélisation de la fréquence de ces phénomènes et la modélisation de leur intensité.

Pourquoi une autre approche méthodologique de modélisation des phénomènes assurables ?
Lorsque les données sont rares, et nous nous placerons uniquement dans ce cadre, plusieurs arguments motivent cette réflexion.

  • En premier lieu, une utilisation des outils statistiques mal adaptée
    En effet, les principaux résultats statistiques supposent avoir suffisamment d’observations pour admettre que les théorèmes asymptotiques soient applicables et que l’expérience produisant la donnée est répétable infiniment. De plus, les statistiques sont appropriées lorsque les lois de probabilités sont parfaitement identifiées et en cohérence avec le phénomène observé. Les phénomènes qui nous intéressent ici, en particulier rares, n’ont pas de loi identifiée, on reste dans l’estimation.
  • On peut mentionner également des choix de modèles étonnants
    Par exemple, utiliser des lois à support infini alors que les phénomènes observés sont bornées  (bornes pas toujours observables). Un tel attachement à ces lois poussent parfois à les tordre en les tronquant par exemple d’où des difficultés calculatoires. Particulièrement pour les phénomènes extrêmes (ou rares), l’utilisation de certaines lois paramétriques s’est répandue d’abord pour leur maniabilité ce qui ne doit pas être l’argument principal !
  • Ensuite souvent les paramétrages sont arbitraires
    Certains modèles peuvent être calibrées de plusieurs façons donnant des résultats différents d’où une ambiguïté ou un besoin de « sélection de calibration dans la sélection de modèles » d’une grande lourdeur.
  • Enfin, l’approche paramétrique était justifiée lors de moyens de calculs limités.
    Aujourd’hui, ce n’est plus le cas et on doit pouvoir mettre en œuvre des méthodes qui ne sont plus soumises à ces contraintes de calculs.

 

Comment appliquer le small data en assurance ?
Avec une volonté de suivre une démarche rigoureuse, on s’est donné les principes suivants :

1-On ne veut pas de modélisation abusive et donc on introduit un jeu d’hypothèses minimales et pas plus

2-On doit tenir compte de l’incertitude autour des données dans notre façon de travailler. Car les résultats ne sont que des estimations de la vraie loi inconnue. L’incertitude est un moyen de mesurer la qualité de l’information donnée par l’échantillon,  cela permet d’évaluer le degré de confiance en la projection, de prendre une marge de sécurité, de décider ou non d’un programme de réassurance.

3-Dans un contexte pédagogique, le choix dans un premier temps d’utiliser des données « publiques » : publiées, déjà manipulées et pour lesquelles d’autres méthodes sont habituellement utilisées pour faciliter la comparaison, dont les résultats sont admis par le plus grand nombre. L’idée est bien de ne pas sortir des données d’un chapeau avec lesquelles tout fonctionnerait miraculeusement.

4-Une fois la démarche bien comprise et admise, on pourra l’appliquer à des données propres à une compagnie d’assurance.

 

Quel outil mathématique ?
L’outil mathématique à la base de cette démarche, ce sont les probabilités bayésiennes. Elles se présentent de la manière suivante.

On a le cas classique de la production de pièces défectueuses ou non. Si p est la probabilité connue d’avoir une pièce défectueuse, le nombre de pièces défectueuses après N pièces fabriquées suit une loi binomiale B(N,p)

  • p se déduit en général des observations p = x / N si x est le nombre observé de pièces défectueuses (estimation correcte asymptotiquement)
  • Si p est inconnue, aléatoire, sans information, tous les choix sont possibles et donc sans avis particulier on donne le même poids à toutes les valeurs de son support. Cela revient à choisir une loi uniforme sur [0,1] a priori. C’est le choix dit d’information minimale qu’on va retrouver tout au long de l’utilisation de l’approche small data.
  • En appliquant une formule de Bayes, sachant la production X=x de pièces défectueuses, on peut déterminer sa densité a posteriori la  densité

  • C’est une loi Beta (les lois binomiale et uniforme se conjuguent bien) dont l’espérance, x+1 / N+2, est notre estimation de p.

Ceci se généralise lorsque le nombre de classe passe de 2 (pièce défectueuse ou non) à K classes. L’estimation des probabilités pi est alors xi +1 / N+K pour i=1,…,K.

On pourra aussi introduire d’autres contraintes dans la modélisation et les estimations seront obtenus grâce à des simulations de Monte Carlo.

Pour les détails techniques sur ces résultats, on pourra se reporter au livre de Gilbert Saporta, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006 et précisément les pages 317-319.

One Response to Le small data en Assurance : pourquoi ? comment ?

  1. Ping: Small Data en assurance non vie : estimation d’une distribution d’événements extrêmes | Allocation et Gestion d'Actifs

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

%d blogueurs aiment cette page :