Small Data en assurance non vie : estimation d’une distribution d’événements extrêmes

En poursuivant notre exploration de la modélisation d’événements rares, nous nous plaçons dans la suite directe des articles précédents donnant à la fois des explications sur le bien-fondé de l’approche small data et les bases de l’outil mathématique. Une application directe à la segmentation du tarif avait été proposée.

Nous étudions maintenant la queue de distribution de la fréquence de sinistres pour des tranches de coûts extrêmes. Les données initiales sont fournies ci-dessous.

 

Les lois obtenues s’interprètent comme des lois conditionnelles à l’observation de coûts supérieurs à 200.

Les observations sont en quantité limité et le nombre de sinistres n’est pas décroissant avec le coût comme on pourrait d’y attendre, notamment si le nombre d’observations totales augmente.

 

Estimation à l’aide d’une loi de Pareto

L’utilisation d’une loi de Pareto est assez classique dans ce genre d’utilisation. Elle va imposer la décroissance attendue.

La loi de Pareto lisse les observations empiriques. Elle provoque des écarts importants : dans les faits, la fréquence de la tranche 801-1600 est réduite de moitié ! (voir graphique ci-dessous). De plus, elle augmente la fréquence des sinistres de plus faible coût de 3,5% ce qui n’apparait pas très prudent pour envisager une tarification sur cette base. Signalons que la loi de Pareto estimée n’a pas ici non plus de variance, ce qui peut sembler difficilement compatible avec un phénomène observable.

Lorsque l’on pratique un test du chi deux, l’ajustement de Pareto est rejeté. Cependant, ce test n’est qu’asymptotiquement valable et son utilisation reste discutable. Pourtant, l’ajustement de Pareto a bien « rectifié » la loi de probabilité comme nous l’attendions, c’est-à-dire, une décroissance des fréquences des sinistres avec leur coût.

 

L’approche small data

Au lieu de choisir une loi qui présente la décroissance des probabilités souhaitée, nous introduisons cette hypothèse au cœur de l’approche bayésienne : c’est une hypothèse a priori supplémentaire. Notre information initiale est donc enrichie par cet avis exogène, c’est l’avis d’expert.

Techniquement, les estimations s’obtiennent cette fois par simulation de Monte Carlo, la décroissance ne permettant pas d’identifier simplement la loi de distribution, comme nous avions obtenu une loi Beta en l’absence de ce type de contrainte. On obtient la représentation graphique présentée ici.

 

Analyse comparée

On peut montrer que l’approche bayésienne est plus cohérente avec les données que la modélisation par une loi de Pareto.

En effet, la distance du chi deux pour l’approche bayésienne est plus faible qu’avec la loi de Pareto (1,88 contre 7,93).

Une autre façon, moins liée à une métrique arbitraire est de comparer la probabilité de réalisation de l’échantillon sous chacune des deux lois. Pour l’approche bayésienne on obtient une probabilité 10 fois supérieure.

One Response to Small Data en assurance non vie : estimation d’une distribution d’événements extrêmes

  1. Ping: Small data en assurance non vie : prévision de risques d’intensité jamais observée | Allocation et Gestion d'Actifs

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

%d blogueurs aiment cette page :