Small data en assurance non vie : prévision de risques d’intensité jamais observée

Cet article prolonge directement le précédent : estimation d’une distribution d’événements extrêmes en assurance non vie. Il s’agit maintenant d’estimer la possibilité qu’un événement jamais observé se réalise.

Pour rappel, nous avons modélisé les données fournies dans le tableau ci-dessous correspondant à la fréquence d’évènements extrêmes en sinistre auto :

Afin d’estimer la probabilité d’évènements non observés, nous ajoutons une classe de risque « 6401 et + » dans la modélisation de la distribution. Evidemment, la fréquence empirique pour cette classe est nulle.

Dans le cas de l’utilisation d’une loi paramétrique, bien que les hypothèses changent, il s’agit d’un simple prolongement sur les nouvelles classes. Nous prolongeons donc la loi de Pareto sur ce nouveau support.

Dans le cas bayésien, puisque le cadre présente un nouveau contexte, on s’y adapte : le  modèle est bien différent de celui de l’article précédent, les calculs doivent être reconduits dans ces nouvelles conditions.

Les différentes estimations sont présentées ci-dessous.

On peut encore juger de la meilleure cohérence avec les données dans ce cadre. La probabilité de l’échantillon est sous l’approche bayésienne 0,0406% vs 0,014% sous Pareto.

Toutefois, faire des comparaisons, c’est bien mais cela ne suffit pas pour s’imposer. L’approche bayésienne a d’abord un intérêt par ce qu’elle n’a pas les défauts des approches paramétriques :

  • Si une loi ne convient, on ira en piocher une autre dans notre sac à loi. Ce choix est factice car la loi existe déjà pour modéliser un autre problème et on espère l’utiliser, la caler, pour un nouveau phénomène.
  • Les techniques de calibration ne sont pas uniques et chacune pourra donner des résultats différents
  • Et enfin ces approches éliminent l’incertitude en considérant la loi obtenue comme exacte. Les données sont oubliées.

Tous ces défauts qui plaident pour l’approche bayésienne dans un contexte de données rares, ce que j’ai appelé le small data, dont les avantages sont :

  • une information minimale
  • Prise en compte d’avis d’expert
  • Prise en compte des classes sans observations
  • On conserve l’incertitude de l’estimation. Dans notre exemple, on peut calculer des écart-types (on dispose en réalité de toute la distribution pour chaque probabilité) :
  • Souplesse de la méthode
  • Un modèle vraiment dédié au problème étudié
  • Pas de calibrage

On pourrait penser que cet article et les précédents ne font que relancer l’éternel débat pour ou contre bayésien. En réalité, nous avançons dans ce débat car nous proposons un choix systématique de loi a priori afin de refléter notre absence d’information initiale et nous mettons de côté l’utilisation de loi conjuguée puisque l’approche par simulations de Monte Carlo nous permet d’obtenir des résultats sans se soucier d’une facilité quelconque de calcul.

L’enrichissement de l’information que permet l’approche bayésienne au fur et à mesure que de nouvelles observations sont disponibles nous rapproche également d’une technique ancienne remise au goût du jour par un nouveau vocabulaire : le « machine learning » qui consiste à savoir bien extraire l’information à partir de l’observation de phénomènes suffisamment stationnaires.

 

Pour rappel, quelques références sur l’approche bayésienne :

  • Beauzamy Bernard, Méthodes probabilistes pour l’étude des phénomènes réels, SCMSA, 2004
  • Beauzamy Bernard, Méthodes Probabilistes Pour La Gestion Des Risques Extrêmes, SCMSA, 2016
  • Dacunha-Castelle Didier, Chemins de l’aléatoire, Champs Flammarion, 2002
  • Dacunha-Castelle Didier, Duflo Marie, Probabilités et Statistiques, 1. Problèmes à temps fixes, éd. Masson, coll. Math. Appl. pour la Maîtrise, 1982 (rééd. 1990)
  • Jacquard Albert, Les probabilités, Que sais-je ? n°1571, PUF, 2000
  • Laplace Pierre Simon, Théorie analytique des probabilités, 1812 (1ère édition)
  • Saporta Gilbert, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006
  • Schwarz Daniel, Le jeu de la science et du hasard, Champs Flammarion, 1999
Publicités

Small Data en assurance non vie : estimation d’une distribution d’événements extrêmes

En poursuivant notre exploration de la modélisation d’événements rares, nous nous plaçons dans la suite directe des articles précédents donnant à la fois des explications sur le bien-fondé de l’approche small data et les bases de l’outil mathématique. Une application directe à la segmentation du tarif avait été proposée.

Nous étudions maintenant la queue de distribution de la fréquence de sinistres pour des tranches de coûts extrêmes. Les données initiales sont fournies ci-dessous.

 

Les lois obtenues s’interprètent comme des lois conditionnelles à l’observation de coûts supérieurs à 200.

Les observations sont en quantité limité et le nombre de sinistres n’est pas décroissant avec le coût comme on pourrait d’y attendre, notamment si le nombre d’observations totales augmente.

 

Estimation à l’aide d’une loi de Pareto

L’utilisation d’une loi de Pareto est assez classique dans ce genre d’utilisation. Elle va imposer la décroissance attendue.

La loi de Pareto lisse les observations empiriques. Elle provoque des écarts importants : dans les faits, la fréquence de la tranche 801-1600 est réduite de moitié ! (voir graphique ci-dessous). De plus, elle augmente la fréquence des sinistres de plus faible coût de 3,5% ce qui n’apparait pas très prudent pour envisager une tarification sur cette base. Signalons que la loi de Pareto estimée n’a pas ici non plus de variance, ce qui peut sembler difficilement compatible avec un phénomène observable.

Lorsque l’on pratique un test du chi deux, l’ajustement de Pareto est rejeté. Cependant, ce test n’est qu’asymptotiquement valable et son utilisation reste discutable. Pourtant, l’ajustement de Pareto a bien « rectifié » la loi de probabilité comme nous l’attendions, c’est-à-dire, une décroissance des fréquences des sinistres avec leur coût.

 

L’approche small data

Au lieu de choisir une loi qui présente la décroissance des probabilités souhaitée, nous introduisons cette hypothèse au cœur de l’approche bayésienne : c’est une hypothèse a priori supplémentaire. Notre information initiale est donc enrichie par cet avis exogène, c’est l’avis d’expert.

Techniquement, les estimations s’obtiennent cette fois par simulation de Monte Carlo, la décroissance ne permettant pas d’identifier simplement la loi de distribution, comme nous avions obtenu une loi Beta en l’absence de ce type de contrainte. On obtient la représentation graphique présentée ici.

 

Analyse comparée

On peut montrer que l’approche bayésienne est plus cohérente avec les données que la modélisation par une loi de Pareto.

En effet, la distance du chi deux pour l’approche bayésienne est plus faible qu’avec la loi de Pareto (1,88 contre 7,93).

Une autre façon, moins liée à une métrique arbitraire est de comparer la probabilité de réalisation de l’échantillon sous chacune des deux lois. Pour l’approche bayésienne on obtient une probabilité 10 fois supérieure.

Le small data en Assurance : pourquoi ? comment ?

L’assurance a besoin de comprendre les phénomènes pour lesquelles elle offre une forme de garantie. Cette compréhension passe par la modélisation de la fréquence de ces phénomènes et la modélisation de leur intensité.

Pourquoi une autre approche méthodologique de modélisation des phénomènes assurables ?
Lorsque les données sont rares, et nous nous placerons uniquement dans ce cadre, plusieurs arguments motivent cette réflexion.

  • En premier lieu, une utilisation des outils statistiques mal adaptée
    En effet, les principaux résultats statistiques supposent avoir suffisamment d’observations pour admettre que les théorèmes asymptotiques soient applicables et que l’expérience produisant la donnée est répétable infiniment. De plus, les statistiques sont appropriées lorsque les lois de probabilités sont parfaitement identifiées et en cohérence avec le phénomène observé. Les phénomènes qui nous intéressent ici, en particulier rares, n’ont pas de loi identifiée, on reste dans l’estimation.
  • On peut mentionner également des choix de modèles étonnants
    Par exemple, utiliser des lois à support infini alors que les phénomènes observés sont bornées  (bornes pas toujours observables). Un tel attachement à ces lois poussent parfois à les tordre en les tronquant par exemple d’où des difficultés calculatoires. Particulièrement pour les phénomènes extrêmes (ou rares), l’utilisation de certaines lois paramétriques s’est répandue d’abord pour leur maniabilité ce qui ne doit pas être l’argument principal !
  • Ensuite souvent les paramétrages sont arbitraires
    Certains modèles peuvent être calibrées de plusieurs façons donnant des résultats différents d’où une ambiguïté ou un besoin de « sélection de calibration dans la sélection de modèles » d’une grande lourdeur.
  • Enfin, l’approche paramétrique était justifiée lors de moyens de calculs limités.
    Aujourd’hui, ce n’est plus le cas et on doit pouvoir mettre en œuvre des méthodes qui ne sont plus soumises à ces contraintes de calculs.

 

Comment appliquer le small data en assurance ?
Avec une volonté de suivre une démarche rigoureuse, on s’est donné les principes suivants :

1-On ne veut pas de modélisation abusive et donc on introduit un jeu d’hypothèses minimales et pas plus

2-On doit tenir compte de l’incertitude autour des données dans notre façon de travailler. Car les résultats ne sont que des estimations de la vraie loi inconnue. L’incertitude est un moyen de mesurer la qualité de l’information donnée par l’échantillon,  cela permet d’évaluer le degré de confiance en la projection, de prendre une marge de sécurité, de décider ou non d’un programme de réassurance.

3-Dans un contexte pédagogique, le choix dans un premier temps d’utiliser des données « publiques » : publiées, déjà manipulées et pour lesquelles d’autres méthodes sont habituellement utilisées pour faciliter la comparaison, dont les résultats sont admis par le plus grand nombre. L’idée est bien de ne pas sortir des données d’un chapeau avec lesquelles tout fonctionnerait miraculeusement.

4-Une fois la démarche bien comprise et admise, on pourra l’appliquer à des données propres à une compagnie d’assurance.

 

Quel outil mathématique ?
L’outil mathématique à la base de cette démarche, ce sont les probabilités bayésiennes. Elles se présentent de la manière suivante.

On a le cas classique de la production de pièces défectueuses ou non. Si p est la probabilité connue d’avoir une pièce défectueuse, le nombre de pièces défectueuses après N pièces fabriquées suit une loi binomiale B(N,p)

  • p se déduit en général des observations p = x / N si x est le nombre observé de pièces défectueuses (estimation correcte asymptotiquement)
  • Si p est inconnue, aléatoire, sans information, tous les choix sont possibles et donc sans avis particulier on donne le même poids à toutes les valeurs de son support. Cela revient à choisir une loi uniforme sur [0,1] a priori. C’est le choix dit d’information minimale qu’on va retrouver tout au long de l’utilisation de l’approche small data.
  • En appliquant une formule de Bayes, sachant la production X=x de pièces défectueuses, on peut déterminer sa densité a posteriori la  densité

  • C’est une loi Beta (les lois binomiale et uniforme se conjuguent bien) dont l’espérance, x+1 / N+2, est notre estimation de p.

Ceci se généralise lorsque le nombre de classe passe de 2 (pièce défectueuse ou non) à K classes. L’estimation des probabilités pi est alors xi +1 / N+K pour i=1,…,K.

On pourra aussi introduire d’autres contraintes dans la modélisation et les estimations seront obtenus grâce à des simulations de Monte Carlo.

Pour les détails techniques sur ces résultats, on pourra se reporter au livre de Gilbert Saporta, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006 et précisément les pages 317-319.

Assurance n°25 Provisions techniques non vie

Non vie = non lié à la durée de vie humaine.

Elles sont décrites à l’article R-331-6

Provisions de sinistres
sinistres survenus = sinistres survenus connus + survenus inconnus (tardifs ou IBNR)

PSAP – Provisions pour Sinistres A Payer
Valeur estimative des dépenses en principal et en frais (internes – salaires, charges –  et externes – juridique, expertise, avocat) nécessaires au règlement de tous les sinistres survenus et non payés, évaluée brute de recours par exercice de survenance.

Sinistres survenus connus (survenus, non tardifs, non payés, sinon pas une provision !) :
* Provision dossier/dossier individuel. Le montant évolue avec l’information : barème au départ puis estimé dans le temps :
– dommages aux biens évoluent peu
– dommages corporels : amélioration ou dégradation. Mort = certitude, soins intensifs = incertitude (frais d’infirmière 24h/24 sous forme de rente)

* Tardifs, IBNR : estimation statistique, chain ladder par exemple

PSNEM – Provisions pour Sinistres Non Encore Manifestés
forfaitaire, opposable au fisc

PM de rentes, provenant des conséquences d’un accident non mortel

Provisions de primes
ie provisions de sinistres à venir (non survenus), ou encore vision de la consommation de la prime dans le temps.

* PPNA – Provisions pour Primes Non Acquises
part de prime non acquise à l’exercice selon un partage prorata temporis de la durée de garantie portant sur l’exercice suivant. Elle matérialise les engagements ultérieurs à l’exercice en cours de l’assureur. (si une cyclicité est connue, la PPNA s’y adapte)

* PREC – Provisions pour Risques En Court
Complément si le report des primes ne suffit pas pour couvrir sinistres et frais entre la fin de l’exercice et la prochaine échéance de prime

* PRC – Provision pour Risques Croissants
Un nivellement de prime peut impliquer de prélever plus que le coût du risque au début d’un contrat. Ces sommes capitalisées forment la PRC qui est égale à la différence des VAP des engagements de l’assureur et des assurés. Cela traduit l’engagement d’un risque qui croit, comme la dépendance, avec une prime constante.
Remarque : ce nivellement peut également être réalisé en répartition : les risques faibles payent plus, les risques forts moins que leur coût réel.

* Réserve de capitalisation
Elle est liée à la valorisation des obligations en surcote/décote et à la convergence vers la valeur de remboursement lorsqu’elles sont portées jusqu’à maturité.
En cas de vente, la plus-value au delà du taux actuariel dote la réserve de capitalisation alors que la moins value impute cette réserve.
La réserve de capitalisation fait partie des fonds propres de l’assureur (éligible à la couverture de la marge de solvabilité S1). Ainsi, elle dote les fonds propres en franchise d’impôts et ne revient pas aux actionnaires (mais aux assurés).

Autres provisions
PE – Provision d’égalisation, pour amortir les fluctuation de sinistralité en assurance de groupe (catastrophe, décès)

PRE – Provision pour Risque d’Exigibilité, est dotée pour amortir les moins value latentes globales des titres non amortissables.

Remarque : la PDD, Provision pour Dépréciation Durable, n’est pas une provision. C’est une dépréciation de l’actif où elle figure d’ailleurs dans le bilan.

Conséquence avec Solvabilité 2
Les provisions techniques (PT) en solvabilité 2 sont égales BE + Risk Margin où
BE = Best Estimate = montant pour pouvoir payer les assurer dans 1 cas sur 2, qui est donc différent de l’engagement intégral envers les ayants droits
Risk Margin = VAP des SCR futurs (liés à l’activité future)
Donc, en S2, une partie des fonds propres (FP) sert à payer les engagements qui ne sont pas couverts les ces nouvelles PT. Ainsi FP S1 <> FP S2 et PT S1<>PT S2 et ceci est d’autant plus vrai en assurance vie.