Le small data au service de l’assurance : application à la segmentation du tarif en auto
20 avril 2017 Un commentaire
Lorsque l’on souhaite prendre en compte plusieurs facteurs de tarification et que l’on étudie la fréquence de sinistres en assurance automobile, nous pouvons nous retrouver dans une situation où les données sont rares.
En effet, si on utilise 5 facteurs (puissance du véhicule, lieu d’usage, type d’usage, âge, expérience de conduite), chacun découpé en 4 modalités, on obtient 45 = 1024 primes pures à estimer. Statistiquement, les données sont insuffisantes pour chaque occurrence, et on se résout alors à une approximation permettant le calcul, souvent une technique de décorrélation des facteurs afin de les traiter individuellement.
Plus précisément, lorsque l’on utilise le modèle multiplicatif, on suppose de plus que les marges (i.e. le total de sinistres pour chaque facteur) sont bien évaluées alors que les sinistres de chaque occurrence ne le sont pas. Autrement dit, curieusement on accepte une incertitude locale, mais pas d’incertitude globale.
Il est alors possible avec notre modélisation d’éviter l’introduction cette double hypothèse artificielle afin de traiter cette tarification.
Traitons donc pour illustrer un exemple emprunté au chapitre 5 de Tosetti et al.
Deux facteurs sont utilisés :
- puissance du véhicule avec 3 modes (petit, moyen, grand) et
- expérience de conduite avec 2 modes (novice ou expérimentés),
soit 6 classes de sinistres (et autant sans sinistre). Les données sont les suivantes
Approche standard : le modèle multiplicatif
Le modèle multiplicatif permet alors d’obtenir une estimation d’une probabilité pour chaque segment.
Ainsi, l’algorithme a « créé » 0.847 sinistre dans le segment novices / moyen
Approche par le small data
En appliquant l’approche bayésienne du small data, chacune des six probabilités s’estime à partir d’un modèle à 2 classes. Dans le segment des novices/petit, il y a 1109 assurés et 4 sinistres observés. La fréquence est estimée par (4+1) / (1109 +2) = 0,450%, soit 4,991 sinistres théoriques. On obtient alors :
Et des sinistres théoriques évalués ci-dessous :
Les avantages du small data sont clairs :
- on dispose si on le souhaite de l’incertitude autour de notre estimation, espérance d’une variable aléatoire,
- aucune hypothèse n’a été nécessaire sur la forme des fréquences
- aucune hypothèse n’a été faite sur l’exactitude des marges.
Ping: Small Data en assurance non vie : estimation d’une distribution d’événements extrêmes | Allocation et Gestion d'Actifs