Une histoire presque drôle pour comprendre le small data

Un anglais débarque à Calais. Les rues sont désertes. Une voiture arrive, percute un lampadaire et s’immobilise. Une femme un peu sonnée en sort.

L’anglais en déduit que toutes les françaises sont de mauvaises conductrices.

Pour l’homme de la rue, la conclusion de l’anglais est ridicule, c’est évident.

Pour le mathématicien, il y a au moins une femme mauvaise conductrice en France, ça tombe sous le sens.

Le statisticien proteste : il ne peut conclure car l’échantillon est insuffisant, aucun de ses théorèmes ne s’applique.

 

  Peut-on mieux faire ? C’est l’objet du small data

 

A l’aide du small data, nous pouvons,  à partir d’une expérience unique, parvenir à une conclusion en fonction de l’information acquise.

Par exemple, sur les 10 prochaines conductrices que l’anglais croisera, la probabilité qu’elles aient toutes un accident de circulation est inférieure à 17%.

Mais si l’anglais n’a pas noté que le conducteur en France est à gauche du véhicule,… il n’a observé qu’une passagère sortie indemne de l’accident et a oublié d’aller porter à la personne restée dans le véhicule.

Ainsi, les données observées sont fondamentales ainsi que la qualité de leur relevé, d’autant plus qu’elles sont rares.

 

 

 

 

 

 

Histoire inspirée de Beauzamy, méthodes probabilistes pour l’étude des phénomènes réels, SCMSA, 2004.

Publicités

Retour sur le Small Data et ses applications en assurance

Les travaux qui ont été présentés proposent une technique de modélisation probabiliste lorsque les données sont rares. En effet, dans ce contexte, il semble peu justifié d’utiliser des approches statistiques. Pour illustrer l’approche probabiliste, nous avons emprunté des exemples à l’assurance non vie et à l’assurance vie lorsque les données sont effectivement rares.

L’objectif principal était de présenter une approche complémentaire, un autre point de vue sur les données et d’en mesurer les impacts en imaginant cette méthode mise en application chez les assureurs. Des arguments objectifs sont là pour se forger une première opinion. Nous les rappelons brièvement :

  • Présence de données qu’il n’est pas possible d’obtenir par répétition ou dont la répétition est limitée. Ces données ne sont qu’une information qui influence notre vision initiale. L’hypothèse de répétition restreindrait le champ d’application aux seuls phénomènes où une telle caractéristique est acceptable.
  • Une probabilité caractérisant une information concernant un phénomène, celle-ci peut évoluer à mesure que notre information évolue elle-même grâce au théorème de Bayes

Dans tous les cas, la méthode proposée ici s’expose peu, au moins de notre point de vue, aux critiques des approches paramétriques et non paramétriques. L’idée est d’utiliser des hypothèses minimales afin de construire des lois de probabilités robustes et en accord avec l’’ensemble des informations disponibles au moment du calcul. Cette approche permet aussi simplement de profiter des compléments d’information au fil du temps afin de d’enrichir les lois de distribution. Enfin, cette approche permet de tenir compte de l’incertitude de la loi de distribution alors que dans les pratiques habituelles, celle-ci une fois élaborée, est supposée complètement connue, ce qui n’est jamais le cas.

D’un point de vue méthodologique, nous avons utilisé une méthode qui évite les écueils des approches usuellement introduites. A ceux qui réfutent notre choix bayésien, nous l’avons utilisé dans le but d’introduire l’information à disposition de la manière la plus neutre possible, avec une loi a priori uniforme, et de travailler constamment avec l’incertitude liée à nos calculs, incertitude trop souvent oubliée.

D’un point de vue opérationnel, nous avons un même outil qui permet de traiter la construction des lois de probabilités indispensables à l’activité d’assurance. On peut donc imaginer que la mise en place d’une telle approche permettrait de simplifier les modules de calculs et donc une partie des systèmes d’information et technologique des assureurs.

D’un point de vue développement, nous pouvons envisager que ces techniques permettent de créer de nouveaux produits d’assurance ou de réassurance pour lesquels les estimations purement statistiques ne sont pas pertinentes.

D’ailleurs, comme l’évoquait déjà André Laurent en 1964 [Laurent], « Les courbes de réforme [du matériel industriel] ne se distinguent a priori des courbes de mortalité humaine que par la substitution à l’unité homme de l’unité machine. Les règles de calcul actuariel et les méthodes de prévision utilisées en démographie humaine peuvent ainsi être transposées au domaine industriel […] » [Laurent]. Cette remarque permet même d’envisager des applications industrielles : étude du vieillissement du matériel pour établir un processus de renouvellement, amélioration de l’amortissement comptable, optimisation de la durée économique d’utilisation. Sans oublier que certains de ces champs pourraient à leur tour devenir des supports pour la création de produits d’assurance originaux.

Ainsi, comme l’affirme Marcel Boll, [Boll], « L’actuariat est une des branches les plus importantes des mathématiques appliquées et constitue en quelque sorte la mise en pratique de la science du hasard ». L’actuaire, plus que jamais, au-delà de son expertise assurantielle ou financière doit se révéler probabiliste, statisticien, data manager et innovateur.

 

[Boll] Boll Marcel, L’exploitation du hasard, Que sais-je ? n°57, PUF, 1971

[Laurent] Laurent André-G., La méthode statistique dans l’industrie, Que-sais-je ?; PUF n°451, 1964

Small Data pour l’extension de table de mortalité en assurance vie

On observe souvent la mortalité d’une partie des classes d’âges d’une population et se pose la question d’apprécier la mortalité sur les classes d’âges non observées (en général des classes d’âges plus élevées. Dans l’exemple utilisé dans l’article Small Data en assurance vie : en finir avec les lois de mortalité artificielles, les données sont disponibles de 70 à 84 ans. On peut s’interroger alors sur les taux de mortalité aux âges supérieurs. 130 ans est un âge limite souvent utilisé pour la fermeture des tables.

Parmi les approches classiques d’extension de table de mortalité, l’approche Denuit-Goderniaux (DG) permet de prolonger les lissages usuels. Ses caractéristiques, qui conduisent à critiquer cette méthode sont :

  • C’est un modèle paramétrique
  • qui intègre des contraintes sur la forme de la table
  • dont les résultats sont très dépendants du choix d’une métrique (estimation de paramètres par régression linéaire)
  • Enfin, il est souvent nécessaire d’utiliser un lissage de jonction entre les taux déjà lissés et les taux extrapolés.

Ces points ont déjà tous été commentés dans les articles « small data » précédents. D’ailleurs, cette approche est plus une technique d’extrapolation qu’une véritable technique d’extension : cette astuce numérique s’éloigne assez vite de la physique (ou de la réalité) de l’estimation de loi probabilité que l’on cherche à réaliser.

 

L’approche bayésienne travaille avec 60 classes d’âges, de 70 à 129 ans, de manière identique à la précédente (présenté dans cet article).

De même, toujours à l’aide de simulations de Monte Carlo, nous obtenons un taux de mortalité sur l’ensemble des tranches d’âges supérieurs.

Les deux techniques de prolongement donnent des résultats très différents ! Pourquoi ? L’écart entre les deux courbes représente l’enrichissement artificiel de l’information par le modèle paramétrique qui présente une forme convexe sur la tranche d’âge 85 à 110 ans environ puis une forme concave sur le reste de la courbe. Cette information complètement exogène provient de « l’observation »  de tables de mortalités plus riches qui ont ces caractéristiques de mortalité et qui ont été intégrées au sein de l’approche.

L’approche bayésienne travaille elle avec une information beaucoup moins riche. Cette information minimale peut être complétée sur l’expertise exogène le permet. Par exemple, nous pouvons contrôler la convexité de la courbe en enrichissant l’information aux âges 95 et 101 ans puis la concavité aux âges 120 et 127 ans.

Cette fois on obtient une courbe plus conforme aux attentes.

Les résultats sont identiques mais les différences sont énormes !

  • Avec l’approche bayésienne, on a l’avantage d’avoir une totale maîtrise des étapes de modélisation et de pouvoir évaluer le besoin d’information complémentaire pour construire la loi de mortalité pas à pas.
  • On peut ainsi piloter la construction de la table
  • On ne subit plus le modèle paramétrique
  • La méthode est souple. Si on voulait imposer des taux de mortalité à certains âges au modèle DG, il devient une autre méthode qui nécessite d’autres techniques de calibrage.
  • Grâce à l’approche bayésienne, on ne change pas de méthode, on n’intègre de l’information.

 

Small Data en assurance vie : en finir avec les lois de mortalité artificielles

Cet article illustre l’utilisation des techniques du small data pour l’estimation de loi de mortalité en assurance vie.

Afin de mettre en œuvre différentes constructions de loi de mortalité dans un contexte de données limitées, nous allons utiliser un exemple emprunté au chapitre 6 de Tosetti et al.

Les données fournies correspondent aux 15 variables aléatoires de durée de vie Tz pour z=70,…,84 pour les 15 groupes de populations (les données brutes sont en annexe). Dans un premier temps, pour chaque groupe, nous appliquons le modèle binomial classique associé à une probabilité de décès 1 0 qz = P(Tz ϵ [0,1]), noté q(z) ou qz. Son estimation fréquentiste est le rapport nombre de décès / nombre d’individus observés, soit :

en reprenant les notations de Tosetti. Les intervalles de confiances exacts à 95% sont également donnés dans le graphique ci-dessus.

Comme signalé par les auteurs, il reste un problème fondamental de construction : on s’attend à avoir les q(z) croissants avec l’âge z, or il y a dans l’estimation des décrochements trop importants. Etant donné la taille des intervalles de confiance, ceci confirme bien que nos données sont trop pauvres pour être utilisées sans autre traitement.

Les auteurs proposent des lissages par ajustements selon successivement des fonctions croissantes « simples », par décalage d’âge avec la table TPRV93 (l’exemple date un peu…) et avec les lois de Gompertz et Makeham. Petauton évoque d’autres méthodes devenues standard : moyennes mobiles,  splines et surtout Whittaker-Henderson qui peuvent aussi être appliquées.

 

Les méthodes précédentes peuvent être efficaces mais :

  • Elles sont sans véritable fondement quant à leur utilisation. Par exemple, pourquoi utiliser une distance en carré et non en valeur absolue ou en quantile dans la méthode Wittacker-Henderson ? Comment choisir le juste nombre de nœuds et leur place dans la méthode par splines ? La taille de la fenêtre dans la moyenne mobile ? Ces approches tendent à considérer les valeurs anormales comme aberrantes alors même qu’elles seraient situées dans l’intervalle de confiance exact.
  • Elles sont justifiées a posteriori par un test du chi deux, qui n’est qu’asymptotique. Or dans notre exemple, les données sont peu nombreuses et elles pourraient l’être encore moins ! L’appréciation est réalisée « en moyenne ».
  • Elles ne tiennent pas compte de l’incertitude des données initiales.
  • Le choix du paramétrage z = 2, h = 5 de l’approche Whittacker-Henderson est en général réalisé a posteriori, en comparant par exemple différents graphiques qui, à vue d’œil, lisse au mieux la courbe tout en restant fidèle à l’évolution globale des données. Une procédure rigoureuse et systématique d’un tel choix apparait lourde et difficile à mettre en place.
  • Quant à la méthode du décalage d’âge, elle intègre les éventuels défauts de sa table de référence et reste une méthode économique pour obtenir un lissage acceptable, en fait déjà réalisé dans la construction de la table de référence. La métrique utilisée (ici la distance du chi deux) n’est toutefois pas la seule utilisable.

 

Globalement, les méthodes présentées ont toutes le défaut de nécessiter des choix arbitraires. L’approche small data propose une alternative afin d’éviter cet inconvénient majeur dans le cadre d’une démarche scientifique et les défauts particuliers relevés plus haut.

 

Les techniques vues en assurance non vie ne sont pas directement applicables car la « physique » des données n’est pas la même :

  • en assurance non vie, on observe 1 phénomène dont le résultat peut tomber dans K classes
  • Ici on observe des expériences de mortalité indépendantes (pour K classes d’âges observés) dont le résultat est décès dans l’année ou non
  • Utiliser la loi reconstituée du taux de survie à un âge donné (pour nous ramener à l’estimation d’une seule loi de probabilité come en assurance non vie) n’est pas possible car nous n’avons pas d’échantillon d’observation pour cette loi.

 

L’approche consiste alors à estimer chacun des taux de mortalité à partir d’échantillons indépendants en imposant l’hypothèse de croissance avec l’âge.

L’estimation s’obtient par simulation de Monte Carlo. Le graphique ci-dessous représente différentes reconstitutions.

Quelques rappels des bénéfices de l’approche small data :

  • La technique reste cohérente avec la « physique » des données
  • C’est une technique d’estimation et non un pur outil numérique de lissage
  • Pas de sensibilité au paramétrage d’une technique
  • Pas de sensibilité à une métrique
  • On peut disposer de l’incertitude pour chaque taux :

Nous avons obtenu une estimation pour la famille qz des taux de décès annuel. Ces taux de décès permettent de reconstituer une table de mortalité adaptée à l’information disponible sans introduire de modélisation exagérée ou d’avoir recours à un paramétrage dont le réglage est trop discrétionnaire et non réellement justifiable.

Ces estimations ont tenu compte d’un avis d’expert qui impose une croissance des taux de décès annuel avec l’âge atteint. Ceci a pu être réalisé sans l’introduction d’une forme paramétrique quelconque sur les taux.

Cette approche permet d’intégrer en amont les contraintes de construction de la table d’expérience sans autre choix de modèles et/ou paramètres, choix toujours délicat à justifier.

 

Bibliographie

Tosetti Alain, Béhar Thomas, Fromenteau Michel, Ménart Stéphane, Assurance, Comptabilité – Réglementation – Actuariat, AAA, Economica, 2011

 

Données utilisées

Small data en assurance non vie : prévision de risques d’intensité jamais observée

Cet article prolonge directement le précédent : estimation d’une distribution d’événements extrêmes en assurance non vie. Il s’agit maintenant d’estimer la possibilité qu’un événement jamais observé se réalise.

Pour rappel, nous avons modélisé les données fournies dans le tableau ci-dessous correspondant à la fréquence d’évènements extrêmes en sinistre auto :

Afin d’estimer la probabilité d’évènements non observés, nous ajoutons une classe de risque « 6401 et + » dans la modélisation de la distribution. Evidemment, la fréquence empirique pour cette classe est nulle.

Dans le cas de l’utilisation d’une loi paramétrique, bien que les hypothèses changent, il s’agit d’un simple prolongement sur les nouvelles classes. Nous prolongeons donc la loi de Pareto sur ce nouveau support.

Dans le cas bayésien, puisque le cadre présente un nouveau contexte, on s’y adapte : le  modèle est bien différent de celui de l’article précédent, les calculs doivent être reconduits dans ces nouvelles conditions.

Les différentes estimations sont présentées ci-dessous.

On peut encore juger de la meilleure cohérence avec les données dans ce cadre. La probabilité de l’échantillon est sous l’approche bayésienne 0,0406% vs 0,014% sous Pareto.

Toutefois, faire des comparaisons, c’est bien mais cela ne suffit pas pour s’imposer. L’approche bayésienne a d’abord un intérêt par ce qu’elle n’a pas les défauts des approches paramétriques :

  • Si une loi ne convient, on ira en piocher une autre dans notre sac à loi. Ce choix est factice car la loi existe déjà pour modéliser un autre problème et on espère l’utiliser, la caler, pour un nouveau phénomène.
  • Les techniques de calibration ne sont pas uniques et chacune pourra donner des résultats différents
  • Et enfin ces approches éliminent l’incertitude en considérant la loi obtenue comme exacte. Les données sont oubliées.

Tous ces défauts qui plaident pour l’approche bayésienne dans un contexte de données rares, ce que j’ai appelé le small data, dont les avantages sont :

  • une information minimale
  • Prise en compte d’avis d’expert
  • Prise en compte des classes sans observations
  • On conserve l’incertitude de l’estimation. Dans notre exemple, on peut calculer des écart-types (on dispose en réalité de toute la distribution pour chaque probabilité) :
  • Souplesse de la méthode
  • Un modèle vraiment dédié au problème étudié
  • Pas de calibrage

On pourrait penser que cet article et les précédents ne font que relancer l’éternel débat pour ou contre bayésien. En réalité, nous avançons dans ce débat car nous proposons un choix systématique de loi a priori afin de refléter notre absence d’information initiale et nous mettons de côté l’utilisation de loi conjuguée puisque l’approche par simulations de Monte Carlo nous permet d’obtenir des résultats sans se soucier d’une facilité quelconque de calcul.

L’enrichissement de l’information que permet l’approche bayésienne au fur et à mesure que de nouvelles observations sont disponibles nous rapproche également d’une technique ancienne remise au goût du jour par un nouveau vocabulaire : le « machine learning » qui consiste à savoir bien extraire l’information à partir de l’observation de phénomènes suffisamment stationnaires.

 

Pour rappel, quelques références sur l’approche bayésienne :

  • Beauzamy Bernard, Méthodes probabilistes pour l’étude des phénomènes réels, SCMSA, 2004
  • Beauzamy Bernard, Méthodes Probabilistes Pour La Gestion Des Risques Extrêmes, SCMSA, 2016
  • Dacunha-Castelle Didier, Chemins de l’aléatoire, Champs Flammarion, 2002
  • Dacunha-Castelle Didier, Duflo Marie, Probabilités et Statistiques, 1. Problèmes à temps fixes, éd. Masson, coll. Math. Appl. pour la Maîtrise, 1982 (rééd. 1990)
  • Jacquard Albert, Les probabilités, Que sais-je ? n°1571, PUF, 2000
  • Laplace Pierre Simon, Théorie analytique des probabilités, 1812 (1ère édition)
  • Saporta Gilbert, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006
  • Schwarz Daniel, Le jeu de la science et du hasard, Champs Flammarion, 1999

Small Data en assurance non vie : estimation d’une distribution d’événements extrêmes

En poursuivant notre exploration de la modélisation d’événements rares, nous nous plaçons dans la suite directe des articles précédents donnant à la fois des explications sur le bien-fondé de l’approche small data et les bases de l’outil mathématique. Une application directe à la segmentation du tarif avait été proposée.

Nous étudions maintenant la queue de distribution de la fréquence de sinistres pour des tranches de coûts extrêmes. Les données initiales sont fournies ci-dessous.

 

Les lois obtenues s’interprètent comme des lois conditionnelles à l’observation de coûts supérieurs à 200.

Les observations sont en quantité limité et le nombre de sinistres n’est pas décroissant avec le coût comme on pourrait d’y attendre, notamment si le nombre d’observations totales augmente.

 

Estimation à l’aide d’une loi de Pareto

L’utilisation d’une loi de Pareto est assez classique dans ce genre d’utilisation. Elle va imposer la décroissance attendue.

La loi de Pareto lisse les observations empiriques. Elle provoque des écarts importants : dans les faits, la fréquence de la tranche 801-1600 est réduite de moitié ! (voir graphique ci-dessous). De plus, elle augmente la fréquence des sinistres de plus faible coût de 3,5% ce qui n’apparait pas très prudent pour envisager une tarification sur cette base. Signalons que la loi de Pareto estimée n’a pas ici non plus de variance, ce qui peut sembler difficilement compatible avec un phénomène observable.

Lorsque l’on pratique un test du chi deux, l’ajustement de Pareto est rejeté. Cependant, ce test n’est qu’asymptotiquement valable et son utilisation reste discutable. Pourtant, l’ajustement de Pareto a bien « rectifié » la loi de probabilité comme nous l’attendions, c’est-à-dire, une décroissance des fréquences des sinistres avec leur coût.

 

L’approche small data

Au lieu de choisir une loi qui présente la décroissance des probabilités souhaitée, nous introduisons cette hypothèse au cœur de l’approche bayésienne : c’est une hypothèse a priori supplémentaire. Notre information initiale est donc enrichie par cet avis exogène, c’est l’avis d’expert.

Techniquement, les estimations s’obtiennent cette fois par simulation de Monte Carlo, la décroissance ne permettant pas d’identifier simplement la loi de distribution, comme nous avions obtenu une loi Beta en l’absence de ce type de contrainte. On obtient la représentation graphique présentée ici.

 

Analyse comparée

On peut montrer que l’approche bayésienne est plus cohérente avec les données que la modélisation par une loi de Pareto.

En effet, la distance du chi deux pour l’approche bayésienne est plus faible qu’avec la loi de Pareto (1,88 contre 7,93).

Une autre façon, moins liée à une métrique arbitraire est de comparer la probabilité de réalisation de l’échantillon sous chacune des deux lois. Pour l’approche bayésienne on obtient une probabilité 10 fois supérieure.

Le small data au service de l’assurance : application à la segmentation du tarif en auto

Lorsque l’on souhaite prendre en compte plusieurs facteurs de tarification et que l’on étudie la fréquence de sinistres en assurance automobile, nous pouvons nous retrouver dans une situation où les données sont rares.

En effet, si on utilise 5 facteurs (puissance du véhicule, lieu d’usage, type d’usage, âge, expérience de conduite), chacun découpé en 4 modalités, on obtient 45 = 1024 primes pures à estimer. Statistiquement, les données sont insuffisantes pour chaque occurrence, et on se résout alors à une approximation permettant le calcul, souvent une technique de décorrélation des facteurs afin de les traiter individuellement.

Plus précisément, lorsque l’on utilise le modèle multiplicatif, on suppose de plus que les marges (i.e. le total de sinistres pour chaque facteur) sont bien évaluées alors que les sinistres de chaque occurrence ne le sont pas. Autrement dit, curieusement on accepte une incertitude locale, mais pas d’incertitude globale.

Il est alors possible avec notre modélisation d’éviter l’introduction cette double hypothèse artificielle afin de traiter cette tarification.

Traitons donc pour illustrer un exemple emprunté au chapitre 5 de Tosetti et al.

Deux facteurs sont utilisés :

  • puissance du véhicule avec 3 modes (petit, moyen, grand) et
  • expérience de conduite avec 2 modes (novice ou expérimentés),

soit 6 classes de sinistres (et autant sans sinistre). Les données sont les suivantes

 

Approche standard : le modèle multiplicatif

Le modèle multiplicatif permet alors d’obtenir une estimation d’une probabilité pour chaque segment.

              

Ainsi, l’algorithme a « créé » 0.847 sinistre dans le segment  novices / moyen

Approche par le small data

En appliquant l’approche bayésienne du small data, chacune des six probabilités s’estime à partir d’un modèle à 2 classes. Dans le segment des novices/petit, il y a 1109 assurés et 4 sinistres observés. La fréquence est estimée par (4+1) / (1109 +2) = 0,450%, soit 4,991 sinistres théoriques. On obtient alors :

Et des sinistres théoriques évalués ci-dessous :

Les avantages du small data sont clairs :

  • on dispose si on le souhaite de l’incertitude autour de notre estimation, espérance d’une variable aléatoire,
  • aucune hypothèse n’a été nécessaire sur la forme des fréquences
  • aucune hypothèse n’a été faire sur l’exactitude des marges.

 

Le small data en Assurance : pourquoi ? comment ?

L’assurance a besoin de comprendre les phénomènes pour lesquelles elle offre une forme de garantie. Cette compréhension passe par la modélisation de la fréquence de ces phénomènes et la modélisation de leur intensité.

Pourquoi une autre approche méthodologique de modélisation des phénomènes assurables ?
Lorsque les données sont rares, et nous nous placerons uniquement dans ce cadre, plusieurs arguments motivent cette réflexion.

  • En premier lieu, une utilisation des outils statistiques mal adaptée
    En effet, les principaux résultats statistiques supposent avoir suffisamment d’observations pour admettre que les théorèmes asymptotiques soient applicables et que l’expérience produisant la donnée est répétable infiniment. De plus, les statistiques sont appropriées lorsque les lois de probabilités sont parfaitement identifiées et en cohérence avec le phénomène observé. Les phénomènes qui nous intéressent ici, en particulier rares, n’ont pas de loi identifiée, on reste dans l’estimation.
  • On peut mentionner également des choix de modèles étonnants
    Par exemple, utiliser des lois à support infini alors que les phénomènes observés sont bornées  (bornes pas toujours observables). Un tel attachement à ces lois poussent parfois à les tordre en les tronquant par exemple d’où des difficultés calculatoires. Particulièrement pour les phénomènes extrêmes (ou rares), l’utilisation de certaines lois paramétriques s’est répandue d’abord pour leur maniabilité ce qui ne doit pas être l’argument principal !
  • Ensuite souvent les paramétrages sont arbitraires
    Certains modèles peuvent être calibrées de plusieurs façons donnant des résultats différents d’où une ambiguïté ou un besoin de « sélection de calibration dans la sélection de modèles » d’une grande lourdeur.
  • Enfin, l’approche paramétrique était justifiée lors de moyens de calculs limités.
    Aujourd’hui, ce n’est plus le cas et on doit pouvoir mettre en œuvre des méthodes qui ne sont plus soumises à ces contraintes de calculs.

 

Comment appliquer le small data en assurance ?
Avec une volonté de suivre une démarche rigoureuse, on s’est donné les principes suivants :

1-On ne veut pas de modélisation abusive et donc on introduit un jeu d’hypothèses minimales et pas plus

2-On doit tenir compte de l’incertitude autour des données dans notre façon de travailler. Car les résultats ne sont que des estimations de la vraie loi inconnue. L’incertitude est un moyen de mesurer la qualité de l’information donnée par l’échantillon,  cela permet d’évaluer le degré de confiance en la projection, de prendre une marge de sécurité, de décider ou non d’un programme de réassurance.

3-Dans un contexte pédagogique, le choix dans un premier temps d’utiliser des données « publiques » : publiées, déjà manipulées et pour lesquelles d’autres méthodes sont habituellement utilisées pour faciliter la comparaison, dont les résultats sont admis par le plus grand nombre. L’idée est bien de ne pas sortir des données d’un chapeau avec lesquelles tout fonctionnerait miraculeusement.

4-Une fois la démarche bien comprise et admise, on pourra l’appliquer à des données propres à une compagnie d’assurance.

 

Quel outil mathématique ?
L’outil mathématique à la base de cette démarche, ce sont les probabilités bayésiennes. Elles se présentent de la manière suivante.

On a le cas classique de la production de pièces défectueuses ou non. Si p est la probabilité connue d’avoir une pièce défectueuse, le nombre de pièces défectueuses après N pièces fabriquées suit une loi binomiale B(N,p)

  • p se déduit en général des observations p = x / N si x est le nombre observé de pièces défectueuses (estimation correcte asymptotiquement)
  • Si p est inconnue, aléatoire, sans information, tous les choix sont possibles et donc sans avis particulier on donne le même poids à toutes les valeurs de son support. Cela revient à choisir une loi uniforme sur [0,1] a priori. C’est le choix dit d’information minimale qu’on va retrouver tout au long de l’utilisation de l’approche small data.
  • En appliquant une formule de Bayes, sachant la production X=x de pièces défectueuses, on peut déterminer sa densité a posteriori la  densité

  • C’est une loi Beta (les lois binomiale et uniforme se conjuguent bien) dont l’espérance, x+1 / N+2, est notre estimation de p.

Ceci se généralise lorsque le nombre de classe passe de 2 (pièce défectueuse ou non) à K classes. L’estimation des probabilités pi est alors xi +1 / N+K pour i=1,…,K.

On pourra aussi introduire d’autres contraintes dans la modélisation et les estimations seront obtenus grâce à des simulations de Monte Carlo.

Pour les détails techniques sur ces résultats, on pourra se reporter au livre de Gilbert Saporta, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006 et précisément les pages 317-319.

Évaluation des risques : attention aux interprétations

Définir le risque

Le mot « risque » serait issu de l’italien « risicare » signifiant « doubler un promontoire », puis ensuite « hasard qui peut causer une perte », donc la possible réalisation d’un événement défavorable.

Keynes précise que l’incertitude ne peut être appréciée sans lui adjoindre une part de subjectivité alors que le risque est une forme d’incertitude qui existe dans les lois de la nature, de la physique et qui peut être évalué à l’aide de probabilité objective. L’incertitude autour de la mesure d’une grandeur est un risque d’erreur probabilisable (c’est pour ce type d’incertitude qu’aurait été créée la loi de distribution normale). En finance, par exemple, l’incertitude autour de la valorisation d’une entreprise est soumise à la subjectivité humaine puisqu’aucune valeur de référence n’existe (au contraire de la position d’une étoile, même si on sait mal l’estimer).

L’évaluation des risques se représente souvent par la détermination de la probabilité de la réalisation d’un événement néfaste. Les exemples suivants, s’ils illustrent la démarche, donnent quelques signaux d’alertes dans l’interprétation des nombres.

 

Exemples en assurance

Selon Solvabilité 2, les fonds propres seraient déterminés afin qu’une faillite ne se produise qu’avec une probabilité 1/200 chaque année. Ceci est souvent traduit en affirmant que l’organisme d’assurance fera faillite une fois tous les 200 ans en moyenne. Voyons rapidement en quoi cette traduction est malheureuse. En effet, celle-ci suppose déjà que les exercices annuels sont indépendants ce qui est loin d’être vrais, les bons résultats d’une année créant un peu plus de fonds propres pour l’année suivante. Mais entrons un peu dans les détails mathématiques. En acceptant cette hypothèse d’indépendance, la probabilité d’un défaut la nème année de l’organisme vaut (1-0.5%)n-1 x (0.5%) (loi géométrique de paramètre 0.5%). L’espérance est bien 1/0.5% = 200 ans et son écart-type environ 199.5 ans. L’écart-type est du même ordre que la moyenne ce qui rend cette dernière peu informative. La probabilité d’occurrence du défaut au bout de 200 ans est extrêmement faible, environ 1.8 10-3. Il est plus envisageable de faire défaut avant. D’ailleurs l’année de défaut la plus probable est l’année n°1 !

Prenons un angle différent et considérons les 595 (selon l’ACPR en 2015) organismes d’assurance en France soumis à Solvabilité 2. Tous vont avoir une probabilité théorique 1/200 de faire défaut. Quelle est alors, pour une année donnée, la probabilité d’avoir au moins un défaut ? Si on suppose les organismes indépendants, ce qui est une hypothèse peu conservatrice, cette probabilité est proche de 95%. On peut également évaluer la probabilité d’avoir exactement 1, 2,…, 10 défauts,… par une loi binomiale de paramètres 595 et 1/200. Nous résumons ceci par le graphique ci-dessous.

6-distri_nb_defaut

La distribution totale nous indique que le nombre de défauts le plus probable est 2 et son espérance de défaut est proche de 3 défauts par an (avec un écart-type de 1.7).

Plus le temps passe, ou plus les épreuves sont importantes, plus il devient probable d’observer un événement, jugé impossible tellement sa probabilité est faible : la répétition presque indéfinie crée l’invraisemblance.

Poussons un peu plus loin la provocation. Il est relativement simple de construire un événement réaliste, pour le moment fictif, qui provoquerait la ruine d’une société d’assurance : par exemple un accident d’avion sur des installations nucléaires… Il est impossible en revanche d’estimer rigoureusement cette probabilité et d’affirmer qu’elle serait inférieure aux 0.5% à atteindre. Avec un tel niveau de gravité, les probabilités ne veulent pas dire grand-chose (voir également les réflexions de Nassim Taleb sur la détermination des petites probabilités).

Le small data, approche inspirée d’une vieille technique

Dans l’approche classique, la loi de probabilité du phénomène (accident, catastrophe naturelle, décès,…) est supposée parfaitement connue une fois estimée. L’estimation est fréquentiste, suppose que l’évènement est répétable à l’infini et ne fournit pas toujours d’intervalle de confiance. Les résultats ne sont alors qu’asymptotiques, on l’oublie trop souvent, hypothèse parfois peu réaliste dans des situations pratiques. Il en est de même des tests d’adéquation de loi, type chi deux, qui n’ont qu’une validité asymptotique, c’est-à-dire lorsque l’on a suffisamment (et pour cause !) de données pour caractériser parfaitement les lois en jeu.

Avec le small data, nous utilisons uniquement des outils probabilistes. En effet, les statistiques sont appropriées lorsque les lois de probabilités sont parfaitement identifiées et en cohérence avec le phénomène observé. Pour citer Daniel Schwarz : « La méthode statistique vise à induire, à partir d’un échantillon, des propriétés d’une population, parfois bien déterminée, mais souvent abstraite, forgée à l’image de l’échantillon », alors que « dans le calcul des probabilités, une démarche déductive permet au sein d’une population, des prédictions pour les échantillons qui en sont tirés au sort ». Les phénomènes qui nous intéressent ici, en particulier rares, n’ont pas de loi identifiée.

Ainsi, notre parti va être de construire une loi de probabilité en introduisant le minimum d’information factice et celle-ci sera enrichie à mesure que nous obtenons de l’information. Cet outil est bien connu, parfois controversé (mais sans volonté de polémique) : il s’agit de l’approche bayésienne. Ainsi, nous allons donc considérer que les lois de probabilités que nous cherchons à identifier sont elles-mêmes aléatoires.

Une probabilité étant une fonction à valeurs dans [0,1], en l’absence d’information plus précise à ce stade, et pour tenir compte de l’incertitude, il est naturel de supposer qu’elle suit une loi uniforme sur cet intervalle. Cette hypothèse est assez classique et nous la retrouvons chez de nombreux auteurs. Son origine remonterait à Laplace et ses travaux connus sous le nom de loi de succession de Laplace, qui explique que pour un phénomène non démontré, mais seulement observé, la probabilité qu’il se produise à nouveau est N+1 / N+2 si N est le nombre de réalisations antérieures.

Cette approche présente enfin l’avantage de pouvoir tenir compte d’une opinion exogène provenant par exemple d’une caractéristique admise grâce à l’observation d’un phénomène analogue. Nous disposons maintenant de notre outil de base pour traiter les données rares, le small data, outil aux applications multiples, notamment pour l’estimation de loi de probabilité en assurance.

Références :

Beauzamy Bernard, Méthodes probabilistes pour l’étude des phénomènes réels, SCMSA, 2004

Dacunha-Castelle Didier, Chemins de l’aléatoire, Champs Flammarion, 2002

Dacunha-Castelle Didier, Duflo Marie, Probabilités et Statistiques, 1. Problèmes à temps fixes, éd. Masson, coll. Math. Appl. pour la Maîtrise, 1982 (rééd. 1990)

Jacquard Albert, Les probabilités, Que sais-je ? n°1571, PUF, 2000

Laplace Pierre Simon, Théorie analytique des probabilités, 1812 (1ère édition)

Saporta Gilbert, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006

Schwarz Daniel, Le jeu de la science et du hasard, Champs Flammarion, 1999