Small Data en assurance vie : en finir avec les lois de mortalité artificielles

Cet article illustre l’utilisation des techniques du small data pour l’estimation de loi de mortalité en assurance vie.

Afin de mettre en œuvre différentes constructions de loi de mortalité dans un contexte de données limitées, nous allons utiliser un exemple emprunté au chapitre 6 de Tosetti et al.

Les données fournies correspondent aux 15 variables aléatoires de durée de vie Tz pour z=70,…,84 pour les 15 groupes de populations (les données brutes sont en annexe). Dans un premier temps, pour chaque groupe, nous appliquons le modèle binomial classique associé à une probabilité de décès 1 0 qz = P(Tz ϵ [0,1]), noté q(z) ou qz. Son estimation fréquentiste est le rapport nombre de décès / nombre d’individus observés, soit :

en reprenant les notations de Tosetti. Les intervalles de confiances exacts à 95% sont également donnés dans le graphique ci-dessus.

Comme signalé par les auteurs, il reste un problème fondamental de construction : on s’attend à avoir les q(z) croissants avec l’âge z, or il y a dans l’estimation des décrochements trop importants. Etant donné la taille des intervalles de confiance, ceci confirme bien que nos données sont trop pauvres pour être utilisées sans autre traitement.

Les auteurs proposent des lissages par ajustements selon successivement des fonctions croissantes « simples », par décalage d’âge avec la table TPRV93 (l’exemple date un peu…) et avec les lois de Gompertz et Makeham. Petauton évoque d’autres méthodes devenues standard : moyennes mobiles,  splines et surtout Whittaker-Henderson qui peuvent aussi être appliquées.

 

Les méthodes précédentes peuvent être efficaces mais :

  • Elles sont sans véritable fondement quant à leur utilisation. Par exemple, pourquoi utiliser une distance en carré et non en valeur absolue ou en quantile dans la méthode Wittacker-Henderson ? Comment choisir le juste nombre de nœuds et leur place dans la méthode par splines ? La taille de la fenêtre dans la moyenne mobile ? Ces approches tendent à considérer les valeurs anormales comme aberrantes alors même qu’elles seraient situées dans l’intervalle de confiance exact.
  • Elles sont justifiées a posteriori par un test du chi deux, qui n’est qu’asymptotique. Or dans notre exemple, les données sont peu nombreuses et elles pourraient l’être encore moins ! L’appréciation est réalisée « en moyenne ».
  • Elles ne tiennent pas compte de l’incertitude des données initiales.
  • Le choix du paramétrage z = 2, h = 5 de l’approche Whittacker-Henderson est en général réalisé a posteriori, en comparant par exemple différents graphiques qui, à vue d’œil, lisse au mieux la courbe tout en restant fidèle à l’évolution globale des données. Une procédure rigoureuse et systématique d’un tel choix apparait lourde et difficile à mettre en place.
  • Quant à la méthode du décalage d’âge, elle intègre les éventuels défauts de sa table de référence et reste une méthode économique pour obtenir un lissage acceptable, en fait déjà réalisé dans la construction de la table de référence. La métrique utilisée (ici la distance du chi deux) n’est toutefois pas la seule utilisable.

 

Globalement, les méthodes présentées ont toutes le défaut de nécessiter des choix arbitraires. L’approche small data propose une alternative afin d’éviter cet inconvénient majeur dans le cadre d’une démarche scientifique et les défauts particuliers relevés plus haut.

 

Les techniques vues en assurance non vie ne sont pas directement applicables car la « physique » des données n’est pas la même :

  • en assurance non vie, on observe 1 phénomène dont le résultat peut tomber dans K classes
  • Ici on observe des expériences de mortalité indépendantes (pour K classes d’âges observés) dont le résultat est décès dans l’année ou non
  • Utiliser la loi reconstituée du taux de survie à un âge donné (pour nous ramener à l’estimation d’une seule loi de probabilité come en assurance non vie) n’est pas possible car nous n’avons pas d’échantillon d’observation pour cette loi.

 

L’approche consiste alors à estimer chacun des taux de mortalité à partir d’échantillons indépendants en imposant l’hypothèse de croissance avec l’âge.

L’estimation s’obtient par simulation de Monte Carlo. Le graphique ci-dessous représente différentes reconstitutions.

Quelques rappels des bénéfices de l’approche small data :

  • La technique reste cohérente avec la « physique » des données
  • C’est une technique d’estimation et non un pur outil numérique de lissage
  • Pas de sensibilité au paramétrage d’une technique
  • Pas de sensibilité à une métrique
  • On peut disposer de l’incertitude pour chaque taux :

Nous avons obtenu une estimation pour la famille qz des taux de décès annuel. Ces taux de décès permettent de reconstituer une table de mortalité adaptée à l’information disponible sans introduire de modélisation exagérée ou d’avoir recours à un paramétrage dont le réglage est trop discrétionnaire et non réellement justifiable.

Ces estimations ont tenu compte d’un avis d’expert qui impose une croissance des taux de décès annuel avec l’âge atteint. Ceci a pu être réalisé sans l’introduction d’une forme paramétrique quelconque sur les taux.

Cette approche permet d’intégrer en amont les contraintes de construction de la table d’expérience sans autre choix de modèles et/ou paramètres, choix toujours délicat à justifier.

 

Bibliographie

Tosetti Alain, Béhar Thomas, Fromenteau Michel, Ménart Stéphane, Assurance, Comptabilité – Réglementation – Actuariat, AAA, Economica, 2011

 

Données utilisées

Publicités

Small data en assurance non vie : prévision de risques d’intensité jamais observée

Cet article prolonge directement le précédent : estimation d’une distribution d’événements extrêmes en assurance non vie. Il s’agit maintenant d’estimer la possibilité qu’un événement jamais observé se réalise.

Pour rappel, nous avons modélisé les données fournies dans le tableau ci-dessous correspondant à la fréquence d’évènements extrêmes en sinistre auto :

Afin d’estimer la probabilité d’évènements non observés, nous ajoutons une classe de risque « 6401 et + » dans la modélisation de la distribution. Evidemment, la fréquence empirique pour cette classe est nulle.

Dans le cas de l’utilisation d’une loi paramétrique, bien que les hypothèses changent, il s’agit d’un simple prolongement sur les nouvelles classes. Nous prolongeons donc la loi de Pareto sur ce nouveau support.

Dans le cas bayésien, puisque le cadre présente un nouveau contexte, on s’y adapte : le  modèle est bien différent de celui de l’article précédent, les calculs doivent être reconduits dans ces nouvelles conditions.

Les différentes estimations sont présentées ci-dessous.

On peut encore juger de la meilleure cohérence avec les données dans ce cadre. La probabilité de l’échantillon est sous l’approche bayésienne 0,0406% vs 0,014% sous Pareto.

Toutefois, faire des comparaisons, c’est bien mais cela ne suffit pas pour s’imposer. L’approche bayésienne a d’abord un intérêt par ce qu’elle n’a pas les défauts des approches paramétriques :

  • Si une loi ne convient, on ira en piocher une autre dans notre sac à loi. Ce choix est factice car la loi existe déjà pour modéliser un autre problème et on espère l’utiliser, la caler, pour un nouveau phénomène.
  • Les techniques de calibration ne sont pas uniques et chacune pourra donner des résultats différents
  • Et enfin ces approches éliminent l’incertitude en considérant la loi obtenue comme exacte. Les données sont oubliées.

Tous ces défauts qui plaident pour l’approche bayésienne dans un contexte de données rares, ce que j’ai appelé le small data, dont les avantages sont :

  • une information minimale
  • Prise en compte d’avis d’expert
  • Prise en compte des classes sans observations
  • On conserve l’incertitude de l’estimation. Dans notre exemple, on peut calculer des écart-types (on dispose en réalité de toute la distribution pour chaque probabilité) :
  • Souplesse de la méthode
  • Un modèle vraiment dédié au problème étudié
  • Pas de calibrage

On pourrait penser que cet article et les précédents ne font que relancer l’éternel débat pour ou contre bayésien. En réalité, nous avançons dans ce débat car nous proposons un choix systématique de loi a priori afin de refléter notre absence d’information initiale et nous mettons de côté l’utilisation de loi conjuguée puisque l’approche par simulations de Monte Carlo nous permet d’obtenir des résultats sans se soucier d’une facilité quelconque de calcul.

L’enrichissement de l’information que permet l’approche bayésienne au fur et à mesure que de nouvelles observations sont disponibles nous rapproche également d’une technique ancienne remise au goût du jour par un nouveau vocabulaire : le « machine learning » qui consiste à savoir bien extraire l’information à partir de l’observation de phénomènes suffisamment stationnaires.

 

Pour rappel, quelques références sur l’approche bayésienne :

  • Beauzamy Bernard, Méthodes probabilistes pour l’étude des phénomènes réels, SCMSA, 2004
  • Beauzamy Bernard, Méthodes Probabilistes Pour La Gestion Des Risques Extrêmes, SCMSA, 2016
  • Dacunha-Castelle Didier, Chemins de l’aléatoire, Champs Flammarion, 2002
  • Dacunha-Castelle Didier, Duflo Marie, Probabilités et Statistiques, 1. Problèmes à temps fixes, éd. Masson, coll. Math. Appl. pour la Maîtrise, 1982 (rééd. 1990)
  • Jacquard Albert, Les probabilités, Que sais-je ? n°1571, PUF, 2000
  • Laplace Pierre Simon, Théorie analytique des probabilités, 1812 (1ère édition)
  • Saporta Gilbert, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006
  • Schwarz Daniel, Le jeu de la science et du hasard, Champs Flammarion, 1999

Comment construire un portefeuille d’actifs sous contrainte ?

Place du processus d’optimisation dans la construction de portefeuille

Un portefeuille est constitué d’actifs et est complètement défini par le poids de ces actifs à un instant donné. Nous supposons qu’il est autofinancé : il n’y a pas de liquidité extérieure qui viennent le renflouer entre deux instants d’observation. L’optimisation consiste à trouver le poids de chaque actif en fonction d’anticipations et de conditions plus ou moins fortes d’investissement.

Les étapes de construction de portefeuilles sont les suivantes :

  1. horizon de gestion, univers d’investissement (notamment finesse : classe d’actifs, instruments,…) et contraintes de l’investisseur (s’il y en a)
  2. Accord sur la manière de gérer le portefeuille : choix d’un processus de gestion (allocation strétégique ou non, phase tactique, rebalancements,…)
  3. Estimation d’anticipation sur un horizon (identique ou inférieur à l’horizon de gestion) sur les composants de l’univers, en général performance et risque (souvent volatilité) mais cela dépend du modèle d’optimisation choisi.
  4. Intégration des anticipations dans un modèle d’optimisation prenant en comptes toutes les contraintes. C’est le point que l’on va préciser dans cette note.
  5. Implémentation du portefeuille réel de départ (montée en charge, reprise de portefeuille ou non,…).
  6. Surveillance et choix tactiques en cours de vie.

 

Fonction d’utilité et critères

Nous considérons deux grandes problématiques de construction de portefeuilles : lorsque tous les actifs appartiennent à une même classe : ils sont donc dans la même catégorie de risque ; et lorsque plusieurs classes d’actifs entre en jeu : il y a alors un actif moins risqué que les autres (voire sans risque).

Dans le second cas, le portefeuille de risque minimum n’a pas d’intérêt et implique d’avoir des critères supplémentaires qui limitent la quantité d’actifs faiblement risqués.

Les critères vont être des contraintes sur les poids a priori (pas de vente à découvert, poids maximal d’une catégorie d’actifs) ou sur les caractéristiques du portefeuille (espérance minimale, VaR, tracking error, etc.). La fonction d’utilité est aussi l’une des caractéristiques du portefeuille qui est maximisée (en général l’espérance de performance) ou minimisée (un risque) si cela a un sens.

 

Un modèle souple et riche

Le modèle doit pouvoir s’ajuster à la plupart des contraintes de l’investisseur externe. L’approche par simulations de Monte Carlo (ou par scénarios) se prête bien à ce besoin. La mise en place de ce modèle se fait à travers les étapes suivantes :

  1. Choix des techniques de simulations des actifs marginaux : modèle à facteur, modèle direct, bootstrap,…
  2. Choix des techniques de modélisation des dépendances entre actifs : corrélations, copules, approche dynamique ou non,… ou approche multi variée globale.
  3. Simulations de portefeuilles dont les poids respectent les contraintes fixées a priori
  4. Choix du meilleur portefeuille parmi tout ceux simulés en fonction de la distribution de chacun

 

On peut utiliser deux outils similaires dans la production des résultats mais différents dans la manière de simuler les actifs :

Le premier a une approche modèle + copules, qui a une version bis à modèles économétriques avancées (plus précis mais plus lent). Les modèles sont soit issus de la littérature, soit développés en interne, soit enfin issu d’une procédure d’identification à la Box-Jenkins avec un choix de copules.

Le second utilise le bootstrap par bloc qui a l’avantage de capter totalement la structure de risque des actifs les uns par rapport aux autres. Cette méthode semble fournir des portefeuilles plus robustes (i.e. moins sensible aux incertitudes des paramètres) que les optimisations « à l’aveugle ».

La calibration est un mixte des anticipations et, lorsque le paramétrage le nécessite, d’une estimation historique.

L’approche permet de comparer toutes les allocations simulées. Conditionnellement aux paramètres, nous pouvons aisément choisir, par simple comparaison le portefeuille le plus adapté sur la période étudiée. L’avantage principal réside dans la diversité et la multiplicité des critères de choix que nous pouvons utiliser, en particulier sur des horizons de temps différents (par exemple à 3 mois et un an).

Les critères sont le plus souvent (implicitement) imposés : VaR 95% >0 par exemple, volatilité inférieure à 10%,… Puis parmi ces portefeuilles, on choisi celui dont la performance (moyenne, médiane, ou autres) est maximale.

Lorsque le critère n’est pas imposé, nous choisissons d’optimiser le ratio de Sharpe, pour deux raisons :

– c’est une mesure tenant compte à la fois de la performance et d’un risque

– la maximisation du ratio de Sharpe implique de minimiser la probabilité d’avoir une performance inférieure à celle du taux sans risque. Ce résultat est universel et indépendant des modèles choisis. De plus cette minimisation reste le critère le plus naturel de tout investisseur prêt à prendre du risque « à condition » qu’il soit rémunérateur.

Publié sur Le Cercle Les Echos : Qu’attendre d’un modèle de simulation de Monte Carlo pour l’allocation d’actifs

MC CercleJ’ai publié un article sur Le Cercle Les Echos (cliquez sur l’image) qui reprend un billet écrit sur ce blog en septembre 2013 où je commente les présentations marketing des modèles quantitatifs d’allocation. J’y présente également les points qui me paraissent indispensables à un tel outil, points souvent absents des modèles généralement utilisés.

 

Modèles de simulations en allocation d’actifs

Je voudrais ici réagir devant cette forme de marketing qui est produite à l’aide des modèles mathématiques en finance. Souvent, ce n’est que de la poudre aux yeux. Mais, lorsque l’on sait décrypter le langage pseudo-technique (on en met plein la vue : si le client n’y comprend rien, on passe pour des cadors croit-on), on pourrait même trouver à en rire.
allocation et distributionDans le contexte de placement d’un investisseur institutionnel, il lui faut en général déterminer un portefeuille ou une allocation stratégique selon, en fonction de diverses contraintes (comptables, réglementaires, de risque,…). Les outils à base de modèles mathématiques et de simulation numérique (dite de Monte Carlo) sont souvent mis en avant pour établir ce type de stratégie d’investissement.
En se plaçant du point de vue client, je vais prendre ici l’exemple de la présentation type d’un modèle d’allocation d’actifs pour en commenter les atouts exprimés la plupart du temps. A travers ces remarques, nous tenterons de dégager les points essentiels de conception de ces modèles et nous verrons qu’il faut garder un certain recul sur les arguments donnés.

Atout n°1 : « Ce modèle est toujours « propriétaire » et au top des derniers développements »
Comprendre conçu en interne (pas d’achat d’un logiciel), c’est tout. Est-ce une feuille de tableur développée sur un coin de PC ou un outil intégré et bien pensé après quelque temps de recherche interne ? Un client (ou prospect) investisseur devrait pouvoir exiger de voir le modèle fonctionner, en y injectant ses propres paramètres.

Atout n°2 : « Il couvre les « principales ou l’essentiel des classes d’actifs » constituant l’univers d’investissement du client.  Notez que « d’autres classes d’actifs peuvent être incluses » »
Ne pas être dupe : une autre classe d’actifs pourrait être modélisée simplement en modifiant les paramètres d’un modèle existant (voir aussi Atout n°5). L’effort est donc très relatif.

Atout n°3 : La modélisation vante son « amélioration vis à vis du classique modèle moyenne-variance : les rendements ne suivent pas une distribution normale, les queues de distributions sont épaisses, les corrélations sont instables », etc.
C’est le minimum à attendre car le modèle moyenne-variance a plus de 50 ans ! D’ailleurs, si certains se vantent encore d’utiliser le modèle de H. Markowitz, (dont le contexte calculatoire était très éloigné de nos ressources actuelles), vous n’avez pas besoin d’eux.

Atout n°4 : Une recherche modèle d’envergure. On rencontre en général 2 approches : la modélisation des facteurs de risque de marché (taux d’intérêt, inflation, risque action avec des sauts,…)  puis une modélisation des classes d’actifs à partir de ces facteurs ou bien la modélisation directe de chacune des classes
Le point non précisé (et pour cause !) est que la modélisation est unidimensionnelle. Or, quelque soit la qualité du travail, considérer les actifs un par un pour ensuite modéliser une dépendance entre eux est à mon avis une erreur fondamentale de conception. Je l’ai d’ailleurs faite pendant longtemps car c’est ainsi que l’on nous enseigne les choses. Et puis 1 dimension c’est plus facile que 20 ou 50 (selon le nombre d’actifs en portefeuille). En réalité, je suis persuadé qu’il faut modéliser globalement, c’est-à-dire en utilisant des lois jointes dès le départ.
Toutefois, dans le domaine des marchés financiers, personne n’est capable d’établir définitivement une loi de probabilité (encore moins à plusieurs dimensions). De plus, elle n’est probablement pas stable dans le temps et elle se résume surtout à un outil nous permettant de manipuler notre ignorance.

Atout n°5 : Une expertise dans la manipulation des modèles. On parle des « paramètres » ou de la « calibration » des modèles
Là est le point crucial, car c’est ici que l’on peut faire dire ce que l’on veut à l’outil. C’est pourquoi lorsque vous comparez les résultats de simulations de 2 modèles (ou sociétés), ce sont surtout leurs hypothèses qu’il faut comparer, et mieux encore leur imposer des conditions identiques lorsque cela est possible.
En réalité, le paramétrage d’un modèle nécessite l’utilisation d’autres modèles ou bien une évaluation à dire d’expert.

Atout n°6 : « Les paramètres sont estimés pour que la distribution modélisée colle à celle des principaux indices » (supposés représentés chaque classe d’actifs)
Ici, le modèle est calé sur le passé. Pourquoi ne pas directement utiliser la loi de distribution passée alors ? Les sources d’erreur de modélisation en seront largement réduites ! Les techniques de calibration sont aussi sujettes à caution. Si on parle de régression linéaire par exemple, cela suppose une loi d’erreur gaussienne. Est-ce correct ?

Atout n°7 : Les résultats de la simulation
Après 10 000 tirages aléatoires (vraiment ? ou seulement 1000 ? Pourquoi pas 1 000 000 ?), on obtient la distribution de probabilité empirique de n’importe quel portefeuille de classe d’actifs (avec des hypothèses de rebalancement simplifiées en général qui ont pourtant un impact essentiel sur la loi finale simulée). Cette distribution permet de construire une multitude de critères afin de sélectionner le portefeuille : Value at Risk (VaR), VaR Conditionnelle (CVaR) et autre « Tail Risk », Tracking Error, Volatilité, Maximum Drawdown… C’est ici que le choix des paramètres est le plus visible : ils permettent de déplacer la distribution de probabilité vers la droite si besoin, c’est-à-dire vers les événements favorables.
Les résultats seront souvent présentés sous la forme d’une frontière efficiente : risque en abscisse, performance attendue en ordonnée, preuve que les vieilles habitudes sont tenaces, alors que le choix devra prendre en compte plus que deux mesures. J’ai souvent entendu dire alors : « les clients aiment bien », « ils ne comprennent que cela ». Et donc ? Ne peut-on pas prendre le temps d’expliquer et d’accompagner son client ? Est-ce un manque de professionnalisme ou une incapacité à le faire ?

Atout n°8 : Diversifier !
Comme je le disais plus haut, l’approche scientifique cautionne implicitement le bien fondé de l’approche, alors attention au leurre ! La deuxième raison est l’argument de diversification. Une conclusion systématique de ces modèles sera : plus vous diversifiez, mieux vous gérez votre risque. C’est ainsi que l’on vous propose d’introduire dans votre portefeuille (d’acheter donc) de nouveaux actifs, peu liquides en général (ce sont ceux qui diversifient le mieux, c’est la magie de la corrélation) et donc marginalement plus dangereux (mais ouf la diversification est là dit-on).
Malheureusement, le modèle est souvent, implicitement encore une fois sans même que leurs concepteurs en aient conscience cette fois, construit pour que la diversification fonctionne car fondé par exemple sur une matrice de corrélation. Cette diversification est théorique. Pour que cet argument soit acceptable, le modèle doit pouvoir simuler la diversification réelle des marchés.
La diversification utile doit protéger suffisamment un capital en cas de choc (c’est-à-dire la réalisation d’un événement non anticipé, celui où les corrélations de vos actifs tendent vers 1) et non réduire une mesure de risque lorsque tout va bien.

Faut-il rejeter les modèles ?
Je ne crois pas, mais il faut les utiliser en étant sceptique, leur laisser le moins de place possible, ou encore utiliser ceux qui déforment le moins l’information initiale.
Une bonne question à se poser est : est-ce que le modèle que j’utilise peut créer des situations jamais vues auparavant avec une probabilité non nulle, ces événements qualifiés de cygnes noirs par N. Taleb ?
S’assurer que le gérant d’actifs s’en serve dans ses choix d’investissement même (et surtout) lorsqu’il n’a pas de client en face de lui est aussi une façon de se rassurer (un peu).

Ce que je propose
Il n’y a pas de méthode parfaite mais l’approche globale en loi de probabilité me semble la plus robuste et c’est celle que j’ai développée depuis plusieurs années maintenant.  On pourrait la qualifier d’approche « empiritative » (empirique et quantitative) : exploiter les données, utiliser l’information objective et non plonger dans une modélisation figée trop rapidement.
Comme toutes les méthodes non paramétriques, elle a l’avantage de ne pas faire d’hypothèse ad-hoc sur la forme de la distribution tout en offrant la même maniabilité que l’approche paramétrique. Elle est sûrement beaucoup plus simple et plus rapide à implémenter.

CVaR et allocation d’actifs

CVaR et allocation d’actifs
Ce papier introduit la notion de VaR conditionnelle et comment l’utiliser lorsque l’on pratique des simulations de Monte Carlo. On revoit rapidement les deux autres mesures que sont volatilité et Value at Risk.

NB : lemot de passe du fichier est allocvar