Small Data en assurance vie : en finir avec les lois de mortalité artificielles

Cet article illustre l’utilisation des techniques du small data pour l’estimation de loi de mortalité en assurance vie.

Afin de mettre en œuvre différentes constructions de loi de mortalité dans un contexte de données limitées, nous allons utiliser un exemple emprunté au chapitre 6 de Tosetti et al.

Les données fournies correspondent aux 15 variables aléatoires de durée de vie Tz pour z=70,…,84 pour les 15 groupes de populations (les données brutes sont en annexe). Dans un premier temps, pour chaque groupe, nous appliquons le modèle binomial classique associé à une probabilité de décès 1 0 qz = P(Tz ϵ [0,1]), noté q(z) ou qz. Son estimation fréquentiste est le rapport nombre de décès / nombre d’individus observés, soit :

en reprenant les notations de Tosetti. Les intervalles de confiances exacts à 95% sont également donnés dans le graphique ci-dessus.

Comme signalé par les auteurs, il reste un problème fondamental de construction : on s’attend à avoir les q(z) croissants avec l’âge z, or il y a dans l’estimation des décrochements trop importants. Etant donné la taille des intervalles de confiance, ceci confirme bien que nos données sont trop pauvres pour être utilisées sans autre traitement.

Les auteurs proposent des lissages par ajustements selon successivement des fonctions croissantes « simples », par décalage d’âge avec la table TPRV93 (l’exemple date un peu…) et avec les lois de Gompertz et Makeham. Petauton évoque d’autres méthodes devenues standard : moyennes mobiles,  splines et surtout Whittaker-Henderson qui peuvent aussi être appliquées.

 

Les méthodes précédentes peuvent être efficaces mais :

  • Elles sont sans véritable fondement quant à leur utilisation. Par exemple, pourquoi utiliser une distance en carré et non en valeur absolue ou en quantile dans la méthode Wittacker-Henderson ? Comment choisir le juste nombre de nœuds et leur place dans la méthode par splines ? La taille de la fenêtre dans la moyenne mobile ? Ces approches tendent à considérer les valeurs anormales comme aberrantes alors même qu’elles seraient situées dans l’intervalle de confiance exact.
  • Elles sont justifiées a posteriori par un test du chi deux, qui n’est qu’asymptotique. Or dans notre exemple, les données sont peu nombreuses et elles pourraient l’être encore moins ! L’appréciation est réalisée « en moyenne ».
  • Elles ne tiennent pas compte de l’incertitude des données initiales.
  • Le choix du paramétrage z = 2, h = 5 de l’approche Whittacker-Henderson est en général réalisé a posteriori, en comparant par exemple différents graphiques qui, à vue d’œil, lisse au mieux la courbe tout en restant fidèle à l’évolution globale des données. Une procédure rigoureuse et systématique d’un tel choix apparait lourde et difficile à mettre en place.
  • Quant à la méthode du décalage d’âge, elle intègre les éventuels défauts de sa table de référence et reste une méthode économique pour obtenir un lissage acceptable, en fait déjà réalisé dans la construction de la table de référence. La métrique utilisée (ici la distance du chi deux) n’est toutefois pas la seule utilisable.

 

Globalement, les méthodes présentées ont toutes le défaut de nécessiter des choix arbitraires. L’approche small data propose une alternative afin d’éviter cet inconvénient majeur dans le cadre d’une démarche scientifique et les défauts particuliers relevés plus haut.

 

Les techniques vues en assurance non vie ne sont pas directement applicables car la « physique » des données n’est pas la même :

  • en assurance non vie, on observe 1 phénomène dont le résultat peut tomber dans K classes
  • Ici on observe des expériences de mortalité indépendantes (pour K classes d’âges observés) dont le résultat est décès dans l’année ou non
  • Utiliser la loi reconstituée du taux de survie à un âge donné (pour nous ramener à l’estimation d’une seule loi de probabilité come en assurance non vie) n’est pas possible car nous n’avons pas d’échantillon d’observation pour cette loi.

 

L’approche consiste alors à estimer chacun des taux de mortalité à partir d’échantillons indépendants en imposant l’hypothèse de croissance avec l’âge.

L’estimation s’obtient par simulation de Monte Carlo. Le graphique ci-dessous représente différentes reconstitutions.

Quelques rappels des bénéfices de l’approche small data :

  • La technique reste cohérente avec la « physique » des données
  • C’est une technique d’estimation et non un pur outil numérique de lissage
  • Pas de sensibilité au paramétrage d’une technique
  • Pas de sensibilité à une métrique
  • On peut disposer de l’incertitude pour chaque taux :

Nous avons obtenu une estimation pour la famille qz des taux de décès annuel. Ces taux de décès permettent de reconstituer une table de mortalité adaptée à l’information disponible sans introduire de modélisation exagérée ou d’avoir recours à un paramétrage dont le réglage est trop discrétionnaire et non réellement justifiable.

Ces estimations ont tenu compte d’un avis d’expert qui impose une croissance des taux de décès annuel avec l’âge atteint. Ceci a pu être réalisé sans l’introduction d’une forme paramétrique quelconque sur les taux.

Cette approche permet d’intégrer en amont les contraintes de construction de la table d’expérience sans autre choix de modèles et/ou paramètres, choix toujours délicat à justifier.

 

Bibliographie

Tosetti Alain, Béhar Thomas, Fromenteau Michel, Ménart Stéphane, Assurance, Comptabilité – Réglementation – Actuariat, AAA, Economica, 2011

 

Données utilisées

Publicités

Small data en assurance non vie : prévision de risques d’intensité jamais observée

Cet article prolonge directement le précédent : estimation d’une distribution d’événements extrêmes en assurance non vie. Il s’agit maintenant d’estimer la possibilité qu’un événement jamais observé se réalise.

Pour rappel, nous avons modélisé les données fournies dans le tableau ci-dessous correspondant à la fréquence d’évènements extrêmes en sinistre auto :

Afin d’estimer la probabilité d’évènements non observés, nous ajoutons une classe de risque « 6401 et + » dans la modélisation de la distribution. Evidemment, la fréquence empirique pour cette classe est nulle.

Dans le cas de l’utilisation d’une loi paramétrique, bien que les hypothèses changent, il s’agit d’un simple prolongement sur les nouvelles classes. Nous prolongeons donc la loi de Pareto sur ce nouveau support.

Dans le cas bayésien, puisque le cadre présente un nouveau contexte, on s’y adapte : le  modèle est bien différent de celui de l’article précédent, les calculs doivent être reconduits dans ces nouvelles conditions.

Les différentes estimations sont présentées ci-dessous.

On peut encore juger de la meilleure cohérence avec les données dans ce cadre. La probabilité de l’échantillon est sous l’approche bayésienne 0,0406% vs 0,014% sous Pareto.

Toutefois, faire des comparaisons, c’est bien mais cela ne suffit pas pour s’imposer. L’approche bayésienne a d’abord un intérêt par ce qu’elle n’a pas les défauts des approches paramétriques :

  • Si une loi ne convient, on ira en piocher une autre dans notre sac à loi. Ce choix est factice car la loi existe déjà pour modéliser un autre problème et on espère l’utiliser, la caler, pour un nouveau phénomène.
  • Les techniques de calibration ne sont pas uniques et chacune pourra donner des résultats différents
  • Et enfin ces approches éliminent l’incertitude en considérant la loi obtenue comme exacte. Les données sont oubliées.

Tous ces défauts qui plaident pour l’approche bayésienne dans un contexte de données rares, ce que j’ai appelé le small data, dont les avantages sont :

  • une information minimale
  • Prise en compte d’avis d’expert
  • Prise en compte des classes sans observations
  • On conserve l’incertitude de l’estimation. Dans notre exemple, on peut calculer des écart-types (on dispose en réalité de toute la distribution pour chaque probabilité) :
  • Souplesse de la méthode
  • Un modèle vraiment dédié au problème étudié
  • Pas de calibrage

On pourrait penser que cet article et les précédents ne font que relancer l’éternel débat pour ou contre bayésien. En réalité, nous avançons dans ce débat car nous proposons un choix systématique de loi a priori afin de refléter notre absence d’information initiale et nous mettons de côté l’utilisation de loi conjuguée puisque l’approche par simulations de Monte Carlo nous permet d’obtenir des résultats sans se soucier d’une facilité quelconque de calcul.

L’enrichissement de l’information que permet l’approche bayésienne au fur et à mesure que de nouvelles observations sont disponibles nous rapproche également d’une technique ancienne remise au goût du jour par un nouveau vocabulaire : le « machine learning » qui consiste à savoir bien extraire l’information à partir de l’observation de phénomènes suffisamment stationnaires.

 

Pour rappel, quelques références sur l’approche bayésienne :

  • Beauzamy Bernard, Méthodes probabilistes pour l’étude des phénomènes réels, SCMSA, 2004
  • Beauzamy Bernard, Méthodes Probabilistes Pour La Gestion Des Risques Extrêmes, SCMSA, 2016
  • Dacunha-Castelle Didier, Chemins de l’aléatoire, Champs Flammarion, 2002
  • Dacunha-Castelle Didier, Duflo Marie, Probabilités et Statistiques, 1. Problèmes à temps fixes, éd. Masson, coll. Math. Appl. pour la Maîtrise, 1982 (rééd. 1990)
  • Jacquard Albert, Les probabilités, Que sais-je ? n°1571, PUF, 2000
  • Laplace Pierre Simon, Théorie analytique des probabilités, 1812 (1ère édition)
  • Saporta Gilbert, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006
  • Schwarz Daniel, Le jeu de la science et du hasard, Champs Flammarion, 1999

Small Data en assurance non vie : estimation d’une distribution d’événements extrêmes

En poursuivant notre exploration de la modélisation d’événements rares, nous nous plaçons dans la suite directe des articles précédents donnant à la fois des explications sur le bien-fondé de l’approche small data et les bases de l’outil mathématique. Une application directe à la segmentation du tarif avait été proposée.

Nous étudions maintenant la queue de distribution de la fréquence de sinistres pour des tranches de coûts extrêmes. Les données initiales sont fournies ci-dessous.

 

Les lois obtenues s’interprètent comme des lois conditionnelles à l’observation de coûts supérieurs à 200.

Les observations sont en quantité limité et le nombre de sinistres n’est pas décroissant avec le coût comme on pourrait d’y attendre, notamment si le nombre d’observations totales augmente.

 

Estimation à l’aide d’une loi de Pareto

L’utilisation d’une loi de Pareto est assez classique dans ce genre d’utilisation. Elle va imposer la décroissance attendue.

La loi de Pareto lisse les observations empiriques. Elle provoque des écarts importants : dans les faits, la fréquence de la tranche 801-1600 est réduite de moitié ! (voir graphique ci-dessous). De plus, elle augmente la fréquence des sinistres de plus faible coût de 3,5% ce qui n’apparait pas très prudent pour envisager une tarification sur cette base. Signalons que la loi de Pareto estimée n’a pas ici non plus de variance, ce qui peut sembler difficilement compatible avec un phénomène observable.

Lorsque l’on pratique un test du chi deux, l’ajustement de Pareto est rejeté. Cependant, ce test n’est qu’asymptotiquement valable et son utilisation reste discutable. Pourtant, l’ajustement de Pareto a bien « rectifié » la loi de probabilité comme nous l’attendions, c’est-à-dire, une décroissance des fréquences des sinistres avec leur coût.

 

L’approche small data

Au lieu de choisir une loi qui présente la décroissance des probabilités souhaitée, nous introduisons cette hypothèse au cœur de l’approche bayésienne : c’est une hypothèse a priori supplémentaire. Notre information initiale est donc enrichie par cet avis exogène, c’est l’avis d’expert.

Techniquement, les estimations s’obtiennent cette fois par simulation de Monte Carlo, la décroissance ne permettant pas d’identifier simplement la loi de distribution, comme nous avions obtenu une loi Beta en l’absence de ce type de contrainte. On obtient la représentation graphique présentée ici.

 

Analyse comparée

On peut montrer que l’approche bayésienne est plus cohérente avec les données que la modélisation par une loi de Pareto.

En effet, la distance du chi deux pour l’approche bayésienne est plus faible qu’avec la loi de Pareto (1,88 contre 7,93).

Une autre façon, moins liée à une métrique arbitraire est de comparer la probabilité de réalisation de l’échantillon sous chacune des deux lois. Pour l’approche bayésienne on obtient une probabilité 10 fois supérieure.

Le small data au service de l’assurance : application à la segmentation du tarif en auto

Lorsque l’on souhaite prendre en compte plusieurs facteurs de tarification et que l’on étudie la fréquence de sinistres en assurance automobile, nous pouvons nous retrouver dans une situation où les données sont rares.

En effet, si on utilise 5 facteurs (puissance du véhicule, lieu d’usage, type d’usage, âge, expérience de conduite), chacun découpé en 4 modalités, on obtient 45 = 1024 primes pures à estimer. Statistiquement, les données sont insuffisantes pour chaque occurrence, et on se résout alors à une approximation permettant le calcul, souvent une technique de décorrélation des facteurs afin de les traiter individuellement.

Plus précisément, lorsque l’on utilise le modèle multiplicatif, on suppose de plus que les marges (i.e. le total de sinistres pour chaque facteur) sont bien évaluées alors que les sinistres de chaque occurrence ne le sont pas. Autrement dit, curieusement on accepte une incertitude locale, mais pas d’incertitude globale.

Il est alors possible avec notre modélisation d’éviter l’introduction cette double hypothèse artificielle afin de traiter cette tarification.

Traitons donc pour illustrer un exemple emprunté au chapitre 5 de Tosetti et al.

Deux facteurs sont utilisés :

  • puissance du véhicule avec 3 modes (petit, moyen, grand) et
  • expérience de conduite avec 2 modes (novice ou expérimentés),

soit 6 classes de sinistres (et autant sans sinistre). Les données sont les suivantes

 

Approche standard : le modèle multiplicatif

Le modèle multiplicatif permet alors d’obtenir une estimation d’une probabilité pour chaque segment.

              

Ainsi, l’algorithme a « créé » 0.847 sinistre dans le segment  novices / moyen

Approche par le small data

En appliquant l’approche bayésienne du small data, chacune des six probabilités s’estime à partir d’un modèle à 2 classes. Dans le segment des novices/petit, il y a 1109 assurés et 4 sinistres observés. La fréquence est estimée par (4+1) / (1109 +2) = 0,450%, soit 4,991 sinistres théoriques. On obtient alors :

Et des sinistres théoriques évalués ci-dessous :

Les avantages du small data sont clairs :

  • on dispose si on le souhaite de l’incertitude autour de notre estimation, espérance d’une variable aléatoire,
  • aucune hypothèse n’a été nécessaire sur la forme des fréquences
  • aucune hypothèse n’a été faire sur l’exactitude des marges.

 

Le small data en Assurance : pourquoi ? comment ?

L’assurance a besoin de comprendre les phénomènes pour lesquelles elle offre une forme de garantie. Cette compréhension passe par la modélisation de la fréquence de ces phénomènes et la modélisation de leur intensité.

Pourquoi une autre approche méthodologique de modélisation des phénomènes assurables ?
Lorsque les données sont rares, et nous nous placerons uniquement dans ce cadre, plusieurs arguments motivent cette réflexion.

  • En premier lieu, une utilisation des outils statistiques mal adaptée
    En effet, les principaux résultats statistiques supposent avoir suffisamment d’observations pour admettre que les théorèmes asymptotiques soient applicables et que l’expérience produisant la donnée est répétable infiniment. De plus, les statistiques sont appropriées lorsque les lois de probabilités sont parfaitement identifiées et en cohérence avec le phénomène observé. Les phénomènes qui nous intéressent ici, en particulier rares, n’ont pas de loi identifiée, on reste dans l’estimation.
  • On peut mentionner également des choix de modèles étonnants
    Par exemple, utiliser des lois à support infini alors que les phénomènes observés sont bornées  (bornes pas toujours observables). Un tel attachement à ces lois poussent parfois à les tordre en les tronquant par exemple d’où des difficultés calculatoires. Particulièrement pour les phénomènes extrêmes (ou rares), l’utilisation de certaines lois paramétriques s’est répandue d’abord pour leur maniabilité ce qui ne doit pas être l’argument principal !
  • Ensuite souvent les paramétrages sont arbitraires
    Certains modèles peuvent être calibrées de plusieurs façons donnant des résultats différents d’où une ambiguïté ou un besoin de « sélection de calibration dans la sélection de modèles » d’une grande lourdeur.
  • Enfin, l’approche paramétrique était justifiée lors de moyens de calculs limités.
    Aujourd’hui, ce n’est plus le cas et on doit pouvoir mettre en œuvre des méthodes qui ne sont plus soumises à ces contraintes de calculs.

 

Comment appliquer le small data en assurance ?
Avec une volonté de suivre une démarche rigoureuse, on s’est donné les principes suivants :

1-On ne veut pas de modélisation abusive et donc on introduit un jeu d’hypothèses minimales et pas plus

2-On doit tenir compte de l’incertitude autour des données dans notre façon de travailler. Car les résultats ne sont que des estimations de la vraie loi inconnue. L’incertitude est un moyen de mesurer la qualité de l’information donnée par l’échantillon,  cela permet d’évaluer le degré de confiance en la projection, de prendre une marge de sécurité, de décider ou non d’un programme de réassurance.

3-Dans un contexte pédagogique, le choix dans un premier temps d’utiliser des données « publiques » : publiées, déjà manipulées et pour lesquelles d’autres méthodes sont habituellement utilisées pour faciliter la comparaison, dont les résultats sont admis par le plus grand nombre. L’idée est bien de ne pas sortir des données d’un chapeau avec lesquelles tout fonctionnerait miraculeusement.

4-Une fois la démarche bien comprise et admise, on pourra l’appliquer à des données propres à une compagnie d’assurance.

 

Quel outil mathématique ?
L’outil mathématique à la base de cette démarche, ce sont les probabilités bayésiennes. Elles se présentent de la manière suivante.

On a le cas classique de la production de pièces défectueuses ou non. Si p est la probabilité connue d’avoir une pièce défectueuse, le nombre de pièces défectueuses après N pièces fabriquées suit une loi binomiale B(N,p)

  • p se déduit en général des observations p = x / N si x est le nombre observé de pièces défectueuses (estimation correcte asymptotiquement)
  • Si p est inconnue, aléatoire, sans information, tous les choix sont possibles et donc sans avis particulier on donne le même poids à toutes les valeurs de son support. Cela revient à choisir une loi uniforme sur [0,1] a priori. C’est le choix dit d’information minimale qu’on va retrouver tout au long de l’utilisation de l’approche small data.
  • En appliquant une formule de Bayes, sachant la production X=x de pièces défectueuses, on peut déterminer sa densité a posteriori la  densité

  • C’est une loi Beta (les lois binomiale et uniforme se conjuguent bien) dont l’espérance, x+1 / N+2, est notre estimation de p.

Ceci se généralise lorsque le nombre de classe passe de 2 (pièce défectueuse ou non) à K classes. L’estimation des probabilités pi est alors xi +1 / N+K pour i=1,…,K.

On pourra aussi introduire d’autres contraintes dans la modélisation et les estimations seront obtenus grâce à des simulations de Monte Carlo.

Pour les détails techniques sur ces résultats, on pourra se reporter au livre de Gilbert Saporta, Probabilités, Analyse des données et Statistiques, 2ème édition, Technip, 2006 et précisément les pages 317-319.

Comment construire un portefeuille d’actifs sous contrainte ?

Place du processus d’optimisation dans la construction de portefeuille

Un portefeuille est constitué d’actifs et est complètement défini par le poids de ces actifs à un instant donné. Nous supposons qu’il est autofinancé : il n’y a pas de liquidité extérieure qui viennent le renflouer entre deux instants d’observation. L’optimisation consiste à trouver le poids de chaque actif en fonction d’anticipations et de conditions plus ou moins fortes d’investissement.

Les étapes de construction de portefeuilles sont les suivantes :

  1. horizon de gestion, univers d’investissement (notamment finesse : classe d’actifs, instruments,…) et contraintes de l’investisseur (s’il y en a)
  2. Accord sur la manière de gérer le portefeuille : choix d’un processus de gestion (allocation strétégique ou non, phase tactique, rebalancements,…)
  3. Estimation d’anticipation sur un horizon (identique ou inférieur à l’horizon de gestion) sur les composants de l’univers, en général performance et risque (souvent volatilité) mais cela dépend du modèle d’optimisation choisi.
  4. Intégration des anticipations dans un modèle d’optimisation prenant en comptes toutes les contraintes. C’est le point que l’on va préciser dans cette note.
  5. Implémentation du portefeuille réel de départ (montée en charge, reprise de portefeuille ou non,…).
  6. Surveillance et choix tactiques en cours de vie.

 

Fonction d’utilité et critères

Nous considérons deux grandes problématiques de construction de portefeuilles : lorsque tous les actifs appartiennent à une même classe : ils sont donc dans la même catégorie de risque ; et lorsque plusieurs classes d’actifs entre en jeu : il y a alors un actif moins risqué que les autres (voire sans risque).

Dans le second cas, le portefeuille de risque minimum n’a pas d’intérêt et implique d’avoir des critères supplémentaires qui limitent la quantité d’actifs faiblement risqués.

Les critères vont être des contraintes sur les poids a priori (pas de vente à découvert, poids maximal d’une catégorie d’actifs) ou sur les caractéristiques du portefeuille (espérance minimale, VaR, tracking error, etc.). La fonction d’utilité est aussi l’une des caractéristiques du portefeuille qui est maximisée (en général l’espérance de performance) ou minimisée (un risque) si cela a un sens.

 

Un modèle souple et riche

Le modèle doit pouvoir s’ajuster à la plupart des contraintes de l’investisseur externe. L’approche par simulations de Monte Carlo (ou par scénarios) se prête bien à ce besoin. La mise en place de ce modèle se fait à travers les étapes suivantes :

  1. Choix des techniques de simulations des actifs marginaux : modèle à facteur, modèle direct, bootstrap,…
  2. Choix des techniques de modélisation des dépendances entre actifs : corrélations, copules, approche dynamique ou non,… ou approche multi variée globale.
  3. Simulations de portefeuilles dont les poids respectent les contraintes fixées a priori
  4. Choix du meilleur portefeuille parmi tout ceux simulés en fonction de la distribution de chacun

 

On peut utiliser deux outils similaires dans la production des résultats mais différents dans la manière de simuler les actifs :

Le premier a une approche modèle + copules, qui a une version bis à modèles économétriques avancées (plus précis mais plus lent). Les modèles sont soit issus de la littérature, soit développés en interne, soit enfin issu d’une procédure d’identification à la Box-Jenkins avec un choix de copules.

Le second utilise le bootstrap par bloc qui a l’avantage de capter totalement la structure de risque des actifs les uns par rapport aux autres. Cette méthode semble fournir des portefeuilles plus robustes (i.e. moins sensible aux incertitudes des paramètres) que les optimisations « à l’aveugle ».

La calibration est un mixte des anticipations et, lorsque le paramétrage le nécessite, d’une estimation historique.

L’approche permet de comparer toutes les allocations simulées. Conditionnellement aux paramètres, nous pouvons aisément choisir, par simple comparaison le portefeuille le plus adapté sur la période étudiée. L’avantage principal réside dans la diversité et la multiplicité des critères de choix que nous pouvons utiliser, en particulier sur des horizons de temps différents (par exemple à 3 mois et un an).

Les critères sont le plus souvent (implicitement) imposés : VaR 95% >0 par exemple, volatilité inférieure à 10%,… Puis parmi ces portefeuilles, on choisi celui dont la performance (moyenne, médiane, ou autres) est maximale.

Lorsque le critère n’est pas imposé, nous choisissons d’optimiser le ratio de Sharpe, pour deux raisons :

– c’est une mesure tenant compte à la fois de la performance et d’un risque

– la maximisation du ratio de Sharpe implique de minimiser la probabilité d’avoir une performance inférieure à celle du taux sans risque. Ce résultat est universel et indépendant des modèles choisis. De plus cette minimisation reste le critère le plus naturel de tout investisseur prêt à prendre du risque « à condition » qu’il soit rémunérateur.

Stratégie Flexible (suite de l’article du 12 septembre 2015)

Cet article poursuit les travaux présentés ici

Nous prolongeons tout d’abord les backtests de la stratégie flexible jusqu’au 12/05/2016.

Graphe_mai2016

Le tableau de caractéristiques est également mis à jour ci-dessous.

backtest2_mai16

Nous constatons que le comportement de la stratégie est plutôt décevant sur la période qui a suivi la première étude, soit de septembre à mi mai 2016. La flexibilité doit pourtant être une solution d’investissement tout terrain. L’horizon de temps de 1 jour est un paramètre du backtest que nous pouvons faire évoluer. Nous répétons notre procédure précédente sur un horizon d’un mois et nous combinons les deux signaux pour obtenir le backtest 3 suivant.

Graphe_mai2016v2

 

Les caractéristiques de ce backtest présente une volatilité et un maximum drawdown plus importants. L’année 2012 est plutôt décevante alors que la stratégie profite bien mieux des années 2007-2009 ou 2013-2015. La performance est fortement améliorée sur la période mais l’investisseur doit accepter ici une détention plus longue pour en bénéficier.

backtest3_mai2016

Soyons bien conscient qu’un backtest ne prouve rien. Une preuve nécessite une démonstration qui partirait d’hypothèses minimales acceptables pour aboutir à une conclusion favorable sur la démarche. Le backtest n’est qu’un exemple et on espère 1. qu’il fournira des signaux à venir suffisamment longtemps pour générer une performance positive, 2. que nous serons assez lucide pour détecter, avant catastrophe, la fin de la pertinence de ces signaux.

Publié sur Le Cercle Les Echos : Qu’attendre d’un modèle de simulation de Monte Carlo pour l’allocation d’actifs

MC CercleJ’ai publié un article sur Le Cercle Les Echos (cliquez sur l’image) qui reprend un billet écrit sur ce blog en septembre 2013 où je commente les présentations marketing des modèles quantitatifs d’allocation. J’y présente également les points qui me paraissent indispensables à un tel outil, points souvent absents des modèles généralement utilisés.

 

On the Assessment of Financial Crises in the US Equity Market (with Rachid Bokreta)

IEMP Financial crisesThis paper focuses on the development of the Index of Equity Market Pressure (IEMP) to characterize and to assess market turbulences.

In a first issue, we contribute to financial crises literature by proposing a new dynamic risk measure built from a factorial model mobilizing a robust and a dynamic estimation method respectively known as Iteratively Reweighted Least Squares and Kalman Filter. The first one helps us to select the significant risk factors by underweighting time series outliers whereas the second one allows us to measure time-varying betas more efficiently and to reconstruct a conditional stock return trajectory. The final result gives us an asymmetric financial measure which assesses the intensity of negative rough returns.

Based on monthly US market data from 1994 to 2009 period, we seek to compute objective and robust measures able to identify and characterize non-extreme and extreme event periods on stock index market.

Keywords: Financial Crises, Multifactorial Model, Iteratively Reweighted Least Squares, Kalman Filter, Probability Distribution, Richter Scale.

Assessment of financial crises
Password : crises

Analysis of the US Real Estate Market: Time-Varying Estimation and Forecast of the S&P Case-Shiller Composite 20 Cities (with Rachid Bokreta)

This study investigates the determinants which drive the evolution of the American real estate prices. Housing prices are modelling by a Standard&Poor index known under the name of Case-Shiller Index Composite 20 which aims to quantify the residential housing market in 20 US metropolitan regions across the United States. Using different regression methods (Ordinary Least Squares and Kalman filter), we examine the time-varying sensibility of the selected risk factors to the Case-Shiller 20 index. Then, an econometric model is proposed to anticipate its monthly time series evolution over the 1991-2009 periods thanks to time-varying betas obtain with OLS and Kalman filter. One of the main difficulty concerns the consideration and the detection of the shift between a positive and a negative price return period (and vis-versa) by the modelling. Hence, the criterion decision about the choice of the best forecasting model is the one which capture the most regime switching. Based on monthly US market data from 1991 to 2009 period, we seek to compute objective and robust forecasts of the American housing prices.

Analysis of the US Real Estate Market
Password : usrealestate