Analytique prédictive
Englobant une grande variété de techniques telles que les statistiques, la modélisation, l’optimisation, le regroupement et les études de marché, l’analytique prédictive aide les entreprises et les organisations à prévoir des événements futurs inconnus.
Les actuaires en analytique prédictive utilisent des outils et des techniques pour décrire, prédire et recommander des plans d’action qui tiennent compte des comportements des consommateurs, des fournisseurs et des distributeurs. Ces actuaires hautement qualifiés sont chargés de :
- Construire des outils pour les assureurs et les examinateurs de réclamations d’assurance;
- Calculer et mettre en place des catégories de primes d’assurance;
- S’assurer que les sociétés d’assurance sont en mesure de tenir leurs promesses aux consommateurs;
- Nourrir la confiance des Canadiens et Canadiennes dans les institutions financières en s’assurant qu’elles ne prennent pas de risques inutiles vis-à-vis des économies et des dépôts des particuliers.
En fin de compte, les actuaires travaillant dans l’analytique prédictive aident une grande variété d’entreprises à mieux servir leurs clients en déterminant les possibilités et en anticipant les problèmes avant qu’ils ne se produisent réellement.
Ressources sur la modélisation prédictive
Ressources d’introduction à la science des données et à l’actuariat
A Course in Machine Learning (cours gratuit, en anglais seulement)
Hal Daumé III
Structuré comme un manuel de cours, ce cours gratuit aborde dans le détail les fondements mathématiques de l’apprentissage machine moderne. Le contenu est assez technique et on aborde très sommairement l’application des méthodes présentées, mais on y expose un survol important auquel peuvent se reporter les praticiens et praticiennes lorsqu’ils ont recours à des progiciels en matière d’apprentissage machine.
CAS Monograph No. 5: Generalized Linear Models for Insurance Rating, 2nd Edition (en anglais seulement, document gratuit)
Mark Goldburd, Anand Khare, Dan Tevet et Dmitriy Guller, 2020
Cette monographie, adaptée à un auditoire actuariel plus technique, aborde les fondements mathématiques des modèles linéaires généralisés (MLG) et leur application à la tarification. La première partie présente une vue d’ensemble du fonctionnement des MLG d’un point de vue technique, ce qui intéressera en particulier les parties prenantes qui souhaitent savoir ce que sont les MLG et comment les utiliser. Les parties qui suivent abordent plus en profondeur la conception, la validation et la mise au point des modèles et constituent une ressource inestimable pour les praticiens et praticiennes.
mlcourse.ai (cours gratuit, en anglais seulement)
Yury Kashnitsky, 2022
Ce cours sur l’apprentissage machine, qui contient des leçons, des exposés et des problèmes à résoudre pour chaque sujet abordé, présente une introduction ludique et gratuite à l’exploration des données et aux applications de l’apprentissage machine, et met l’accent sur le code Python.
Volume 1: Predictive Modeling Techniques et Volume 2: Case Studies in Insurance (en anglais seulement, documents payants)
Cambridge University Press, 2014
À la fois très détaillé et facile à lire, ce manuel en deux volumes s’adresse aux actuaires et autres analystes financiers qui désirent développer leur expertise en modélisation prédictive et leur connaissance des techniques statistiques avancées particulièrement adaptées aux assurances. Le premier volume présente de façon détaillée plusieurs techniques de modélisation prédictive appliquées expressément à des problèmes actuariels, tandis que le second expose des études de cas de techniques appliquées à des données d’assurance réelles.
Kaggle (en anglais seulement, communauté regroupant des personnes des domaines de l’apprentissage machine et de la science des données, gratuit)
Google
À la fois un réseau social, un centre de tutorat et un dépôt d’échantillons de données, Kaggle constitue la principale source pour les praticiens et praticiennes du domaine de la science des données. L’interface en ligne, qui comprend des ensembles de données et des bribes de code publiques ainsi que des microcours gratuits, permet aux personnes apprenantes de commencer rapidement à mettre en pratique des techniques de pointe. Les utilisateurs et utilisatrices plus avancés peuvent aussi prendre part à des concours en ligne.
Supervised Machine Learning Regression and Classification (cours gratuit, en anglais seulement)
Andrew Ng, 2022
Ce cours présente un survol de base du langage de programmation Python, des concepts mathématiques fondamentaux aux fins de la science des données et de quelques concepts d’apprentissage automatique supervisé fondamentaux. Il s’agit d’un excellent point de départ pour les personnes qui désirent acquérir des connaissances en science des données en langage Python.
Les fondements de la programmation
R propose de nombreux progiciels aux fins de l’apprentissage statistique. Dans bien des cas, la découverte de ce langage a lieu dans le cadre d’un cours universitaire de statistique où l’on apprend les fondements des modèles linéaires et des tests permettant de déterminer la signification statistique. Le langage R est très populaire chez les universitaires et constitue un excellent point de départ pour construire des modèles prédictifs explicables.
R for Data Science (manuel de cours gratuit, en anglais seulement)
Hadley Wickham et Garrett Grolemund, 2017
Rédigé par les créateurs et les responsables de certains des progiciels R les plus populaires, dont tidyverse et tidymodels, R4DS offre une base solide en ce qui concerne la science des données en langage R. Vous apprendrez à importer vos données en langage R, à les organiser en une structure utile, à les transformer, à les visualiser et à les modéliser, tout en vous exerçant au moyen de nombreux exemples de code et exercices.
R Basics – R Programming Language Introduction (cours gratuit, en anglais seulement)
Si vous apprenez plus facilement en regardant des vidéos, ce cours accessible offre une série de tutoriels vidéo portant sur les fondements de la programmation en langage R. Cela dit, il y manque certaines pratiques plus récentes liées au langage R, qui sont abordées plus en profondeur dans le manuel R for Data Science.
Python est l’un des langages de programmation les plus utilisés aux fins de la construction de modèles prédictifs, y compris au sein de la communauté actuarielle. Pour utiliser Python à des fins de MP, il vous faudra bien connaître tant les bases de la codification en langage Python que les progiciels et bibliothèques Python utilisés couramment en science des données.
LearnPython.org (cours gratuit, en anglais seulement)
Ron Reiter, 2022
Ces tutoriels interactifs, qui constituent une introduction pratique pour les personnes débutantes, guident les étudiants et étudiantes depuis les fondements de Python jusqu’à des sujets plus avancés en offrant une rétroaction instantanée sur les exercices. Aucune installation nécessaire.
Python Data Science Handbook (document gratuit, en anglais seulement)
Jake VanderPlas, 2016
Cet ouvrage constitue une excellente introduction à certains progiciels et bibliothèques les plus utilisés en langage Python dans le cadre de la science des données, dont Pandas, NumPy, scikit-learn et Matplotlib. Ce sont là de puissantes bibliothèques de base qui facilitent différents volets de la MP, du nettoyage à la visualisation des données en passant par la construction de modèles.
Éthique, équité et préjugés
Weapons of Math Destruction (livre payant, en anglais seulement)
Cathy O’Neil, 2016
Rédigé par Cathy O’Neil, mathématicienne, scientifique des données et ancienne « quant » de Wall Street, Weapons of Math Destruction présente une introduction au côté obscur potentiel des mégadonnées. L’auteure expose la façon dont les algorithmes qui régissent de plus en plus notre vie économique et personnelle peuvent, s’ils ne sont pas réglementés et contrôlés, avoir des conséquences négatives, notamment l’accentuation des inégalités sociales.
Fairness and Algorithmic Decision Making (document gratuit, en anglais seulement)
Aaron Fraenkel, 2020
Créé à partir des notes du cours de l’auteur sur l’équité et la prise de décision algorithmique, ce document s’adresse aux praticiens et praticiennes du domaine de la science des données. Dans le cadre d’une démarche globale, il aborde les interactions des systèmes fondés sur des données avec les populations qu’ils visent et propose des démarches pratiques permettant de repérer les iniquités dans les systèmes décisionnels (p. ex., les mesures de parité) tout en évaluant les limites de ces démarches.
Fairness in Algorithmic Decision-Making (document gratuit, en anglais seulement)
Mark MacCarthy, 2019
Ce rapport de la Brookings Institution se penche sur les façons dont les systèmes décisionnels automatisés peuvent avoir pour effet d’accentuer les disparités entre les groupes protégés malgré leur promesse de déterminer avec plus de précision et d’équité l’admissibilité à divers avantages dans les secteurs privé et public. L’une des principales recommandations du document veut que l’ensemble des entreprises de tous les secteurs se préoccupent du caractère équitable des algorithmes qu’elles utilisent, en évaluant de manière proactive les impacts divergents de leurs systèmes organisationnels et en favorisant une pratique de divulgation et d’évaluation continue.
IFoA Ethical and Professional Guidance on Data Science (document gratuit, en anglais seulement)
IFoA, 2021
L’Institute and Faculty of Actuaries (IFoA), en collaboration avec la Royal Statistical Society (RSS), a formulé des lignes directrices non obligatoires en matière d’éthique et de professionnalisme relatives à la science des données à l’intention des membres de l’IFoA et de la RSS et de l’ensemble des praticiens et praticiennes du domaine de la science des données. Ce rapport présente plusieurs exemples concrets et études de cas visant à aider les membres susceptibles à se retrouver face à des problèmes éthiques ou professionnels dans le cadre de fonctions liées à la science des données.
Avoiding Unfair Bias in Insurance Application of AI Models (document gratuit, en anglais seulement)
SOA Research Institute, 2022
Plus l’adoption de l’intelligence artificielle s’accroît au sein du secteur des assurances, plus le potentiel de biais d’iniquité dans les algorithmes d’IA utilisés dans les processus de souscription, de tarification et de réclamation, soit de résultats indésirables inexpliqués pour des populations déjà vulnérables, augmente aussi. Ce rapport de recherche du Research Institute de la Society of Actuaries (SOA) présente des méthodes permettant d’éviter ou d’atténuer les biais d’iniquité causés ou accentués involontairement par le recours à des modèles d’IA et propose aux assureurs un cadre et des stratégies d’atténuation à prendre en compte au moment de chercher à repérer et à réduire ces biais.
Trustworthy AI: A Computational Perspective (document gratuit, en anglais seulement)
Cornell University, 2021
L’élaboration d’une IA digne de confiance nécessite que l’on accorde une attention rigoureuse à la manière d’éviter les effets indésirables auxquels peut donner lieu la prise de décision automatisée. Ce document présente une étude complète de l’IA digne de confiance d’un point de vue informatique, y compris les plus récentes technologies permettant de concevoir des systèmes sûrs, équitables et fiables, en accordant une attention particulière à six dimensions cruciales de l’IA digne de confiance, soit la sécurité et la robustesse; la non-discrimination et l’équité; l’explicabilité; le respect de la vie privée; la responsabilité et l’auditabilité; et le bien-être environnemental.
EIOPA Report on Artificial Intelligence Governance Principles (document gratuit, en anglais seulement)
Autorité européenne des assurances et des pensions professionnelles (AEAPP), 2021
En réponse au recours croissant de l’IA dans le domaine des assurances, l’Autorité européenne des assurances et des pensions professionnelles a réuni un groupe consultatif d’experts afin de cerner les possibilités et les risques liés à la numérisation et d’examiner les limites possibles de l’automatisation. Ce rapport présente leurs conclusions et établit des principes de gouvernance visant l’IA aux fins du recours éthique à l’IA dans le secteur européen des assurances, ainsi que d’autres lignes directrices à l’intention des sociétés d’assurance sur la façon de les mettre en pratique.
CIFAR: IA et société
Institut canadien de recherches avancées (CIFAR)
Le CIFAR, un organisme de recherche mondial dont le siège est situé au Canada, œuvre à renforcer le leadership technique et responsable du Canada en matière d’IA grâce à son partenariat avec le gouvernement du Canada dans le cadre de la Stratégie pancanadienne en matière d’intelligence artificielle. Son programme « IA et Société » facilite les discussions intersectorielles au sujet des conséquences éthiques, juridiques, politiques et sociales du rôle croissant de l’IA au sein de la société. Des rapports faisant état des conclusions issues de ces discussions sont publiés régulièrement.
Ressources relatives à la science des données et à l’actuariat à l’intention des praticiens et praticiennes
XGBoost Documentation (gratuit, en anglais seulement)
Disponible à la fois dans les langages Python et R – et très appréciée dans les concours d’apprentissage machine – XGBoost est une bibliothèque logicielle en source ouverte qui met en œuvre des algorithmes d’apprentissage supervisé dans le cadre de l’algorithme Gradient Boosting Machine (GBM).
statsmodels est un module Python qui offre des classes et des fonctions aux fins de l’estimation de nombreux modèles statistiques, ainsi qu’aux fins de l’exécution de tests statistiques et de l’exploration de données statistiques. Une liste exhaustive de statistiques de résultats est disponible pour chaque estimateur.
scikit-learn est une bibliothèque logicielle d’apprentissage machine gratuite offrant des outils simples et efficaces aux fins de l’analytique prédictive de données en Python (construite sur NumPy, SciPy et Matplotlib). Elle vise à offrir des solutions simples et efficaces aux problèmes d’apprentissage accessibles à tous et réutilisables dans divers contextes.
PyTorch est un cadre d’apprentissage machine de bout en bout en source ouverte destiné à la construction et à l’entraînement de modèles d’apprentissage profond, conçu pour accélérer le passage du prototypage de la recherche au déploiement de la production.
Hugging Face est une communauté et une plateforme de science des données offrant des outils permettant aux utilisateurs utilisatrices de construire, d’entraîner et de déployer des modèles d’apprentissage machine de pointe alimentés par une vaste bibliothèque en source ouverte, en particulier la bibliothèque Transformers. L’aspect communauté de la plateforme permet aux utilisateurs et utilisatrices de tirer profit de l’expérience d’autres praticiens et praticiennes.
Le tidyverse est une compilation de progiciels R conçus pour la science des données, lesquels partagent tous une philosophie de conception, une grammaire et une structure de données sous-jacentes. Il s’agit de la norme industrielle pour la gestion, la transformation et la visualisation des données dans l’environnement R. Les progiciels de base comprennent dplyr, ggplot2, tidyr, readr, purrr, tibble, stringr et forcats.
Le cadre tinymodels est une compilation de progiciels R destinés à la modélisation, à l’analyse statistique et à l’apprentissage machine à l’aide de principes de conception tidyverse. caret et mlr sont d’autres progiciels ayant les mêmes objectifs.
ChainLadder est un progiciel R offrant des modèles adaptés à la constitution de réserves pour sinistres d’assurance selon la méthode du triangle, utilisée plus couramment dans les domaines des assurances IARD et de l’assurance de personnes. Un progiciel équivalent pour Python appelé chainladder offre les mêmes outils actuariels souvent utilisés.
insurancerating est un progiciel R utile dans le cadre du travail de tarification des assurances IARD. Il est conçu pour aider les actuaires à mettre en œuvre des modèles linéaires généralisés (MLG) dans le cadre des étapes nécessaires pour calculer une prime de risque à partir de données brutes.
Conçu à des fins d’actuariat et de soutien en matière de distribution à « queue épaisse », actuar fournit un large éventail de distributions des probabilités qui n’étaient pas déjà offertes en base R, notamment dans l’annexe A du document Loss Models: From Data to Decisions (en anglais seulement) de Stuart Klugman, Harry Panjer et Gordon Willmot.
Ressources actuarielles canadiennes
Énoncé de position : Les mégadonnées et la classification des risques – Comprendre les enjeux actuariels et sociaux
Institut canadien des actuaires, juillet 2022
L’utilisation de l’analytique prédictive dans l’industrie canadienne de l’assurance-vie
Institut canadien des actuaires, mai 2019
Application de l’analytique prédictive dans le secteur canadien des assurances IARD
Institut canadien des actuaires, juin 2022
Ressources provenant d’autres organismes actuariels et sectoriels
Actuaries Institute. (AI)
L’AI a admis l’analytique des données à titre de domaine de pratique pour ses membres et a intégré à son programme de qualification des exigences relatives à la science des données, ainsi qu’un module abordant les principes de l’analytique des données. Au chapitre de la formation continue, l’organisme parraine un microcertificat intitulé Data Science Applications (en anglais seulement) conçu par et pour les actuaires. Se reporter à la page Actuaries in Data Science (en anglais seulement) de l’AI relative à la science des données pour accéder à d’autres ressources ou pour s’inscrire au bulletin de l’organisme portant sur la science des données.
Actuview (en anglais seulement)
Actuview est la première plateforme de diffusion en continu conçue expressément à l’intention des actuaires. Parrainée par l’Actuarial Association of Europe (AAE) et des entreprises partenaires, elle offre la diffusion en direct de congrès et de colloques ainsi que de séances en ligne d’associations actuarielles, d’universités, d’entreprises, d’institutions partenaires et d’experts indépendants de partout dans le monde, dont bon nombre de présentations portant sur la science des données. L’adhésion est gratuite pour les membres de l’Association actuarielle internationale, de l’AAE et d’autres organismes commanditaires.
American Academy of Actuaries (AAA)
Le comité de la science et de l’analytique des données (DSAC) de l’American Academy of Actuaries, qui a succédé au groupe de travail sur les mégadonnées, a été mis sur pied dans le but de faire progresser les interventions de la profession actuarielle dans le domaine des mégadonnées et de l’apprentissage machine et afin d’éclairer les décisions en matière de politique publique quant à l’utilisation des technologies d’analytique avancée. Le site Web du DSAC (en anglais seulement) contient ses archives de publications utiles sur les utilisations actuarielles et éthiques de l’analytique avancée.
Autres publications importantes de l’AAA dans le domaine de la science des données :
Big Data and the Role of the Actuary (document gratuit, en anglais seulement)
American Academy of Actuaries Big Data Task Force, 2018
An Actuarial View of Correlation and Causation (document gratuit, en anglais seulement)
American Academy of Actuaries, juillet 2022
CAS Institute (iCAS)
Le CAS Institute, ou iCAS, une filiale de la Casualty Actuarial Society (CAS), offre des titres de compétence innovants et une formation professionnelle spécialisée à l’intention des professionnels et professionnelles de l’analyse quantitative, notamment le titre de Certified Specialist in Predictive Analytics (CSPA).
Les activités de la CAS en matière de données et d’analytique comprennent également la co-commandite (avec la SOA et l’ICA) du Colloque sur l’analytique prédictive, tenu annuellement, et la co-commandite (avec l’ICA) de la série de manuels Predictive Modeling Applications in Actuarial Science en deux volumes.
Institute and Faculty of Actuaries (IFoA) (en anglais seulement)
L’Institute and Faculty of Actuaries du Royaume-Uni s’est investi dans le domaine de la science et de l’analytique des données tant du côté de l’éducation que de celui de la recherche, en parrainant le Certificate in Data Science et en mettant sur pied, en 2018, le Data Science Working Party dans le but de rechercher et d’élaborer des techniques de science des données appliquées à l’actuariat. La rubrique sur la recherche du groupe de travail est accessible aux non-membres de l’IFoA qui souhaitent prendre part à des études de cas en recherche. La page de l’IFoA portant sur le domaine de pratique de la science des données contient d’autres liens et conseils utiles en la matière.
Association actuarielle internationale (AAI)
En 2020, l’Association actuarielle internationale a mis sur pied un groupe de travail sur les mégadonnées (en anglais seulement), auquel elle a confié le mandat de faciliter (traduction) « la discussion et le partage de connaissances entre les membres titulaires au sujet des questions d’intérêt international pour les actuaires travaillant avec les mégadonnées ». Bien que ce groupe de travail ponctuel ait été dissous en mai 2021 (et remplacé par le Forum virtuel sur l’analytique des données), des enregistrements de présentations (en anglais seulement) sont accessibles sur sa page Web.
Society of Actuaries (SOA) (en anglais seulement)
La Society of Actuaries est très active tant du côté de l’éducation que de celui de la recherche en matière d’analytique prédictive et d’IA. En qualité d’organisme de qualification actuarielle, la SOA exige des nouveaux membres associés qu’ils réussissent un examen portant sur l’analytique prédictive. La page Associate of the Society of Actuaries (ASA) de la SOA présente des précisions au sujet des examens et de l’éducation. Des programmes de certification, soit en matière d’analytique prédictive ou d’utilisation éthique et responsable des données et des modèles prédictifs, sont offerts aux Fellows de la SOA. Sous peu, ceux-ci se verront aussi offrir le programme de certificat en analytique prédictive avancée. La page SOA Certificate Programs présente des précisions à ce sujet.
La page Data Analytics Resources de la SOA contient des liens vers des outils, des sources de données ouvertes et d’autres ressources, et la page Predictive Analytics Experience Studies présente des exemples d’études sur l’expérience ayant recours à des techniques d’analytique prédictive.
Autorité européenne des assurances et des pensions professionnelles (AEAPP) (en anglais seulement)
La page de l’AEAPP Artificial Intelligence and Big Data contient des liens permettant d’accéder à ses rapports gratuits portant sur le recours à l’analytique des mégadonnées par les institutions financières et dans le secteur des assurances, ainsi qu’à son rapport sur l’éthique en matière numérique dans lequel sont énoncés les principes de gouvernance de l’IA visant le secteur européen des assurances.
National Association of Insurance Commissioners (NAIC) (en anglais seulement)
Plusieurs groupes de travail et projets de recherche de la NAIC se penchent sur l’utilisation de l’IA et des mégadonnées dans le secteur des assurances. La page Big Data de l’organisme présente des ressources relatives aux technologies en émergence, notamment sur la façon dont les nouvelles sources de données peuvent constituer un complément aux sources plus traditionnelles au bénéfice des consommateurs et des assureurs, ainsi que sur certains des risques et défis que posent les mégadonnées.
Des groupes de travail de la NAIC élaborent également des pratiques exemplaires servant de guide aux responsables de la réglementation nationaux dans leur examen de l’utilisation des modèles prédictifs par les assureurs. Dans un livre blanc publié en 2020 et intitulé Regulatory Review of Predictive Models, par exemple, le Casualty Actuarial and Statistical (C) Task Force énonce les pratiques exemplaires aux fins de l’examen des modèles prédictifs déposés par les assureurs pour justifier la tarification.