L'estimation du risque associé à un incident particulier est l'objectif principal des praticiens de l'assurance. Dans sa version la plus simple, cette tâche revient à pouvoir répondre à trois questions :

Quelle est la probabilité que l'incident se produise ?
Quelle est la gravité de l'incident ?
Quel sera le coût des conséquences de l'incident ?

Telles sont les questions auxquelles répond un modèle de prévision des risques. La sous-estimation des réponses implique des pertes économiques pour couvrir les dommages. En revanche, une surestimation peut entraîner une perte d'avantage concurrentiel.

Pour modéliser un algorithme d'apprentissage machine (ML) dédié à l'estimation du risque d'incident, nous voulons parler de deux exemples qui illustrent l'importance des données - extraire plus d'informations que ce qui existe à la vue de tous et l'impact d'une grande variété de données. Nous avons créé ce modèle pour un projet client dans le secteur du crédit-bail automobile, mais nous pouvons étendre les concepts à divers secteurs et cas.

Augmentation des données pour déterminer la propension aux incidents

Pour commencer, nous devrions baser un modèle d'estimation du coût du risque sur des données qui, au minimum, contiennent une liste d'incidents, la date de l'incident, les clients et le coût associé. On n'insistera jamais assez sur l'importance de l'information sur les clients. Pour déterminer la probabilité d'un risque, il faut examiner de quel type de client il s'agit (par exemple, les caractéristiques socio-économiques et toute autre dimension) afin d'évaluer la probabilité d'un incident. Par exemple, si l'on considère l'historique des clients, on peut penser que les clients qui ont eu plusieurs incidents (du même type ou non) dans le passé sont plus susceptibles de continuer à en avoir à l'avenir. Il s'agit d'une hypothèse a priori que nous devons valider à l'aide de données. Dans le projet entrepris par le client, nous avons constaté qu'elle était vraie. En tirant de nouvelles informations des données disponibles (augmenting), nous avons pu étudier le nombre et le type d'incidents des clients au cours des 3, 6, 12 et 24 derniers mois et utiliser ces données pour trouver les caractéristiques des clients qui les rendent plus enclins à subir des incidents spécifiques.
‍
Soyez prudent, car il s'agit d'un terrain glissant. La confidentialité des données est d'une extrême importance, et la création d'algorithmes de ML éthiques relève de la responsabilité des data scientists. Lorsqu'il s'agit de déterminer les caractéristiques des clients, en particulier les coûts des services qui leur sont proposés, il est nécessaire de prendre des précautions pour garantir l'absence de discrimination dans le modèle.

Distinguer les différents types de risques grâce aux métadonnées

Disposer de données fiables n'est pas tout. Avec les risques d'incidents, il est crucial de réaliser les différents types de risques à considérer et de construire un modèle en conséquence.
‍
Parfois, la manière de discerner deux types d'incidents différents est simple, sans beaucoup d'informations. Nous présentons ici un ensemble de données hypothétiques concernant une compagnie d'assurance habitation qui ne propose que deux types d'assurance : les petites réparations telles que les canalisations bouchées, dont le coût est d'environ 10 (en monnaie fictive), et les réparations plus importantes telles que les fuites de canalisations et les inondations, dont le coût est d'environ 100 (voir fig.1).

Nous n'avons pas besoin de beaucoup d'informations supplémentaires pour discerner les types de risques à entraîner dans le modèle, puisque le coût total est déjà un bon indicateur. Nous pourrions rédiger une règle stipulant que si le coût total est inférieur à 45 (par exemple), nous sommes confrontés à un risque à faible coût, et inversement.

‍La question se complique en présence d'un troisième type de risque, les réparations moyennes-grandes, par exemple les réparations de peinture avec un coût d'environ 80 (voir fig.2).

Dans ce cas, une simple règle de coût n'aidera pas le modèle à distinguer les différents types de risque. L'ajout d'informations supplémentaires, telles que la description du problème (travaux de peinture ou inondation), l'entreprise qui effectue les réparations (peintres ou plombiers) ou d'autres données pertinentes, sera utile.

Cela montre l'importance de rassembler tous les éléments d'information disponibles lors de la création d'un modèle ML.

Dernières réflexions

La construction d'un modèle d'incident pour notre client a été possible grâce à la qualité des données déjà collectées et à la capacité de transformer, d'augmenter et d'utiliser les métadonnées liées aux différents incidents pour discerner différents types de risques.
‍
Agilytic a construit plusieurs modèles d'incident, un pour chaque type de risque identifié chez le client, en répondant aux trois premières questions : quelle est la probabilité, la gravité et le coût des incidents auxquels notre client est confronté ?
‍
Le principal enseignement à tirer ? L'extraction de plus d'informations que ce qui est visible à l'œil nu et l'importance de collecter des variétés de données amélioreront votre modélisation des incidents.

Si la prévision des risques est un défi pour votre entreprise, nous sommes là pour vous aider!

Parlons technologie : Tenir compte de vos facteurs de risque grâce à un modèle d'incident

Augmentation des données pour déterminer la propension aux incidents

Distinguer les différents types de risques grâce aux métadonnées

Dernières réflexions

Discussion technique : Renforcer la détection des fraudes dans le secteur bancaire

Entrer dans la science des données en sortant de l'université : Le parcours de Guillaume