Discussion technique : Renforcer la détection des fraudes dans le secteur bancaire
Une histoire de falsification
Il y a près de dix ans, un vendeur de tapis, un peu trop ambitieux, cherchait à acheter un penthouse dans le centre d'une grande ville d'Italie.
Il vendait des tapis, des tapis de haute qualité. Mais ce n'était pas le genre d'activité qui lui permettait de gagner suffisamment d'argent pour acheter un appartement. Malgré tout, il s'est rendu à la banque pour demander un prêt, qui lui a été accordé, et il est devenu fièrement le nouveau propriétaire d'un appartement.
Après quelques mois supplémentaires, il a été expulsé de l'appartement car il ne pouvait pas rembourser les intérêts de son prêt.
Pourquoi de tels problèmes de remboursement existent-ils ? À cause d'un marché de la moquette baissier ? Non, cette personne a ajouté un chiffre supplémentaire à la fin de ses fiches de paie à l'aide d'un didacticiel vidéo sur la falsification de documents.
La fraude englobe la contrefaçon de monnaie et de documents de sécurité, ainsi que de documents d'identité et de voyage, et coûte à l'économie mondiale 3,2 billions de livres sterling (environ 3,8 billions d'euros) par an. La falsification de documents est également considérée comme un problème courant dans le secteur bancaire, qui coûte beaucoup d'argent et de ressources année après année. Au cours des derniers mois, Agilytic a travaillé sur une solution pour aider le secteur bancaire à résoudre ce problème.
Aperçu des technologies de détection de la fraude
Reconnaissance optique des caractères (OCR) - la technique classique
La détection des fraudes sur les documents falsifiés repose sur la reconnaissance optique des caractères (OCR). L'OCR vérifie le contenu textuel du document et son format (par exemple, la taille, les polices de caractères, la position des caractères). En effet, il est possible de le faire sur des modèles de documents déjà enregistrés. La position des champs de texte doit être prédéfinie pour permettre à l'algorithme de se concentrer sur le texte et de le lire directement. Si le document n'est pas enregistré, vous pouvez utiliser une approche heuristique dans laquelle l'algorithme essaiera de détecter les points d'intérêt dans l'image. Il extrait ensuite le texte et les informations qui s'y rapportent. Bien entendu, les performances sont alors moins efficaces. Nous illustrons ici la technique de l'OCR :
L'OCR est très utile car elle ne nécessite pas de données d'apprentissage. Idéalement, vous disposez d'un modèle pour améliorer la reconnaissance des caractères. Cependant, cette technique a des limites - si le document est une image et non un document texte et si la falsification est très bien faite.
Stéganographie - technique graphique permettant de détecter les contrefaçons non évidentes
La stéganographie permet d'améliorer la détection des documents falsifiés. Le principe de la stéganographie est de cacher des informations derrière ce que l'on voit directement à l'œil nu, en atteignant le niveau du pixel des documents basés sur l'image pour détecter les modifications. La manipulation pour la falsification consiste à créer des altérations sur les pixels autour du texte falsifié. Ces manipulations sont, par exemple :
copier-coller à partir de l'intérieur du document (CPI)
copier-coller depuis l'extérieur du document (CPO)
suppression d'un ou plusieurs caractères sur une image (CUT)
création d'une zone de texte pour imiter un texte (IMI)
La stéganographie recherche ces modifications d'arrière-plan pour détecter les falsifications de documents. L'application de filtres spécifiques sur l'image met en évidence les modifications autour du texte. Chaque filtre génère des valeurs de sortie numériques, que nous utilisons pour alimenter l'algorithme de classification. Après la phase d'apprentissage, l'algorithme peut détecter s'il y a ou non falsification.
L'apprentissage de l'algorithme dépend de documents dont la falsification est bien spécifiée et étiquetée (c'est-à-dire dans lesquels une valeur générée par un filtre à partir d'une image est liée à un document authentique ou falsifié).
L'OCR ne peut pas fonctionner correctement sur les documents images (par exemple, les documents scannés), mais la stéganographie s'adapte parfaitement à cette tâche. Nous avons testé cette technique sur un ensemble de données contenant des fiches de paie et avons détecté 75 % des fraudes (vous trouverez plus d'informations dans cet article scientifique). En outre, vous pouvez appliquer les techniques de stéganographie à d'autres types de documents, tels que les cartes d'identité ou les passeports. Cependant, la qualité du document image et des documents d'apprentissage est une limite de cette technique.
AgilyticLe point de vue de la Commission européenne sur la détection des fraudes
La combinaison de l'OCR et de la stéganographie améliore considérablement la capacité à détecter les fraudes commises au moyen de documents falsifiés. Qu'en est-il des autres étapes à valeur ajoutée ? Les documents authentiques et falsifiés sont essentiels à l'apprentissage de l'algorithme et à la détection de la fraude. Pourtant, dans la pratique, il n'est pas facile d'identifier et de collecter des documents falsifiés.
Pour résoudre ce problème, nous pouvons subdiviser les documents images en images plus petites, en recadrant les images. Les documents comportant plus d'une falsification peuvent apporter plus d'images à analyser pour l'algorithme, augmentant ainsi le nombre de documents falsifiés pour l'entraînement de l'algorithme. L'application de l'algorithme de détection à des images plus petites améliore ses performances car les gens peuvent faire des faux sur une partie minuscule et spécifique de l'image. Nous réduisons ensuite la zone de recherche, ce qui permet d'obtenir de meilleurs résultats. Enfin, nous procédons à une validation croisée des informations présentes dans certains documents. Il s'agit de recouper des documents tels que des fiches de paie ou des titres de propriété avec des données extraites de cartes d'identité et de passeports.
Gain de temps et précision de la détection pour les banques
La détection des documents falsifiés est un défi important pour le secteur bancaire. Aujourd'hui, nous disposons d'une solution robuste combinant l'OCR pour détecter les altérations sur les documents textuels, la stéganographie pour détecter les falsifications sur les documents images, et la validation croisée entre les documents. Il en résulte un gain de temps et une amélioration du taux de détection pour les banques.
Prenez contact avec nous si vous souhaitez relever vos défis en matière de détection de la fraude avec nous !