BNP Paribas Personal Finance a mis en place le SGBD en graphe Neo4j pour optimiser la détection des fraudes sur les crédits à la consommation. (Photo BNP Paribas Personal Finance – DR)
Filiale du groupe BNP Paribas spécialisée dans les crédits à la consommation, BNP Paribas Personal Finance, propose notamment des services de paiement fractionné sur les sites de e-commerce. Pour améliorer la détection des dossiers frauduleux sur ces services, elle a expérimenté l’usage d’une base de données en graphe, Neo4j, technologie qui a ensuite été mise en production après avoir fourni des résultats concluants. Un premier bilan de ce projet a été présenté lors du salon Big Data & IA 2022 à Paris.
Les réseaux de fraudeurs visent fréquemment les services de paiement fractionné, destinés à étaler le paiement d’un produit ou service en trois ou quatre fois. « Ils ne se contentent pas de réutiliser les informations (noms, numéros de téléphone ou de carte bleue…) d’un dossier à l’autre. Ils les changent. Et de ce fait, les approches traditionnelles par liste noire ne fonctionnent plus », explique Mehdi Barchouchi, responsable innovation data et outils à la direction des risques France chez BNP Paribas Personal Finance. Pour identifier des dossiers frauduleux, il faut donc désormais établir des connexions entre ces documents, ne comportant pourtant parfois aucune information commune. Sans oublier une exigence majeure : le scoring de la demande doit s’exécuter en temps réel, pour donner une réponse immédiate au client concerné.
Le cas d’usage parfait
Pour de tels traitements, la performance des bases de données relationnelles classiques se révèle insuffisante. Leur utilisation contraint à multiplier les jointures pour détecter une relation entre dossiers, une opération particulièrement coûteuse. « Le problème réside dans la profondeur des réseaux », indique Mehdi Barchouchi. BNP Paribas Personal Finance a donc décidé de tester une base de données en graphe, car cette technologie correspond bien à une structure où de multiples données sont connectées entre elles. Pour Édouard Tabary, responsable de l’équipe innovation et data science au centre de scoring BNP Paribas Personal Finance, « c’est le cas d’usage parfait ».
La filiale de BNP Paribas a donc opté pour la solution de Neo4j et a démarré un pilote courant 2020 sur un serveur sur site, avec un jeu de données réduit. L’équipe a d’abord créé le modèle de données en graphe à partir de données tabulaires. Et elle l’a affiné progressivement pour arriver au modèle cible, en utilisant notamment des algorithmes de machine learning. Enfin, elle a bâti des indicateurs basés sur la valeur des prédictions. « Nous avons obtenu un modèle très performant : en l’appliquant à une faible quantité de population, nous avons couvert la quasi-totalité des réseaux de fraudeurs », confie Édouard Tabary.
Un projet rendu complexe par le temps réel
L’étape suivante ? Industrialiser le modèle. Un travail démarré début 2021 et achevé début 2022 avec la mise en production. Durant cette phase, les équipes ont continué d’optimiser l’algorithme, en particulier pour le temps réel. Mais l’essentiel du temps a surtout été consacré à la conception d’une architecture adaptée, également hébergée en interne. « Nous avons mis en place un système pour appeler en temps réel l’infrastructure Neo4j dans le parcours, mais ce système comporte toujours une partie transactionnelle, afin de préserver notre capacité à étudier les données pour améliorer l’algorithme », a indiqué Édouard Tabary.
Désormais, les données arrivent directement dans la base en graphe et peuvent immédiatement être comparées avec toutes les demandes passées, en quelques millisecondes. « Nous pouvons remonter deux dossiers sans aucune information commune, mais avec un chemin qui les relie », explique Édouard Tabary. Une fois les groupements de dossiers ainsi identifiés, l’équipe peut ensuite trouver des marqueurs potentiels de fraude, en exploitant notamment les liens de similarité de Neo4j. Le but est d’avoir le moins de faux positifs possible, mais il faut également comprendre le chemin qui a conduit un dossier à obtenir un score élevé de risque frauduleux, afin d’apporter une réponse au client dont le dossier se verrait refusé. « Nous avons une obligation d’explicabilité du modèle, de compréhension des marqueurs de risque, souligne Mehdi Barchouchi. Dans une base en graphe, on sait retracer, capturer le contexte. L’empreinte des données fournit un contexte particulier, au fur et à mesure nous obtenons des patterns de plus en plus précis. Nous pouvons expliquer la prédiction de fraude en regardant le « voisinage » et retrouver ce qui a conduit à cette prédiction en tenant compte des délais légaux de conservation des données. » L’équipe veille également à l’équité du modèle, afin de ne pas induire des biais discriminants.
Un modèle amené à évoluer
D’autres entités du groupe BNP Paribas utilisent Neo4j, notamment l’informatique pour la résolution d’incidents. Toutefois, l’usage d’une telle technologie est une première pour l’équipe de BNP Paribas Personal Finance, constituée de deux experts métiers, de deux data scientists et d’un petit groupe de développeurs et d’administrateurs. Pour ce projet, l’éditeur a accompagné cette équipe transverse, associant notamment IT et direction des risques, pour écrire le modèle et l’alimenter à partir de ses données. « Nous étions habitués aux formats tabulaires et nous avons dû apprendre », confie Mehdi Barchouchi. Aujourd’hui, l’enjeu est d’élargir la base de sachants afin d’explorer d’autres cas d’usage et de toucher d’autres populations dans l’entreprise.
De cette expérience, l’équipe a déjà tiré certains enseignements. Selon Mehdi Barchouchi, « pour engager une telle démarche, il est important de bien connaître ses données et de disposer de bons exemples de cas de fraude en réseau, que l’on pourra retrouver avec le graphe. » Il recommande également d’y consacrer du temps, à la fois en amont, sur la phase exploratoire, mais aussi après la mise en production. « Celle-ci n’est que le début de la vie du projet. Il faut pouvoir faire évoluer le modèle, afin de réagir à l’activité des fraudeurs », insiste le responsable innovation data & outils à la direction des risques France. Sans oublier, comme il le rappelle, de mesurer la performance avec des indicateurs idoines.