Itua Etiobhio, Riyad Khan et Steve Blaxland
Le volume d’informations accessibles aux régulateurs à partir de sources publiques a considérablement augmenté ces dernières années, y compris les données textuelles non structurées provenant des médias traditionnels, des agrégateurs d’informations et des médias sociaux. Cela représente une opportunité d’exploiter la puissance des techniques de science des données pour obtenir des informations précieuses. À l’aide d’outils analytiques sophistiqués, les autorités de contrôle peuvent-elles identifier des schémas cachés, détecter des événements émergents et évaluer l’opinion publique afin de mieux comprendre les risques pour la sécurité et la solidité des banques et des compagnies d’assurance ? Cet article explore comment la science des données pourrait aider les superviseurs des banques centrales à découvrir des événements importants, à capturer les tendances publiques et, à terme, à permettre une supervision plus efficace.
Utiliser des articles de presse comme source de données
Dans cet article, nous étudions s’il est possible d’identifier des événements d’intérêt, l’opinion publique et d’autres informations utiles relatives aux banques. Les articles de presse constituent une source précieuse et opportune d’informations diverses, notamment sur des événements tels que les fusions et acquisitions, les opinions des économistes sur les performances commerciales des entreprises et même sur les menaces émergentes telles que les paniques bancaires. Cela en fait un ensemble de données précieux pour appliquer des techniques de science des données afin d’extraire des informations clés.
Notre source de données est Factiva Analytics, un agrégateur d’informations crédible avec des sources telles que The Times, The Telegraph et SNL Financial, hébergeant plus de 32 000 des principaux journaux, publications commerciales, rapports et magazines mondiaux. En utilisant un agrégateur de sources crédibles, les superviseurs peuvent filtrer les fausses nouvelles et accéder à des informations fiables. Disposant d’informations fiables, ils peuvent être alertés des problèmes potentiels susceptibles de nécessiter leur attention, sans prendre de décisions basées uniquement sur ces informations.
À l’aide de Factiva, nous avons extrait des articles de presse sur 25 banques réglementées de différentes tailles du 1er janvier 2022 au 21 mars 2023, ce qui a donné un ensemble de données contenant 175 000 articles. Beaucoup d’entre eux étaient très similaires avec seulement de légères différences textuelles et ont été diffusés sur plusieurs canaux de distribution. Utiliser un modèle de science des données nommé FinBERT, un modèle de langage financier entraîné, nous avons calculé le degré de similarité entre différents articles financiers et généré une matrice de similarité. L’algorithme traite chaque élément comme un vecteur dans un espace vectoriel multidimensionnel. La distance entre les vecteurs est calculée en utilisant similarité cosinus et représente la similitude entre les articles de presse. Plus la distance entre les vecteurs est courte, plus les éléments sont similaires. Ceux qui obtiennent les scores les plus élevés sont ceux qui se ressemblent le plus dans l’ensemble de données. Un exemple de performance sur une seule journée est présenté ci-dessous.
Graphique 1 : Nombre total cumulé d’articles avec un score de similarité supérieur à un seuil pour une seule journée d’article (3 octobre 2022)
Cinq articles ont une similarité de 1, ce qui signifie qu’ils sont identiques, tandis que 130 autres ont un score de similarité de 0,99. Une telle similarité entre les articles de presse démontre pourquoi il serait inefficace (et irréaliste) pour les superviseurs d’essayer de consommer toutes ces données. En fixant le seuil du score de similarité à 0,99, nous avons supprimé les articles très similaires de l’ensemble de données. En appliquant cette méthode, en plus de filtrer les articles réglementaires, les résumés d’actualités et les actualités locales, nous réduisons le nombre total d’articles de 45 %, garantissant ainsi que les superviseurs peuvent utiliser leur temps plus efficacement en se concentrant uniquement sur des articles uniques liés à leur entreprise.
Étude de cas du Crédit Suisse
Pour tester notre approche, nous avons examiné le Crédit Suisse, une société disposant d’un important corpus d’actualités et qui a traversé une période de turbulences ces dernières années. Le test a été fait avec du recul. En fait, nous nous attendons à ce qu’une telle analyse soit effectuée « en temps réel ».
UBS a annoncé l’acquisition du Crédit Suisse le 19 mars 2023, précédée d’une cascade de rumeurs et d’informations communiquées via les médias traditionnels et les réseaux sociaux. Pour comprendre cela, nous avons utilisé l’analyse de réseau, Classement et des techniques de science des données basées sur des mots clés pour identifier et analyser tout événement d’intérêt sur une période de 15 mois.
Analyse de réseau
L’utilisation de Analyse de réseau offre un moyen d’explorer l’interconnectivité du secteur bancaire à travers les médias mondiaux. L’hypothèse principale est que la co-apparition des banques dans les articles de presse révèle un lien entre elles. Chaque article de presse constitue la racine d’un graphe acyclique dirigé (DAG), avec des nœuds créés pour toutes les autres banques mentionnées dans le même article. Vous trouverez ci-dessous une visualisation d’un réseau avec le Crédit Suisse au centre de l’analyse.
Figure 1: Analyse du réseau du Credit Suisse
Dans la figure 1, la force du lien entre deux banques est déterminée par le nombre d’articles de presse dans lesquels les deux banques sont mentionnées, tandis que la direction de la flèche représente la direction du flux narratif. Par exemple, la flèche pointant du Crédit Suisse vers l’UBS indique que le Crédit Suisse a été identifié comme le thème principal du corpus des articles et que le thème est son acquisition par l’UBS.
Nous avons mené analyse des sentiments sur chaque article de presse pour mesurer le sentiment global positif ou négatif envers les banques impliquées. La valeur du sentiment est ensuite attribuée au lien correspondant dans le réseau, représenté par la couleur de la connexion, où le rouge représente un sentiment négatif et le bleu un sentiment positif. Un exemple dans le diagramme ci-dessus montre que le Credit Suisse et l’UBS sont identifiés comme ayant un lien étroit avec un sentiment négatif.
Cette méthode, en tirant parti de l’intelligence artificielle (IA) pour créer un réseau de connexions et de sentiments, peut apporter de la valeur aux superviseurs. Cette technique nous permet de comprendre les modèles d’interconnectivité entre les banques et leur évolution au fil du temps, afin de surveiller et de comprendre les événements en cours et les conséquences potentielles du risque de contrepartie. De plus, l’analyse du sentiment peut servir d’indicateur d’alerte précoce, car les changements de sentiment indiquent souvent des événements importants sur le marché.
Analyse des mots clés
À l’aide de l’analyse de mots clés, nous avons marqué les articles avec un thème qui nous intéresse pour produire une chronologie thématique. Des pics dans le volume d’articles peuvent indiquer un événement intéressant. Lors de la lecture manuelle d’un sous-ensemble d’articles de presse, deux thèmes sont apparus fréquemment :
- Changement de direction.
- Changement de cote de crédit.
Nous avons effectué une analyse pour montrer le volume d’articles liés à ces sujets à l’aide d’une liste de mots-clés que nous avons créée. Un exemple d’événements clés est présenté dans les graphiques ci-dessous.
Graphique 2: Chronologie du Credit Suisse – changement de direction
Remarque : Le graphique montre le nombre d’articles par semaine du 1er janvier 2022 au 21 mars 2023. Les couleurs représentent le nombre d’articles liés à un mot-clé.
Graphique 3: historique du Credit Suisse – notation de crédit
Le graphique 3 montre comment nous pouvons identifier les articles de presse et les événements susceptibles d’indiquer des tensions financières. Les superviseurs peuvent repérer des pics dans la chronologie et décider d’enquêter plus en profondeur. Les pics de volume de ces objets peuvent être utilisés pour évaluer l’ampleur de l’événement. Plus il y a d’articles de presse traitant du même sujet, plus l’événement est important.
Identification des principaux titres d’actualité
En complément des indicateurs indiqués ci-dessus, il peut être utile d’identifier les titres d’actualité les plus importants au sein du corpus de documents analysés. PageRank est un algorithme non supervisé basé sur la théorie des graphes, initialement conçu pour classer les pages Web, qui a été adapté pour identifier les phrases importantes dans un texte, en fonction de leur similarité sémantique dans le document. L’algorithme traite chaque titre d’actualité comme un nœud dans un graphique et utilise la similarité cosinus pour calculer la distance entre les nœuds. Plus la distance est petite, plus les titres sont similaires, les scores les plus élevés étant considérés comme les plus importants et les plus représentatifs de l’ensemble de données.
Tableau A: Principales actualités du Credit Suisse en 2022
Le tableau A illustre le flux d’actualités autour du Credit Suisse aux quatrième et troisième trimestres 2022, montrant un certain nombre de thèmes majeurs, notamment les pertes, la gestion et la baisse du cours de ses actions, qui n’étaient pas évidents au premier et au deuxième trimestre.
Cette approche peut permettre aux superviseurs de localiser rapidement les informations les plus importantes dans les articles de presse, économisant ainsi du temps et des efforts par rapport à la lecture et au résumé manuels de chaque article. Les principaux titres extraits peuvent être utilisés à diverses fins, notamment la surveillance de la couverture médiatique et la surveillance du sentiment du marché.
Conclusion
Tirer parti des techniques de science des données pour identifier des informations basées sur des événements à partir d’articles de presse peut constituer un apport précieux à une surveillance fondée sur le jugement.
Dans cet article, nous avons montré comment l’analyse de réseau et des méthodes complémentaires peuvent identifier des événements d’intérêt et une poignée de thèmes clés liés à chaque entreprise du Credit Suisse. La puissance d’une telle analyse réside dans son évolutivité, ce qui signifie qu’une analyse similaire peut être appliquée à plusieurs entreprises, secteurs et juridictions, soutenant régulièrement une surveillance efficiente et efficace. Cependant, des limites et des défis existent, notamment l’intégration des informations provenant d’articles rédigés dans plusieurs langues. Dans notre échantillon, 60 % des articles Factiva ne sont pas en anglais et ne sont pas inclus dans notre analyse ici. Factiva ne fournit actuellement pas de traduction d’articles.
Les développements rapides dans d’autres domaines de l’intelligence artificielle, tels que les modèles de langage naturel, pourraient fournir d’autres informations précieuses. Par exemple:
- Modèles de résumé de texte tels que Grands modèles de langage (LLM) et les outils de synthèse de la technologie cloud utilisant Microsoft Azure, Google et AWS peuvent extraire des informations clés de documents permettant aux superviseurs de lire les points clés plutôt que des articles entiers.
- Traduire des articles non anglais vers l’anglais pour recueillir des informations supplémentaires.
Grâce à des méthodes améliorées de science des données et à un cloud computing puissant, ces techniques ont le potentiel d’effectuer ces tâches complexes avec une plus grande précision.
Cet article a été rédigé alors qu’Itua Etiobhio travaillait dans la division RegTech, Data & Innovation de la Banque. Riad Khane Steve Blaxland travaille au sein de la division RegTech, Data & Innovation de la Banque.
Si vous souhaitez nous contacter, veuillez nous envoyer un e-mail à [email protected] ou laisser un commentaire ci-dessous.
Les commentaires n’apparaîtront qu’après avoir été approuvés par un modérateur et ne seront publiés que lorsque le nom complet sera fourni. Bank Underground est un blog permettant au personnel de la Banque d’Angleterre de partager des points de vue qui remettent en question – ou soutiennent – les orthodoxies politiques dominantes. Les opinions exprimées ici sont celles des auteurs et ne sont pas nécessairement celles de la Banque d’Angleterre ou de ses comités politiques.
Partager la publication « La science des données peut-elle capturer des informations clés dans les articles de presse ?