Traitement efficace des documents pour les décideurs politiques 

Contexte et objectifs

Une organisation publique internationale ne disposait pas d'une approche centralisée pour contrôler les publications de ses partenaires. Cela l'a empêchée de traiter efficacement les informations à rechercher et à expurger des rapports et des politiques.

Ils souhaitaient explorer les sites web des institutions partenaires à différents niveaux (international, local et régional), en collectant et en classant les documents relatifs aux sujets qui intéressent leurs décideurs politiques. L'obtention de méthodes de scraping et d'algorithmes de traitement du langage naturel (NLP) précis était cruciale pour leur permettre d'allouer les ressources de manière efficace. 

Nous avons entrepris de rassembler des données ouvertes et accessibles au public afin d'aider nos clients à prendre des décisions politiques plus éclairées.

Approche

Après avoir livré une preuve de concept (POC) sans serveur et rentable, le client nous a demandé de développer un prototype pour ce pipeline. Nous avons effectué des séries d'implémentations agiles directement sur l'environnement du client pour nous assurer que la solution répondait à ses besoins.

Les documents ajoutés au processus nécessitaient l'extraction d'un résumé, d'un titre, de mots-clés et la possibilité de les classer par centres d'intérêt (40+). Il n'y a pas de structure ou de format commun aux documents, qui arrivent dans toutes les langues parlées dans l'Union européenne. 

La solution a été déployée dans l'environnement AWS du client, en concevant et en déployant l'infrastructure cloud avec Terraform pour faciliter la maintenance et l'évolutivité. Nous avons mis en place une API pour gérer les organisations à scraper et pour inclure des documents spécifiques dans le pipeline. 

Nous avons codé le prototype en Python, en utilisant Docker pour la conteneurisation et en exploitant les bases de données SQL. Les extraits clés des documents ont été traduits en anglais, afin de garantir une utilisation optimale et efficace.

Les principaux résultats attendus sont les suivants

  • Code pour déployer l'infrastructure et effectuer le scraping de documents et leur analyse NLP.

  • Documentation sur le déploiement de la solution d'infrastructure en tant que code (IaC) dans l'environnement du client.

  • Des séries de tests de validation avec les clients et des audits de sécurité dans le nuage. 

  • Partage des connaissances avec l'équipe du client pour une appropriation complète de toutes les parties du pipeline et la capacité de l'étendre avec de nouvelles fonctionnalités.

Résultats

La solution de classification des documents aide notre client à améliorer sa capacité à trouver des documents et des informations qui soutiennent la prise de décision et l'élaboration de politiques. 

Selon eux, la solution apporte qualité et rapidité, flexibilité, sécurité et rentabilité à leurs processus de recherche et de décision.

Précédent
Précédent

Amélioration de l'expérience des membres d'une fédération professionnelle

Suivant
Suivant

Prix compétitifs avec un modèle dynamique dans les télécommunications