Team Quest : Développer une solution de pointe en seulement 9 heures

Commencer est la partie la plus importante de toute quête et de loin la plus courageuse. - Platon


Le 28 juillet 2022, nous avons organisé un défi d'équipe d ' une journée pour explorer et développer une preuve de concept (POC). Chaque équipe de scientifiques des données et de stagiaires pouvait choisir une technologie de pointe spécifique avec laquelle travailler pendant neuf heures (par exemple, GPT3, Web scraping à l'échelle, vision par ordinateur, IoT, apprentissage automatique, IA explicable, etc.)

Quelle était la mission ? Développer un POC dans une technologie de pointe qui pourrait bénéficier à Agilytic et à nos clients.

"La planification de la première édition de Agilytic Quest est née d'un désir enthousiaste de collègues de relever un nouveau défi. C'était le point de départ. Par ailleurs, notre accélérateur de projets, le Agilytic Lab, est une initiative en plein essor. C'était donc une excellente occasion de combiner le démarrage du laboratoire, de relever de nouveaux défis et d'explorer des technologies de pointe", a déclaré Alex Schouleur, l'organisateur de la quête.

Alors, pourquoi en seulement 9 heures?

"Nous voulions trouver un compromis. L'idée est de donner suffisamment de temps aux gens pour développer un POC, mais en même temps, nous voulions créer un sprint intensif. C'est un élément essentiel pour que le défi soit relevé", a déclaré Alex.

La matinée a commencé par un coup d'envoi et un brainstorming pour choisir un sujet utilisant l'une des solutions de pointe. À la fin du défi, chaque équipe devait présenter sa solution. Les Agilyticers ont été encouragés à explorer certains concepts par eux-mêmes afin de maximiser leur impact. Voici ce que chaque équipe a développé et expérimenté ensemble !

Équipe 1 - Correction automatisée du code et suggestions avec Alex Schouleur et Guillaume Carton

Deux personnes présentant devant un projecteur

En d'autres termes, qu'avez-vous développé en tant qu'équipe et pourquoi avez-vous décidé de travailler sur ce sujet ?

Alex: Nous avons décidé de développer deux cas d'utilisation de GPT3, un algorithme de traitement du langage naturel développé par la société OpenAI, un laboratoire de recherche en intelligence artificielle. Ils ont construit GPT3 à partir de données web, tout ce qui se trouve sur Wikipédia, les sites web, Reddit, les médias sociaux, etc., en les regroupant dans un énorme ensemble de données et en entraînant des algorithmes sur celles-ci. Tout d'abord, nous avons construit un outil qui peut aider les codeurs à documenter leur code. Cette tâche peut être très pénible, fastidieuse, ennuyeuse, et la documentation n'est souvent pas assez complète ou qualitative. Avec GPT3, nous avons effectué quelques tests et les résultats ont été impressionnants. En cliquant sur un bouton, nous avons pu générer une excellente documentation de code. Le deuxième cas concernait la correction automatique des bogues. Nous pouvions copier-coller du code Python dans notre outil et, en cliquant sur un bouton, l'outil nous renvoyait le code sans bogues. Nous avons ensuite procédé à une exploration plus large de GPT3 - et identifié un grand potentiel.

Quel est l'élément de la quête qui vous a le plus plu ?

Alex: C'était cool de voir tout le monde travailler en équipe, construire quelque chose ensemble et partager ses connaissances et son expertise. C'était bien d'entendre les idées des autres équipes. Tous nos projets étaient divers et très intéressants. Nous n'avons pas voulu donner l'impression d'être trop compétitifs, car l'objectif était de construire quelque chose de génial pour Agilytic. Il s'agissait donc davantage d'un exercice de renforcement de l'esprit d'équipe que d'une compétition pure et simple.

Guillaume: Cela m'a permis de travailler sur une nouvelle technologie sur laquelle je n'avais jamais travaillé auparavant. Les technologies évoluent tellement vite de nos jours qu'il est intéressant et important de pouvoir se concentrer sur des technologies de pointe de temps en temps. Et le fait de pouvoir partager ce moment avec d'autres collègues l'a rendu encore plus agréable.

Quel a été le plus grand défi ou obstacle auquel vous avez été confronté ?

Alex: Le plus grand défi a été de garder l'objectif commercial à l'esprit. Bien que le GPT3 soit impressionnant, amusant à utiliser et qu'il ait un effet de surprise, tout cela n'est que du vent si nous ne l'utilisons pas à bon escient et pour atteindre nos objectifs commerciaux. Ainsi, la traduction d'une bonne technologie en projets réels. C'était la partie la plus difficile.

Qu'avez-vous appris que vous ne saviez pas auparavant ?

Alex: Je ne connaissais pas la puissance de GPT3. Je m'attendais à ce qu'il soit correct ou moyen, peut-être pas de la meilleure qualité, mais il est assez facile de confondre les réponses avec celles d'un être humain.

Guillaume : Alors que je n'avais que vaguement entendu parler du GPT3, la Quest m'a permis d'en apprendre beaucoup plus sur le sujet et de voir quels pourraient être les cas d'utilisation de cette technologie.

Y a-t-il eu un moment drôle ou surprenant que vous avez partagé en équipe ?

Alex: Oui ! Vous pouvez poser n'importe quelle question à GPT3. Nous avons été amusés par les réponses aux questions techniques que nous posons habituellement aux personnes qui postulent à Agilytic, et GPT3 les a maîtrisées !

Quels seraient les cas d'utilisation de cette solution si elle était mise en production ?

Alex: Il y a beaucoup d'applications différentes. De nombreuses entreprises l'utilisent déjà comme algorithme principal. Par exemple, Duolingo l'utilise, et d'autres entreprises l'utilisent pour des outils de correction orthographique et grammaticale, des chatbots, et tout ce qui est lié à la classification de documents, au résumé et même à la génération de codes.

Guillaume: Ce qui est intéressant, c'est que nous pouvons déjà utiliser le premier cas d'utilisation en interne pour réduire le temps consacré à la documentation tout en garantissant la qualité de la documentation générée.

Équipe 2 - Analyse des données de performance athlétique avec Adrien Debray, Javier Tarrio et Nico Grassetto

deux collègues présentant devant un projecteur

En d'autres termes, qu'avez-vous développé en tant qu'équipe et pourquoi avez-vous décidé de travailler sur ce sujet ?

Javier: Nous voulions étudier le potentiel de l'utilisation des informations publiquement disponibles de Strava sur la performance des athlètes professionnels. Nous avons choisi de nous concentrer sur le récent Tour de France. Ce sujet est apparu naturellement puisque la course s'était achevée quatre jours auparavant et que l'un d'entre nous était passionné de cyclisme.  

‍Nico: Nous voulions voir jusqu'où nous pouvions aller avec des données accessibles au public et faire de notre mieux pour développer des analyses ou des prédictions.

‍Adrien: En tant que fan de cyclisme et utilisateur de Strava, je savais qu'il existait des données publiques sur les cyclistes et autres sportifs sur la plateforme. J'étais curieux de voir si ces données pouvaient nous apporter une compréhension plus approfondie des profils des coureurs, des tactiques susceptibles de réussir et de bien d'autres aspects.

Quel est l'élément de la quête qui vous a le plus plu ?

Javier: J'ai aimé l'ouverture du choix des sujets, qui nous a permis de voir trois points de vue sur des idées totalement différentes à la fin de la journée.

‍Nico: J'ai aimé l'idée que nous pourrions l'utiliser pour les clients et l'ouverture de Quest à des sujets potentiels.

Quel a été le plus grand défi ou obstacle auquel vous avez été confronté ?

Javier: Nous avons surestimé la facilité avec laquelle nous pouvions extraire les données de la source. Nous avons essayé différentes possibilités pour faire le travail, mais au final, cela a pris beaucoup de notre ressource la plus limitée : le temps. Sur le plan de l'organisation, nous aurions pu améliorer le processus de partage du code.

‍Nico: Nous avons surestimé le défi que représente l'obtention de données sur le Tour de France (ou de données tout court).

Qu'avez-vous appris que vous ne saviez pas auparavant ?

Javier: L'ampleur du nombre de cyclistes professionnels qui partagent publiquement leurs données de performance. Ce n'est qu'un aspect de l'énorme quantité de données produites par l'internet des objets (dans ce cas, un vêtement), et les données sont de l'information, et l'information est un pouvoir.

‍Nico: L'importance d'une bonne planification avant de commencer un projet ainsi que l'importance de Github dans ces moments-là. Au début, nous avons décidé d'écrire nos codes respectifs dans des carnets, mais au final, cela s'est avéré être un obstacle majeur en termes de temps.

Y a-t-il eu un moment drôle ou surprenant que vous avez partagé en équipe ?

Adrien: Je me souviens que Javier a dressé une liste de tout ce qu'il nous restait à faire en un temps très limité. Nous avons réalisé qu'il serait difficile d'arriver à une solution finale dans la journée. Mais au moins, nous étions tous d'accord sur le dernier élément de la liste des choses à faire : "18:30 : boire une bière".

Quels seraient les cas d'utilisation de cette solution si elle était mise en production ?

Javier: Pour les athlètes individuels : identifier les segments de leur activité dans lesquels ils devraient s'améliorer en se comparant à d'autres athlètes qui les surpassent dans ces segments ; pour les équipes sportives : rechercher de jeunes athlètes prometteurs ; pour les maisons de jeu/applications : aider à calculer le gain d'un pari ; pour les parieurs : aider à identifier les bons paris.

Equipe 3 - Analyse de la mise en page des documents avec Guillaume Lamine et Arnaud Briol

En d'autres termes, qu'avez-vous développé en tant qu'équipe et pourquoi avez-vous décidé de travailler sur ce sujet ?

Arnaud : Nous avons décidé de travailler sur l'analyse de la mise en page des documents. C'est un mélange de traitement du langage naturel et de vision par ordinateur. C'est un sujet sur lequel nous avons tous les deux travaillé dans nos projets précédents. Comme il évolue constamment, nous voulions évaluer certains des derniers développements. L'objectif était de déterminer s'il valait la peine d'investir davantage dans ces nouveaux modèles et s'ils pouvaient être utiles dans certains projets.

Quel est l'élément de la quête qui vous a le plus plu ?

Arnaud : Essayer les nouvelles technologies qui viennent d'être mises sur le marché. C'est passionnant !

Quel a été le plus grand défi ou obstacle auquel vous avez été confronté ?

Arnaud : L'entraînement de ce type de modèles est un défi car ils nécessitent beaucoup de données et de GPU. De plus, nous avons perdu du temps à configurer un environnement pour faire tourner ces modèles.

Qu'avez-vous appris que vous ne saviez pas auparavant ?

Arnaud : J'ai d'abord découvert un certain nombre de modèles d'analyse de la mise en page des documents qui sont libres et parfois pré-entraînés. J'ai également découvert un outil open-source intéressant appelé LabelImg recommandé par un collègue. Il permet d'étiqueter des images pour créer un ensemble de données.

Y a-t-il eu un moment drôle ou surprenant que vous avez partagé en équipe ?

Arnaud : Pendant les trois premières heures de la quête, nous avons eu quelques réunions d'équipe amusantes pour décider si nous allions changer de sujet ou si nous allions vraiment nous attaquer à ce mastodonte en une journée.

Quels seraient les cas d'utilisation de cette solution si elle était mise en production ?

Arnaud: Il pourrait être utile dans tous les projets de documents numérisés pour extraire automatiquement des informations telles que des prix, des noms, des signatures, des logos, des tableaux de données et même des équations !

Quelle est la prochaine étape ? Au laboratoire !

Ces solutions POC développées lors de la journée Quest donneront le coup d'envoi de notre Agilytic Lab, un incubateur qui permet de partager et d'internaliser les connaissances au sein de l'équipe, nous faisant grandir grâce à l'expérience collective et à la pratique individuelle.

Le laboratoire fonctionne comme un accélérateur de projets pour faciliter et réaliser des projets, offrant un centre de connaissances stable et centralisé, permettant d'explorer de nouvelles idées et d'augmenter la gamme de services précieux que nous offrons.

Prêt à relever un nouveau défi dans le domaine des données ? Nous recherchons des Data Scientists, des Data Engineers et des chefs de projet pour rejoindre notre équipe.

Consultez nos offres d'emploi!

Précédent
Précédent

1% pour la planète. Notre première année.

Suivant
Suivant

Discussion technique : Traitement efficace des factures grâce à l'automatisation de l'OCR