#DataAutomation | datacraft

[Reporté] Atelier Model Thinking: configurer un LLM pour le traitement de mails KYC

datacraft — Fri, 26 Jun 2026 07:00:00 +0000

Hugo Penichou, CTO et Cofondateur de SkyDot, startup spécialisée dans le traitement des dossiers KYC

A l’occasion de cet atelier co-animé avec la startup SkyDot, les participants seront invités à se confronter à un défi concret de configuration d’agent issu du terrain.
A partir d’un dataset synthétique reconstruit sur la base d’emails KYC réels, l’objectif sera de construire une bibliothèque de skills / prompts robustes permettant l’extraction structurée d’informations clées au traitement des KYC via l’usage de LLM sans fine tuning. L’atelier ira ainsi au-delà du prompt engineering, pour s’approcher du model thinking avec plusieurs étapes de traitement (extraction, structuration, validation).

L’atelier combinera retour d’expérience industrielle et approche méthodologique. SkyDot présentera la problématique métier et les approches déjà testées. Les participants seront ensuite invités à explorer plusieurs stratégies de conception de prompts, en expérimentant différentes formulations, structures d’instructions et mécanismes de contrôle de sortie. Le but visé sera d’identifier les entités concernées dans un email KYC, puis standardiser les demandes sous forme de fichiers JSON (confirmations, liste de documents, questionnaires).

L’atelier mettra l’accent sur une démarche itérative : prototypage rapide, test sur des exemples, analyse des erreurs et amélioration continue. Une attention particulière sera portée à la généricité et à la maintenabilité des solutions proposées, dans une logique de passage à l’échelle.

En fin de session, un temps de restitution collective permettra de comparer les approches, d’identifier les bonnes pratiques émergentes et de discuter des limites actuelles des LLM dans ce type de cas d’usage, ouvrant la voie à des pistes d’amélioration et d’industrialisation.

Neurons & Peppers #4 : VLM & PDF

datacraft — Tue, 26 May 2026 16:00:00 +0000

S’inscrire à l’événement

Pour cette 4ème édition nous invitons le Lab Pulsia du groupe La Poste à présenter leur benchmark de modèles de vision pour l’analyse de documents ainsi que leur librairie open-source vlmparse dédiée à la conversion et à l’évaluation de PDF via des VLM.

Présentations par Bruno Rigal (Data scientist chez Probayes), Ronan Le Hy (NLP Chief Scientist chez Probayes) et Nicolas Mery (Data Scientist chez Openvalue)

Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion
Les grands modèles de vision savent désormais lire vos PDF mieux que jamais — mais sait-on encore les évaluer correctement ? Dans cette présentation, nous verrons comment nous avons construit un benchmark de documents français difficile même pour les meilleurs modèles et pourquoi les métriques classiques comme la distance d’édition deviennent trompeuses quand les modèles dépassent un niveau. Nous présenterons une approche par tests unitaires ciblés, une comparaison de 15 modèles propriétaires et déployables localement démontrant les progrès et les limites persistantes des meilleurs modèles actuels.
article disponible sur:
https://arxiv.org/abs/2602.11960
dataset disponible sur:
https://huggingface.co/datasets/pulsia/fr-bench-pdf2md

vlmparse: A unified wrapper for Vision Language Models (VLM) and OCR solutions to parse PDF documents into Markdown.
Convertir des PDF en Markdown avec un VLM, c’est simple — jusqu’à ce qu’on veuille tester dix modèles différents, gérer des serveurs Docker locaux, paralléliser les appels et visualiser les résultats. C’est exactement pour éviter ce travail répétitif que nous avons développé vlmparse : une librairie Python unifiée qui expose la même interface pour des modèles aussi différents que Gemini, GPT, LightOnOCR ou MinerU, avec déploiement automatique des serveurs locaux, traitement concurrent haute performance, format de sortie unifié et un outil de visualisation Streamlit intégré. Dans cette présentation, nous verrons comment l’outil est structuré et comment vous pouvez l’intégrer en quelques lignes dans vos propres pipelines documentaires.
bibliothèque disponible sur:
https://github.com/ld-lab-pulsia/vlmparse

S’inscrire à l’événement

MEET UP – Progresser grâce aux données : Retour d’expériences en science des données et en consultation scientifique

datacraft — Thu, 19 Oct 2023 17:00:00 +0000

datacraft accueil le meet-up R-ladies Paris !

Lien d’inscription
https://us06web.zoom.us/meeting/register/tZwscuCppjwrHNMCmyEXSxBF6rqDJ2Wn8z_Z

Intervenants

Cet atelier sera animé par :

Kim Antunez, Statisticienne publique chez INSEE
Anna Doizy, Chercheuse, Consultante et Formatrice en méthodologie expérimentale et analyses de données avec R

Présentation de l’atelier

Nous avons le plaisir de vous convier à notre prochain événement.
R-Ladies Paris est une communauté d’utilisateurs du langage de programmation à Paris, faisant partie intégrante de R-Ladies Global, une initiative mondiale qui œuvre en faveur de l’égalité des genres au sein de la communauté des utilisateurs de R.

Notre objectif principal consiste à soutenir et à accompagner les utilisateurs de R qui sont sous-représentés, tout en encouragant l’apprentissage et la collaboration au sein de notre réseau. Nous accueillons chaleureusement toute personne, que vous soyez experte ou novice en programmation avec R. Vous êtes cordialement invités à vous joindre à nous ! N’hésitez pas à rejoindre notre groupe sur Meetup pour être informés de nos prochaines activités : 🔗 https://www.meetup.com/fr-FR/rladies-paris/ Nous sommes également ouvertes à toute nouvelle collaboration. N’hésitez pas à nous contacter à l’adresse suivante : paris@rladies.org

Vous trouverez plus de détails sur nos intervenantes et leurs présentations ci-dessous.

Biographie
Kim Antunez est statisticienne publique. Investie depuis 8 ans dans le logiciel R et sa communauté, elle s’intéresse en particulier à l’analyse spatiale, à la datavisualisation et plus largement aux méthodes quantitatives appliquées aux sciences sociales. Convaincue par l’open-data, l’open-source, et l’automatisation de processus statistiques utiles à différents types d’acteurs, elle a réalisé des projets en ce sens, tant professionnels que personnels.

Titre de la première intervention : « Mon roman d’appRentissage »
Description de l’intervention :

« Le roman d’apprentissage, ou initiatique, est un genre littéraire ayant pour thème le cheminement d’un héros, souvent jeune, qui atteint progressivement l’idéal de l’humain accompli, faisant l’expérience des grands événements de l’existence : l’amour, l’altérité, la frustration, etc.

L’histoire que je vais vous conter est la mienne : les huit années passées à me former progressivement à la science des données : l’amour de R, son altérité = sa communauté, la frustration de ne pas voir tout le monde s’émerveiller face à l’évolution des logiciels statistiques, pourtant si excitante.

Je vous décrirai les déclics issus de mes projets professionnels et personnels, et comment ils ont fait évoluer le regard que j’ai sur mon métier et ses outils :
– des packages… autour du lissage spatial et de l’évolution de la géographie communale.
– des formations…. à l’analyse spatiale, à la cartographie, d’introduction à R.
– des applications shiny… de visualisation de données d’enquêtes, de simulations de parties de mastermind, d’invitation à un mariage.
– et, avant tout, des rencontres ! Hâte de faire la vôtre le 19 octobre prochain ! »

Biographie
Passionnée par la science, la biologie et l’environnement, Anna Doizy s’est prise d’amour en 2017 pour un caillou au milieu de l’Océan Indien, La Réunion.
Depuis, elle est chercheuse, consultante et formatrice en méthodologie expérimentale et analyses de données avec R.
En 2020, elle crée son entreprise, est indépendante et adore ça !
Elle travaille principalement avec des chercheurs en biologie et agronomie et commence à ouvrir ses horizons vers d’autres champs de recherche.

Titre de la deuxième intervention : « Freelance et R-lady : un duo gagnant pour la démarche expérimentale »
Description de l’intervention

« Dans cette présentation, je partagerai mes projets scientifiques et mon expérience en tant qu’indépendante depuis 3 ans et demi. Je raconterai comment j’ai changé de posture en passant de “biostatisticienne” à “consultante scientifique”.
Je discuterai en particulier des défis que j’ai rencontrés pour structurer mon entreprise et aider les chercheurs à améliorer leur démarche expérimentale. »

Nous vous attendons nombreux ! Si vous souhaitez revoir nos précédents meetups, les replays sont disponibles sur notre chaine YouTube 📺https://www.youtube.com/@rladiesparis/videos🔗