<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>#DataAutomation | datacraft</title>
	<atom:link href="https://datacraft.paris/tag/dataautomation/feed/" rel="self" type="application/rss+xml" />
	<link>https://datacraft.paris</link>
	<description>Club dedicated to data scientists and their company</description>
	<lastBuildDate>Mon, 20 Apr 2026 08:47:42 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.8.5</generator>

<image>
	<url>https://datacraft.paris/wp-content/uploads/2020/07/favicon.png</url>
	<title>#DataAutomation | datacraft</title>
	<link>https://datacraft.paris</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Atelier Model Thinking: configurer un LLM pour le traitement de mails KYC</title>
		<link>https://datacraft.paris/event/atelier-model-thinking-configurer-un-llm-pour-le-traitement-de-mails-kyc/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=atelier-model-thinking-configurer-un-llm-pour-le-traitement-de-mails-kyc</link>
		
		<dc:creator><![CDATA[datacraft]]></dc:creator>
		<pubDate>Fri, 26 Jun 2026 07:00:00 +0000</pubDate>
				<category><![CDATA[#DataAutomation]]></category>
		<category><![CDATA[#DataPipeline]]></category>
		<category><![CDATA[#LLM]]></category>
		<category><![CDATA[#ModelThinking]]></category>
		<guid isPermaLink="false">https://datacraft.paris/event/atelier-model-thinking-configurer-un-llm-pour-le-traitement-de-mails-kyc/</guid>

					<description><![CDATA[Hugo Penichou, CTO et Cofondateur de SkyDot, startup spécialisée dans le traitement des dossiers KYC]]></description>
										<content:encoded><![CDATA[<h5 style="text-align: center;"><a href="https://luma.com/atelier-model-thinking-configurer-un-llm-pour-le-t"><br />
<strong><span style="color: #008000;">S&#8217;inscrire à l&#8217;événement</span></strong><br />
</a></h5>
<p>Hugo Penichou, CTO et Cofondateur de SkyDot, startup spécialisée dans le traitement des dossiers KYC</p>
<p>A l’occasion de cet atelier co-animé avec la startup <a href="https://www.skydot4corp.com/">SkyDot</a>, les participants seront invités à se confronter à un défi concret de configuration d’agent issu du terrain.<br />
A partir d’un dataset synthétique reconstruit sur la base d’emails <strong>KYC</strong> réels, l’objectif sera de construire une bibliothèque de skills / prompts robustes permettant l’<strong>extraction structurée d’informations clées au traitement des KYC via l’usage de LLM sans fine tuning</strong>. L’atelier ira ainsi au-delà du prompt engineering, pour s’approcher du <strong>model thinking</strong> avec plusieurs étapes de traitement (extraction, structuration, validation).</p>
<p>L’atelier combinera <strong>retour d’expérience industrielle</strong> et approche méthodologique. SkyDot présentera la problématique métier et les approches déjà testées. Les participants seront ensuite invités à explorer plusieurs stratégies de conception de prompts, en expérimentant différentes formulations, structures d’instructions et mécanismes de contrôle de sortie. Le but visé sera d’identifier les entités concernées dans un email KYC, puis standardiser les demandes sous forme de fichiers JSON (confirmations, liste de documents, questionnaires).</p>
<p>L’atelier mettra l’accent sur une <strong>démarche itérative</strong> : prototypage rapide, test sur des exemples, analyse des erreurs et amélioration continue. Une attention particulière sera portée à la généricité et à la maintenabilité des solutions proposées, dans une logique de passage à l’échelle.</p>
<p>En fin de session, un temps de restitution collective permettra de comparer les approches, d’identifier les bonnes pratiques émergentes et de discuter des limites actuelles des LLM dans ce type de cas d’usage, ouvrant la voie à des pistes d’amélioration et d’industrialisation.</p>
<h5 style="text-align: center;"><a href="https://luma.com/atelier-model-thinking-configurer-un-llm-pour-le-t"><br />
<strong><span style="color: #008000;">S&#8217;inscrire à l&#8217;événement</span></strong><br />
</a></h5>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Neurons &#038; Peppers #4 : VLM &#038; PDF</title>
		<link>https://datacraft.paris/event/neurons-peppers-4-vlm-pdf/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=neurons-peppers-4-vlm-pdf</link>
		
		<dc:creator><![CDATA[datacraft]]></dc:creator>
		<pubDate>Tue, 26 May 2026 16:00:00 +0000</pubDate>
				<category><![CDATA[#ComputerVision]]></category>
		<category><![CDATA[#DataAutomation]]></category>
		<category><![CDATA[#GenAI]]></category>
		<category><![CDATA[#TrainingData]]></category>
		<category><![CDATA[#VLM]]></category>
		<guid isPermaLink="false">https://datacraft.paris/event/neurons-peppers-4-vlm-pdf/</guid>

					<description><![CDATA[B. Rigal (Data scientist @ Probayes), R. Le Hy (NLP Chief Scientist @ Probayes) et N. Mery (Data Scientist @ Openvalue)]]></description>
										<content:encoded><![CDATA[<h5 style="text-align: center;"><a href="https://luma.com/neurons-peppers-4-vlm-pdf"><br />
<strong><span style="color: #008000;">S&#8217;inscrire à l&#8217;événement</span></strong><br />
</a></h5>
<p>Pour cette 4ème édition nous invitons le Lab Pulsia du groupe La Poste à présenter leur benchmark de modèles de vision pour l’analyse de documents ainsi que leur librairie open-source <strong><em>vlmparse</em></strong> dédiée à la conversion et à l’évaluation de PDF via des VLM.</p>
<p>Présentations par Bruno Rigal (Data scientist chez Probayes), Ronan Le Hy (NLP Chief Scientist chez Probayes) et Nicolas Mery (Data Scientist chez Openvalue)</p>
<p><strong>Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion</strong><br />
Les grands modèles de vision savent désormais lire vos PDF mieux que jamais — mais sait-on encore les évaluer correctement ? Dans cette présentation, nous verrons comment nous avons construit un benchmark de documents français difficile même pour les meilleurs modèles et pourquoi les métriques classiques comme la distance d&#8217;édition deviennent trompeuses quand les modèles dépassent un niveau. Nous présenterons une approche par tests unitaires ciblés, une comparaison de 15 modèles propriétaires et déployables localement démontrant les progrès et les limites persistantes des meilleurs modèles actuels.<br />
article disponible sur:<br />
<a href="https://arxiv.org/abs/2602.11960">https://arxiv.org/abs/2602.11960</a><br />
dataset disponible sur:<br />
<a href="https://huggingface.co/datasets/pulsia/fr-bench-pdf2md">https://huggingface.co/datasets/pulsia/fr-bench-pdf2md</a></p>
<p><strong><em>​vlmparse</em>: A unified wrapper for Vision Language Models (VLM) and OCR solutions to parse PDF documents into Markdown.</strong><br />
Convertir des PDF en Markdown avec un VLM, c&#8217;est simple — jusqu&#8217;à ce qu&#8217;on veuille tester dix modèles différents, gérer des serveurs Docker locaux, paralléliser les appels et visualiser les résultats. C&#8217;est exactement pour éviter ce travail répétitif que nous avons développé <strong>vlmparse</strong> : une librairie Python unifiée qui expose la même interface pour des modèles aussi différents que Gemini, GPT, LightOnOCR ou MinerU, avec déploiement automatique des serveurs locaux, traitement concurrent haute performance, format de sortie unifié et un outil de visualisation Streamlit intégré. Dans cette présentation, nous verrons comment l&#8217;outil est structuré et comment vous pouvez l&#8217;intégrer en quelques lignes dans vos propres pipelines documentaires.<br />
bibliothèque disponible sur:<br />
<a href="https://github.com/ld-lab-pulsia/vlmparse">https://github.com/ld-lab-pulsia/vlmparse</a></p>
<h5 style="text-align: center;"><a href="https://luma.com/neurons-peppers-4-vlm-pdf"><br />
<strong><span style="color: #008000;">S&#8217;inscrire à l&#8217;événement</span></strong><br />
</a></h5>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>MEET UP &#8211; Progresser grâce aux données : Retour d&#8217;expériences en science des données et en consultation scientifique</title>
		<link>https://datacraft.paris/event/meet-up-progresser-grace-aux-donnees-retour-dexperiences-en-science-des-donnees-et-en-consultation-scientifique/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=meet-up-progresser-grace-aux-donnees-retour-dexperiences-en-science-des-donnees-et-en-consultation-scientifique</link>
		
		<dc:creator><![CDATA[datacraft]]></dc:creator>
		<pubDate>Thu, 19 Oct 2023 17:00:00 +0000</pubDate>
				<category><![CDATA[#DataAutomation]]></category>
		<category><![CDATA[#OpenData]]></category>
		<category><![CDATA[#OpenSource]]></category>
		<category><![CDATA[#R]]></category>
		<category><![CDATA[#RLadies]]></category>
		<category><![CDATA[#RStats]]></category>
		<guid isPermaLink="false">https://datacraft.paris/?post_type=tribe_events&#038;p=9120</guid>

					<description><![CDATA[atelier animé par Kim Antunez et Anna Doizy, R-ladies ]]></description>
										<content:encoded><![CDATA[<div class="et_pb_section et_pb_section_0 et_section_regular" >
				
				
				
				
				
				
				<div class="et_pb_row et_pb_row_0">
				<div class="et_pb_column et_pb_column_4_4 et_pb_column_0  et_pb_css_mix_blend_mode_passthrough et-last-child">
				
				
				
				
				<div class="et_pb_module et_pb_code et_pb_code_0">
				
				
				
				
				
			</div><div class="et_pb_module et_pb_text et_pb_text_0  et_pb_text_align_left et_pb_bg_layout_light">
				
				
				
				
				<div class="et_pb_text_inner"><p style="text-align: left;" data-key="96"><em>datacraft accueil le meet-up R-ladies Paris !</em></p>
<p data-key="96"><strong>Lien d&#8217;inscription<br /></strong><a href="https://us06web.zoom.us/meeting/register/tZwscuCppjwrHNMCmyEXSxBF6rqDJ2Wn8z_Z">https://us06web.zoom.us/meeting/register/tZwscuCppjwrHNMCmyEXSxBF6rqDJ2Wn8z_Z</a></p>
<p data-key="96"><span data-key="97"><strong data-slate-leaf="true">Intervenants</strong></span></p>
<p data-key="98"><span data-key="99">Cet atelier sera animé par :</span></p>
<ul>
<li><a href="https://www.linkedin.com/in/kantunez/">Kim Antunez</a>, Statisticienne publique chez INSEE</li>
<li><a href="https://www.linkedin.com/in/anna-doizy/">Anna Doizy</a>, Chercheuse, Consultante et Formatrice en méthodologie expérimentale et analyses de données avec R</li>
</ul>
<p>&nbsp;</p>
<p data-key="104"><span data-key="105"><strong data-slate-leaf="true">Présentation de l&#8217;atelier</strong></span></p>
<p data-key="104">Nous avons le plaisir de vous convier à notre prochain événement.<br />R-Ladies Paris est une communauté d&#8217;utilisateurs du langage de programmation à Paris, faisant partie intégrante de R-Ladies Global, une initiative mondiale qui œuvre en faveur de l&#8217;égalité des genres au sein de la communauté des utilisateurs de R.</p>
<p>Notre objectif principal consiste à soutenir et à accompagner les utilisateurs de R qui sont sous-représentés, tout en encouragant l&#8217;apprentissage et la collaboration au sein de notre réseau. Nous accueillons chaleureusement toute personne, que vous soyez experte ou novice en programmation avec R. Vous êtes cordialement invités à vous joindre à nous ! N&#8217;hésitez pas à rejoindre notre groupe sur Meetup pour être informés de nos prochaines activités : 🔗 <a href="https://www.meetup.com/fr-FR/rladies-paris/">https://www.meetup.com/fr-FR/rladies-paris/</a> Nous sommes également ouvertes à toute nouvelle collaboration. N&#8217;hésitez pas à nous contacter à l&#8217;adresse suivante : paris@rladies.org</p>
<p>Vous trouverez plus de détails sur nos intervenantes et leurs présentations ci-dessous.</p>
<p><strong>Biographie </strong><br />Kim Antunez est statisticienne publique. Investie depuis 8 ans dans le logiciel R et sa communauté, elle s&#8217;intéresse en particulier à l&#8217;analyse spatiale, à la datavisualisation et plus largement aux méthodes quantitatives appliquées aux sciences sociales. Convaincue par l’open-data, l’open-source, et l&#8217;automatisation de processus statistiques utiles à différents types d&#8217;acteurs, elle a réalisé des projets en ce sens, tant professionnels que personnels.</p>
<p><strong>Titre de la première intervention : <em>« </em></strong><strong><em>Mon roman d’appRentissage »</em><br /></strong><strong>Description de l’intervention :</strong></p>
<p>« Le roman d&#8217;apprentissage, ou initiatique, est un genre littéraire ayant pour thème le cheminement d&#8217;un héros, souvent jeune, qui atteint progressivement l&#8217;idéal de l&#8217;humain accompli, faisant l&#8217;expérience des grands événements de l&#8217;existence : l&#8217;amour, l&#8217;altérité, la frustration, etc.</p>
<p>L’histoire que je vais vous conter est la mienne : les huit années passées à me former progressivement à la science des données : l’amour de R, son altérité = sa communauté, la frustration de ne pas voir tout le monde s’émerveiller face à l’évolution des logiciels statistiques, pourtant si excitante.</p>
<p>Je vous décrirai les déclics issus de mes projets professionnels et personnels, et comment ils ont fait évoluer le regard que j’ai sur mon métier et ses outils :<br />&#8211; des packages… autour du lissage spatial et de l&#8217;évolution de la géographie communale.<br />&#8211; des formations…. à l’analyse spatiale, à la cartographie, d’introduction à R.<br />&#8211; des applications shiny… de visualisation de données d’enquêtes, de simulations de parties de mastermind, d’invitation à un mariage.<br />&#8211; et, avant tout, des rencontres ! Hâte de faire la vôtre le 19 octobre prochain ! »</p>
<p><strong>Biographie </strong><br />Passionnée par la science, la biologie et l’environnement, Anna Doizy s&#8217;est prise d’amour en 2017 pour un caillou au milieu de l’Océan Indien, La Réunion.<br />Depuis, elle est chercheuse, consultante et formatrice en méthodologie expérimentale et analyses de données avec R.<br />En 2020, elle crée son <a href="https://doana-r.com/">entreprise</a>, est indépendante et adore ça !<br />Elle travaille principalement avec des chercheurs en biologie et agronomie et commence à ouvrir ses horizons vers d&#8217;autres champs de recherche.</p>
<p><strong>Titre de la deuxième intervention :</strong> <em><strong>« Freelance et R-lady : un duo gagnant pour la démarche expérimentale »<br /></strong></em><strong>Description de l’intervention</strong><em><strong><br /></strong></em></p>
<p>« Dans cette présentation, je partagerai mes projets scientifiques et mon expérience en tant qu&#8217;indépendante depuis 3 ans et demi. Je raconterai comment j&#8217;ai changé de posture en passant de &#8220;biostatisticienne&#8221; à &#8220;consultante scientifique&#8221;.<br />Je discuterai en particulier des défis que j&#8217;ai rencontrés pour structurer mon entreprise et aider les chercheurs à améliorer leur démarche expérimentale. »</p>
<p>Nous vous attendons nombreux ! Si vous souhaitez revoir nos précédents meetups, les replays sont disponibles sur notre chaine YouTube 📺https://www.youtube.com/@rladiesparis/videos🔗</p></div>
			</div>
			</div>
				
				
				
				
			</div>
				
				
			</div>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
