BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//datacraft - ECPv6.17.1//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALNAME:datacraft
X-ORIGINAL-URL:https://datacraft.paris
X-WR-CALDESC:Events for datacraft
REFRESH-INTERVAL;VALUE=DURATION:PT1H
X-Robots-Tag:noindex
X-PUBLISHED-TTL:PT1H
BEGIN:VTIMEZONE
TZID:Europe/Paris
BEGIN:DAYLIGHT
TZOFFSETFROM:+0100
TZOFFSETTO:+0200
TZNAME:CEST
DTSTART:20250330T010000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:+0200
TZOFFSETTO:+0100
TZNAME:CET
DTSTART:20251026T010000
END:STANDARD
BEGIN:DAYLIGHT
TZOFFSETFROM:+0100
TZOFFSETTO:+0200
TZNAME:CEST
DTSTART:20260329T010000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:+0200
TZOFFSETTO:+0100
TZNAME:CET
DTSTART:20261025T010000
END:STANDARD
BEGIN:DAYLIGHT
TZOFFSETFROM:+0100
TZOFFSETTO:+0200
TZNAME:CEST
DTSTART:20270328T010000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:+0200
TZOFFSETTO:+0100
TZNAME:CET
DTSTART:20271031T010000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=Europe/Paris:20260526T180000
DTEND;TZID=Europe/Paris:20260526T200000
DTSTAMP:20260402T134740Z
CREATED:20260402T134040Z
LAST-MODIFIED:20260402T134740Z
UID:18816-1779818400-1779825600@datacraft.paris
SUMMARY:Neurons & Peppers #4 : VLM & PDF
DESCRIPTION:S’inscrire à l’événement\n\nPour cette 4ème édition nous invitons le Lab Pulsia du groupe La Poste à présenter leur benchmark de modèles de vision pour l’analyse de documents ainsi que leur librairie open-source vlmparse dédiée à la conversion et à l’évaluation de PDF via des VLM. \nPrésentations par Bruno Rigal (Data scientist chez Probayes)\, Ronan Le Hy (NLP Chief Scientist chez Probayes) et Nicolas Mery (Data Scientist chez Openvalue) \nBenchmarking Vision-Language Models for French PDF-to-Markdown Conversion\nLes grands modèles de vision savent désormais lire vos PDF mieux que jamais — mais sait-on encore les évaluer correctement ? Dans cette présentation\, nous verrons comment nous avons construit un benchmark de documents français difficile même pour les meilleurs modèles et pourquoi les métriques classiques comme la distance d’édition deviennent trompeuses quand les modèles dépassent un niveau. Nous présenterons une approche par tests unitaires ciblés\, une comparaison de 15 modèles propriétaires et déployables localement démontrant les progrès et les limites persistantes des meilleurs modèles actuels.\narticle disponible sur:\nhttps://arxiv.org/abs/2602.11960\ndataset disponible sur:\nhttps://huggingface.co/datasets/pulsia/fr-bench-pdf2md \n​vlmparse: A unified wrapper for Vision Language Models (VLM) and OCR solutions to parse PDF documents into Markdown.\nConvertir des PDF en Markdown avec un VLM\, c’est simple — jusqu’à ce qu’on veuille tester dix modèles différents\, gérer des serveurs Docker locaux\, paralléliser les appels et visualiser les résultats. C’est exactement pour éviter ce travail répétitif que nous avons développé vlmparse : une librairie Python unifiée qui expose la même interface pour des modèles aussi différents que Gemini\, GPT\, LightOnOCR ou MinerU\, avec déploiement automatique des serveurs locaux\, traitement concurrent haute performance\, format de sortie unifié et un outil de visualisation Streamlit intégré. Dans cette présentation\, nous verrons comment l’outil est structuré et comment vous pouvez l’intégrer en quelques lignes dans vos propres pipelines documentaires.\nbibliothèque disponible sur:\nhttps://github.com/ld-lab-pulsia/vlmparse \n\nS’inscrire à l’événement
URL:https://datacraft.paris/event/neurons-peppers-4-vlm-pdf/
LOCATION:Le Village By CA –\, 55 rue la Boétie\, 75008 Paris\, 75008\, France
CATEGORIES:in French,on-site event
END:VEVENT
END:VCALENDAR