Présentation des intervenants
Introduction
Comment obtenir d'une IA qu’elle comprenne les informations sur un site web aussi bien qu’un humain ? Ce problème n’a pas encore trouvé de solution générique, alors qu’il est estimé que la moitié du trafic internet est effectué par des robots. Des solutions existent néanmoins d'un point de vue sectoriel. Benoît Galy, fondateur de l’aggrégateur immobilier Vizzit partage son expérience accumulée pendant 4 ans pour développer la technologie sous jacente à l’aggrégateur Vizzit : le VizzitBot. Puis Eric Fenaux, consultant data-science présentera les nouveaux outils à base de graphe neural networks et de transformers envisagés pour la version 2 du scrapper Vizzit.
/!\ Pour des raisons de confidentialité, la présentation de Benoit Galy a été coupée et ses slides ne sont pas disponibles. datacraft accorde beaucoup d'importance à la liberté de parole et à la confidentialité de ce qui est révélé durant les ateliers, et s'engage à ce qu'aucunes données sensibles ne soient dévoilées. Pour avoir accès aux informations les plus "croustillantes", n'hésitez pas à venir participer ! :) /!\
Traditionnellement, le scrapping d’un site se fait en annotant manuellement la localisation dans le HTML des informations d’intérêts (photos, prix, surface, etc…). Cette technique n’est pas scalable sur un grand nombre de sites, et nécessite une mise à jour manuelle à chaque changement d'un site. Vizzit a développé une approche entièrement non supervisée du problème qui donne de bons résultats, mais celle-ci s'appuie sur un fort feature engineering et voit sa complexité exploser pour arriver à 100% de qualité.
La présentation à laquelle vous avez accès se concentre sur WebFormer, une solution innovante pour le scraping web, utilisant la technologie des transformers. La mission principale de WebFormer est de scraper efficacement les sites web d'agences immobilières pour centraliser les informations des biens immobiliers sur un seul site. Cette méthode utilise des modèles de transformers pour traiter et extraire des données structurées à partir de sites immobiliers, avec une attention particulière à la précision et à la performance.
Points clés abordés
Vous pouvez retrouver les slides de l'atelier sur notre drive et regarder la vidéo de la présentation sur notre chaîne youtube.
Si notre atelier vous intéresse, n’hésitez pas à regarder nos prochains événements sur notre agenda !