MINDSHAKETIME : Scraping 2.0 - Cas d'usage dans l'immobilier

Présentation des intervenants

Introduction

Comment obtenir d'une IA qu’elle comprenne les informations sur un site web aussi bien qu’un humain ? Ce problème n’a pas encore trouvé de solution générique, alors qu’il est estimé que la moitié du trafic internet est effectué par des robots. Des solutions existent néanmoins d'un point de vue sectoriel. Benoît Galy, fondateur de l’aggrégateur immobilier Vizzit partage son expérience accumulée pendant 4 ans pour développer la technologie sous jacente à l’aggrégateur Vizzit : le VizzitBot. Puis Eric Fenaux, consultant data-science présentera les nouveaux outils à base de graphe neural networks et de transformers envisagés pour la version 2 du scrapper Vizzit.

/!\ Pour des raisons de confidentialité, la présentation de Benoit Galy a été coupée et ses slides ne sont pas disponibles. datacraft accorde beaucoup d'importance à la liberté de parole et à la confidentialité de ce qui est révélé durant les ateliers, et s'engage à ce qu'aucunes données sensibles ne soient dévoilées. Pour avoir accès aux informations les plus "croustillantes", n'hésitez pas à venir participer ! :) /!\

Traditionnellement, le scrapping d’un site se fait en annotant manuellement la localisation dans le HTML des informations d’intérêts (photos, prix, surface, etc…). Cette technique n’est pas scalable sur un grand nombre de sites, et nécessite une mise à jour manuelle à chaque changement d'un site. Vizzit a développé une approche entièrement non supervisée du problème qui donne de bons résultats, mais celle-ci s'appuie sur un fort feature engineering et voit sa complexité exploser pour arriver à 100% de qualité.

La présentation à laquelle vous avez accès se concentre sur WebFormer, une solution innovante pour le scraping web, utilisant la technologie des transformers. La mission principale de WebFormer est de scraper efficacement les sites web d'agences immobilières pour centraliser les informations des biens immobiliers sur un seul site. Cette méthode utilise des modèles de transformers pour traiter et extraire des données structurées à partir de sites immobiliers, avec une attention particulière à la précision et à la performance.

Points clés abordés

  • Utilisation des Transformers : WebFormer intègre des transformers pour analyser le texte et le code HTML, permettant une extraction précise des données.
  • Spécificités du Scraping Immobilier : Le système est conçu pour gérer les particularités de chaque site immobilier, en évitant des erreurs communes comme la confusion des types de surfaces.
  • Traitement des Données : Le processus implique l'identification et la liaison des éléments HTML avec les informations correspondantes à travers divers types d'attentions.
  • Structure et Profondeur du Réseau : WebFormer repose sur un réseau complexe de couches d'attention, nécessitant une structure profonde pour une efficacité optimale.
  • Gestion de la Dimensionnalité : La présentation aborde la dimensionnalité variable des pages web et l'importance de l'encodage positionnel.
  • Défis et Limites : Discussions autour des défis liés à l'implémentation de WebFormer, y compris les aspects légaux et la gestion des données inexactes ou frauduleuses.
  • Comparaisons et Performances : WebFormer est comparé à d'autres technologies de scraping, avec des benchmarks pour illustrer son efficacité.

Vous pouvez retrouver les slides de l'atelier sur notre drive et regarder la vidéo de la présentation sur notre chaîne youtube. 

Si notre atelier vous intéresse, n’hésitez pas à regarder nos prochains événements sur notre agenda !

Share