Les scrapers traditionnels cassent au moindre changement de mise en page. Découvrez comment l'IA permet d'extraire des données de manière flexible.
Le web est la plus grande base de données du monde. Que ce soit pour de la veille concurrentielle, de l'analyse immobilière ou du recrutement, récupérer des données ciblées (web scraping) est un atout majeur. Mais les développeurs connaissent bien le problème : un scraper codé avec des sélecteurs CSS rigides (XPath, classes div) casse dès que le site cible modifie sa charte graphique d'un pixel. L'introduction de l'IA résout cette fragilité historique.
Traditionnellement, pour récupérer le prix d'un article sur un site e-commerce, on écrit un script qui cible précisément la classe CSS du prix (ex: div.price-tag-large). Le jour où le site passe à TailwindCSS et renomme sa classe en text-red-500 font-bold, le script ne trouve plus rien et renvoie une erreur ou, pire, une valeur nulle sans alerter. La maintenance de ces robots est un gouffre financier pour les équipes de données.
L'approche moderne consiste à combiner un scraper simple qui récupère le code HTML brut de la page avec un modèle de langage (LLM) chargé d'en extraire le sens. Au lieu de dire à la machine "récupère le texte dans le troisième div", on lui dit "identifie le prix du produit dans ce code HTML brut et retourne-le sous forme de nombre".
Comme le modèle comprend la structure sémantique de la page (le contexte, les balises de tableau, les symboles monétaires), il est capable de repérer l'information même si les classes CSS changent ou si le design est complètement réorganisé.
Passer tout le code HTML d'une page dans GPT-4 ou Claude pour chaque requête coûte cher en jetons (tokens). L'astuce technique consiste à utiliser un outil de nettoyage de HTML (comme Markdown-it ou Readability.js) pour supprimer tout le bruit (styles, scripts, headers de navigation) avant d'envoyer le squelette textuel au modèle.
Scraper robuste signifie aussi respecter les plateformes cibles. Utilisez des délais aléatoires entre vos requêtes, respectez le fichier robots.txt public, et n'interrogez pas des données personnelles protégées ou privées. Si un pare-feu comme Cloudflare bloque vos requêtes, des proxys rotatifs résidentiels restent indispensables pour simuler des connexions humaines réelles.
Grâce aux LLMs, le web scraping passe d'un artisanat fragile à une discipline d'ingénierie fiable. Vos flux de données ne casseront plus au moindre changement de bouton de vos concurrents.
Experts en acquisition digitale et stratégie média.