—tools/firecrawl.json
Firecrawl
Scraping web optimisé pour les LLMs. Crawl + clean → markdown structuré. La couche RAG du web public.
01—à savoir
Le scraping classique te donne du HTML brut, qui pollue ton LLM avec des balises et de la nav. Firecrawl crawl un site, supprime tout ce qui est noise (pubs, nav, footer), et te sort du markdown propre prêt à embedder. Utilisé pour construire des RAGs sur de la doc publique, scraper de la veille, alimenter des agents qui doivent lire le web. SDK Python + TS, intégration native LangChain.
02—pros
- Output markdown propre (vs HTML brut du scraping classique)
- Crawl récursif intelligent (respecte robots.txt, suit liens internes)
- JS rendering inclus pour les SPA
- API simple : 1 endpoint, output structuré
- Free tier 500 crédits suffit pour POC
03—cons
- Pricing à l'opération devient cher sur volume (>10K pages/mois)
- Stealth mode moins poussé que Browserbase (sites anti-bot peuvent bloquer)
- Nouveau (2024), écosystème encore en expansion
—alternatives
—paire bien avec
- LangChainLe framework Python/JS qui a popularisé les chaînes LLM et les agents. Toujours pertinent en 2026 pour les workflows complexes.
- Anthropic APIL'API derrière Claude. Modèles Sonnet/Opus/Haiku, prompt caching, tool use, files, agents managés.
- OpenAI APIL'API GPT-5/4o/o3. Référence concurrente d'Anthropic, ecosystème historique, image gen + voice + audio natifs.
// à explorer ensuite
À explorer ensuite
Suggestions calculées sémantiquement — proches de ce que tu lis, pas seulement par catégorie.
- outil
Playwright
Le standard 2026 pour le scraping et les tests E2E. API moderne, anti-bot solide, multi-browser.
- outil
Exa
Search engine pensé pour les LLMs. Embeddings sémantiques au lieu du keyword matching, content extraction native.
- outil
Browserbase
Browser automation cloud pour les agents IA. Headless Chrome scalable + stealth, anti-bot bypass natif.
- outil
LangChain
Le framework Python/JS qui a popularisé les chaînes LLM et les agents. Toujours pertinent en 2026 pour les workflows complexes.