Ajouter des sources
Alimentez votre chatbot avec des pages web, des fichiers PDF, DOCX ou TXT pour qu'il réponde à vos questions.
Dernière mise à jour :
Types de sources
Sens-AI supporte deux types de sources pour alimenter la base de connaissances de votre bot :
Pages web (URL)
Ajoutez l’URL d’une page web et Sens-AI en extraira automatiquement le contenu textuel. Le système utilise un scraper intelligent qui :
- Extrait le contenu principal (ignore menus, footers, publicités)
- Convertit le HTML en texte structuré
- Découpe le contenu en segments pour une recherche optimale
Fichiers
Uploadez directement des fichiers depuis votre ordinateur :
- PDF : rapports, brochures, documentation technique
- DOCX : documents Word
- TXT : fichiers texte brut
- CSV : données tabulaires
Taille maximale : 512 Ko par fichier.
Ajouter une URL
- Dans la configuration de votre bot, allez dans l’onglet Sources
- Collez l’URL dans le champ de saisie
- Cliquez sur Ajouter
- Le scraping et l’indexation démarrent automatiquement
Découvrir et crawler un site
Pour indexer un site entier, utilisez la fonction Découvrir les URLs :
- Entrez l’URL de base du site (ex :
https://example.com) - Cliquez sur Découvrir
- Sens-AI analysera le sitemap et les liens internes (jusqu’à 100 pages)
- Sélectionnez les pages à indexer
- Cliquez sur Ajouter les pages sélectionnées
Note : La découverte est limitée à 100 URLs par crawl via un parcours BFS (Breadth-First Search).
Uploader un fichier
- Dans l’onglet Sources, cliquez sur Uploader un fichier
- Sélectionnez votre fichier (PDF, DOCX, TXT ou CSV)
- Le fichier est stocké de manière sécurisée et indexé automatiquement
Pipeline d’ingestion
Chaque source passe par un pipeline en 3 étapes :
- Extraction : le contenu textuel est extrait (scraping ou parsing de fichier)
- Découpage : le texte est découpé en segments avec chevauchement pour maintenir le contexte
- Vectorisation : chaque segment est transformé en vecteur sémantique et stocké pour la recherche RAG
Le statut de chaque source est visible dans l’onglet Sources : en attente, en cours, indexé ou erreur.
Limites par plan
| Plan | Pages | Fichiers |
|---|---|---|
| Essai gratuit | 10 | 5 |
| Starter | 50 | 10 |
| Professional | 200 | 50 |
| Business | 500 | 200 |
Ré-indexation automatique
Sens-AI ré-indexe automatiquement vos sources web périodiquement pour garder le contenu à jour. Les sources en erreur sont ré-essayées automatiquement.
Étapes suivantes
Vos sources sont indexées ? Installez le widget sur votre site : Installer le widget.