Gérer vos sources et le cycle d'indexation
Suivre les statuts, ré-indexer, corriger les erreurs, comprendre le crawl automatique.
Dernière mise à jour :
Les trois statuts possibles
Dans l’onglet Connaissance, chaque source affiche un statut :
- ✅ Indexé — tout va bien, la source est exploitable par le bot.
- ⏳ En cours — Sens-AI est en train de lire, découper et embarquer le contenu. Patientez quelques minutes.
- ❌ Erreur — quelque chose a mal tourné. Voir la section « Quand ça rate » plus bas.
Le statut est rafraîchi automatiquement — pas besoin de rafraîchir la page.
Ré-indexer une source
Vos contenus évoluent. Votre bot ne le sait pas automatiquement. Il faut ré-indexer les sources régulièrement.
Ré-indexation manuelle
- Dans la liste des sources, cliquez sur Ré-indexer à côté de la source.
- Le statut passe à En cours.
- Quand c’est fini (30 secondes à 3 minutes), le statut repasse à Indexé avec la nouvelle date.
L’ancienne version est remplacée automatiquement. Vos règles FAQ manuelles, elles, ne sont pas touchées.
Ré-indexation automatique
Pour les sources de type URL ou Site complet, vous pouvez activer une ré-indexation programmée :
- Cliquez sur la source → Paramètres.
- Ré-indexation automatique → choisissez une fréquence :
- Désactivée (par défaut).
- Quotidienne (pour les sites qui changent souvent : e-commerce, catalogue produits).
- Hebdomadaire (pour la plupart des sites).
- Mensuelle (pour des sites statiques).
La tâche tourne de nuit (entre 2h et 5h du matin, heure de Paris) pour ne pas gêner votre site.
Note : la ré-indexation automatique n’est pas disponible pour les fichiers uploadés — logique, un PDF ne se met pas à jour tout seul.
Quand ré-indexer manuellement
- Dès que vous modifiez une page de votre site qui est indexée.
- Après une refonte complète de votre site.
- Quand un client vous signale que le bot donne une info obsolète.
- Avant chaque changement important (mise à jour tarifaire, nouveaux horaires).
Voir ce qu’a lu le bot
Cliquez sur une source → bouton Voir le contenu. Une fenêtre s’ouvre avec :
- Le texte complet extrait.
- Le découpage en passages (« chunks »).
- Les métadonnées détectées (titre, section, URL source).
Pourquoi regarder ça ? Deux raisons :
- Vérifier que le nettoyage est bon — parfois Sens-AI laisse traîner des bouts de menu, des cookies banners, ou des pieds de page. Si vous voyez ça, c’est qu’il faut ajuster (nous contacter si c’est gênant).
- Comprendre pourquoi le bot répond mal — si vous posez une question à laquelle le bot ne sait pas répondre alors que vous pensiez que l’info était sur votre site, regardez le contenu extrait. Peut-être que cette info était dans une image, dans un tableau mal lu, ou tout simplement absente.
Explorer un site complet (crawl)
Plutôt que d’ajouter vos pages une par une, vous pouvez demander à Sens-AI d’explorer tout votre site à partir de l’accueil.
Comment ça marche
Sens-AI part de la page d’accueil. Il trouve tous les liens internes (vers d’autres pages de votre site). Il suit chacun, trouve d’autres liens, les suit aussi, jusqu’à atteindre la limite que vous avez fixée.
Lancer un crawl
- Connaissance → Ajouter une source → Site entier.
- Entrez l’URL racine (ex. :
https://www.ma-boulangerie.fr). - Fixez le nombre maximum de pages à indexer.
- Cliquez sur Découvrir et indexer.
Ce qui est exclu automatiquement
Sens-AI ignore les URLs « techniques » pour ne pas saturer votre base :
- Les URLs de connexion / inscription (
/login,/signup, etc.). - Les paniers / checkouts (
/cart,/checkout). - Les URLs avec
?(paramètres de recherche, filtres). - Les liens vers des fichiers non textuels (images, vidéos, ZIP).
- Les liens vers d’autres sites (domaines externes).
Combien de pages choisir ?
- 20 pages pour un site vitrine classique (accueil, à propos, services, contact, blog récent).
- 50-100 pages pour un site avec un catalogue ou un blog actif.
- 200+ pages : on vous recommande d’y aller en plusieurs fois, de vérifier la qualité, et d’ajuster.
Astuce : commencez avec 20 pages. Regardez ce qui a été indexé. Si c’est bon, augmentez à 50. Sinon, ajustez manuellement avant d’aller plus loin.
Suivre la progression
Pendant le crawl :
- La source apparaît avec un statut En cours et un compteur (« 12 / 50 pages »).
- Vous pouvez naviguer ailleurs dans Sens-AI sans interrompre le processus.
- Si le crawl atteint votre limite ou arrive au bout des pages trouvables, il passe en Indexé.
Quand ça rate
Erreur « Site inaccessible »
Sens-AI n’a pas réussi à se connecter à l’URL. Causes possibles :
- URL mal orthographiée → vérifiez et corrigez.
- Site temporairement hors ligne → réessayez plus tard.
- Site derrière un pare-feu / un accès restreint → Sens-AI ne peut pas lire un contenu qui nécessite une connexion. Si votre contenu est privé, uploadez plutôt un export PDF.
Erreur « Contenu vide ou trop court »
Le site a répondu mais Sens-AI n’a pas trouvé assez de texte. Typiquement :
- Site en JavaScript lourd (app React / Vue / Angular mal rendu côté serveur). Sens-AI lit le HTML de base et ne voit pas le contenu dynamique. Solution : exporter les pages clés en HTML statique, ou contactez-nous pour un accompagnement.
- Page avec beaucoup d’images, peu de texte. Rien à faire côté Sens-AI — c’est que la page est effectivement pauvre en contenu textuel.
Erreur « Fichier PDF illisible »
- PDF scanné sans OCR → passez-le dans un outil d’OCR avant de téléverser.
- PDF corrompu → ouvrez-le, sauvegardez-le à nouveau, ré-téléversez.
- PDF protégé par mot de passe → retirez le mot de passe avant l’upload.
Erreur « Quota dépassé »
Votre plan limite le nombre de pages ou de fichiers. Deux options :
- Supprimer des sources existantes pour faire de la place.
- Passer à un plan supérieur (Facturation).
Voir aussi : Ingestion bloquée — que faire.
Étape suivante
Équiper votre bot d’outils pour faire des choses (pas juste répondre) : Comprendre les actions.