Ingestion bloquée ou échouée
Que faire quand une source reste en « En cours » trop longtemps, ou passe en « Erreur ».
Dernière mise à jour :
Combien de temps c’est normal ?
L’ingestion d’une source prend généralement :
- 15 à 60 secondes pour une page web simple.
- 30 secondes à 3 minutes pour un PDF de quelques pages.
- 2 à 10 minutes pour un crawl de site complet de 20-50 pages.
Si une source est en « En cours » depuis plus de 15 minutes, quelque chose cloche.
Diagnostic rapide
Allez sur Connaissance → cliquez sur la source bloquée → Détails. Sens-AI affiche généralement un message d’erreur ou un état d’avancement.
Selon ce que vous voyez :
Cas 1 — Statut « Erreur » avec un message
Bonne nouvelle : Sens-AI vous dit ce qui ne va pas. Voici les messages les plus fréquents.
« Site inaccessible (timeout) »
Sens-AI a essayé de se connecter à votre URL et n’a pas eu de réponse à temps. Causes :
- Le site est temporairement hors-ligne → réessayez dans 1 heure.
- Le site est très lent (gros hébergement saturé) → réessayez à un horaire creux (la nuit).
- Pare-feu côté votre site qui bloque les requêtes automatisées → demandez à votre hébergeur d’autoriser les requêtes depuis Cloudflare (Sens-AI passe par leur infrastructure).
« Contenu vide ou trop court »
Le site a répondu, mais Sens-AI n’a pas trouvé assez de texte exploitable.
- Votre site est en JavaScript lourd (single-page app type React/Vue/Angular) — Sens-AI lit la version statique HTML qui ne contient pas grand-chose. Solution : faire générer une version statique de la page (avec Next.js, Nuxt, ou un service de pré-rendu), ou exporter les pages clés en HTML/PDF et les uploader.
- La page est presque vide (uniquement des images, peu de texte) — c’est juste une page peu informative. Indexez plutôt les pages riches en contenu.
« Format non supporté »
Pour un fichier uploadé. Causes :
- Vous avez tenté d’uploader un format non géré (ex. :
.pagesApple,.odtLibreOffice,.epub). Convertissez en PDF ou en DOCX et réessayez. - Le fichier est corrompu : ouvrez-le dans son application d’origine, sauvegardez-le à nouveau, ré-uploadez.
« Fichier trop volumineux »
Limite : 10 Mo. Si votre fichier dépasse :
- Découpez-le en plusieurs fichiers (chapitres, sections).
- Compressez-le : un PDF peut souvent être réduit de moitié sans perte de qualité (utilisez Adobe Acrobat → « Réduire la taille du fichier », ou un service en ligne comme PDF24).
« Quota dépassé »
Vous avez atteint la limite de votre plan (nombre max de pages indexées ou de fichiers stockés).
Options :
- Supprimez des sources que vous n’utilisez plus.
- Passez à un plan supérieur.
« PDF illisible (pas de texte extractible) »
Votre PDF est probablement un scan : visuellement c’est lisible, mais techniquement c’est une image. Sens-AI ne peut pas lire les images.
Solution : passer le PDF dans un outil d’OCR (reconnaissance optique de caractères) :
- Adobe Acrobat Pro : Outils → Améliorer les numérisations → Reconnaître le texte.
- En ligne gratuit : ocr.space, smallpdf.com, ilovepdf.com.
- macOS Aperçu : récent macOS détecte le texte automatiquement → exporter en PDF.
Une fois passé en OCR, ré-uploadez.
Cas 2 — Statut « En cours » bloqué
La source ne progresse pas et reste en chargement. Possibles causes :
Ingestion oubliée par le système
C’est rare. Solution :
- Cliquez sur Annuler l’ingestion (bouton rouge à côté de la source).
- Attendez 30 secondes.
- Cliquez sur Re-déclencher l’ingestion.
Si ça reste bloqué après une nouvelle tentative, contactez-nous.
File d’attente saturée
Quand beaucoup de tenants importent en même temps (rare, mais arrive en heures de bureau européennes), votre source peut attendre son tour. Patientez 10-15 minutes.
Cas 3 — Indexée mais le bot ne « voit » pas le contenu
Votre source est marquée Indexée mais quand vous posez des questions liées, le bot répond « je ne sais pas ».
Diagnostic
Cliquez sur la source → Voir le contenu. Vérifiez :
- Le texte extrait correspond-il à ce que vous attendiez ?
- Les chunks (passages découpés) ont-ils du sens ?
Si le contenu extrait est bizarre
- Beaucoup de menu et peu de vrai contenu → la page a beaucoup de navigation et peu d’info utile.
- Texte coupé au milieu d’une phrase → le découpage automatique n’a pas réussi à séparer proprement.
Solutions :
- Améliorer la page source (plus de contenu textuel structuré).
- Créer une règle FAQ manuelle pour les questions concernées — ça contourne le problème.
- Utiliser un PDF dédié : créez un PDF clair et structuré avec votre info clé, et indexez-le en remplacement.
Crawl bloqué après quelques pages
Lors de l’exploration d’un site complet, Sens-AI peut s’arrêter prématurément. Causes :
- Robots.txt interdit le crawl → vérifiez le fichier
robots.txtde votre site. Si vous y avez interdit l’accès aux bots, autorisez explicitement Sens-AI (ajoutezUser-agent: SensAIBotpuisAllow: /). - Trop de redirections → certains sites font des chaînes de redirections qui finissent par boucler. Limitez aux URLs déjà connues.
- Limite de votre plan atteinte → voir « Quota dépassé » plus haut.
Si rien ne marche
Écrivez-nous à [email protected] avec :
- L’URL ou le nom du fichier qui pose problème.
- Le statut affiché dans Sens-AI.
- Une capture d’écran des détails de la source.
On investigue dans la journée.
Étape suivante
Pour optimiser ce que le bot retient de vos sources : Créer des règles FAQ manuelles.