Ingestion bloquée ou échouée

Que faire quand une source reste en « En cours » trop longtemps, ou passe en « Erreur ».

Dernière mise à jour :

Combien de temps c’est normal ?

L’ingestion d’une source prend généralement :

  • 15 à 60 secondes pour une page web simple.
  • 30 secondes à 3 minutes pour un PDF de quelques pages.
  • 2 à 10 minutes pour un crawl de site complet de 20-50 pages.

Si une source est en « En cours » depuis plus de 15 minutes, quelque chose cloche.

Diagnostic rapide

Allez sur Connaissance → cliquez sur la source bloquée → Détails. Sens-AI affiche généralement un message d’erreur ou un état d’avancement.

Selon ce que vous voyez :

Cas 1 — Statut « Erreur » avec un message

Bonne nouvelle : Sens-AI vous dit ce qui ne va pas. Voici les messages les plus fréquents.

« Site inaccessible (timeout) »

Sens-AI a essayé de se connecter à votre URL et n’a pas eu de réponse à temps. Causes :

  • Le site est temporairement hors-ligne → réessayez dans 1 heure.
  • Le site est très lent (gros hébergement saturé) → réessayez à un horaire creux (la nuit).
  • Pare-feu côté votre site qui bloque les requêtes automatisées → demandez à votre hébergeur d’autoriser les requêtes depuis Cloudflare (Sens-AI passe par leur infrastructure).

« Contenu vide ou trop court »

Le site a répondu, mais Sens-AI n’a pas trouvé assez de texte exploitable.

  • Votre site est en JavaScript lourd (single-page app type React/Vue/Angular) — Sens-AI lit la version statique HTML qui ne contient pas grand-chose. Solution : faire générer une version statique de la page (avec Next.js, Nuxt, ou un service de pré-rendu), ou exporter les pages clés en HTML/PDF et les uploader.
  • La page est presque vide (uniquement des images, peu de texte) — c’est juste une page peu informative. Indexez plutôt les pages riches en contenu.

« Format non supporté »

Pour un fichier uploadé. Causes :

  • Vous avez tenté d’uploader un format non géré (ex. : .pages Apple, .odt LibreOffice, .epub). Convertissez en PDF ou en DOCX et réessayez.
  • Le fichier est corrompu : ouvrez-le dans son application d’origine, sauvegardez-le à nouveau, ré-uploadez.

« Fichier trop volumineux »

Limite : 10 Mo. Si votre fichier dépasse :

  • Découpez-le en plusieurs fichiers (chapitres, sections).
  • Compressez-le : un PDF peut souvent être réduit de moitié sans perte de qualité (utilisez Adobe Acrobat → « Réduire la taille du fichier », ou un service en ligne comme PDF24).

« Quota dépassé »

Vous avez atteint la limite de votre plan (nombre max de pages indexées ou de fichiers stockés).

Options :

« PDF illisible (pas de texte extractible) »

Votre PDF est probablement un scan : visuellement c’est lisible, mais techniquement c’est une image. Sens-AI ne peut pas lire les images.

Solution : passer le PDF dans un outil d’OCR (reconnaissance optique de caractères) :

  • Adobe Acrobat Pro : Outils → Améliorer les numérisations → Reconnaître le texte.
  • En ligne gratuit : ocr.space, smallpdf.com, ilovepdf.com.
  • macOS Aperçu : récent macOS détecte le texte automatiquement → exporter en PDF.

Une fois passé en OCR, ré-uploadez.

Cas 2 — Statut « En cours » bloqué

La source ne progresse pas et reste en chargement. Possibles causes :

Ingestion oubliée par le système

C’est rare. Solution :

  1. Cliquez sur Annuler l’ingestion (bouton rouge à côté de la source).
  2. Attendez 30 secondes.
  3. Cliquez sur Re-déclencher l’ingestion.

Si ça reste bloqué après une nouvelle tentative, contactez-nous.

File d’attente saturée

Quand beaucoup de tenants importent en même temps (rare, mais arrive en heures de bureau européennes), votre source peut attendre son tour. Patientez 10-15 minutes.

Cas 3 — Indexée mais le bot ne « voit » pas le contenu

Votre source est marquée Indexée mais quand vous posez des questions liées, le bot répond « je ne sais pas ».

Diagnostic

Cliquez sur la source → Voir le contenu. Vérifiez :

  • Le texte extrait correspond-il à ce que vous attendiez ?
  • Les chunks (passages découpés) ont-ils du sens ?

Si le contenu extrait est bizarre

  • Beaucoup de menu et peu de vrai contenu → la page a beaucoup de navigation et peu d’info utile.
  • Texte coupé au milieu d’une phrase → le découpage automatique n’a pas réussi à séparer proprement.

Solutions :

  • Améliorer la page source (plus de contenu textuel structuré).
  • Créer une règle FAQ manuelle pour les questions concernées — ça contourne le problème.
  • Utiliser un PDF dédié : créez un PDF clair et structuré avec votre info clé, et indexez-le en remplacement.

Crawl bloqué après quelques pages

Lors de l’exploration d’un site complet, Sens-AI peut s’arrêter prématurément. Causes :

  • Robots.txt interdit le crawl → vérifiez le fichier robots.txt de votre site. Si vous y avez interdit l’accès aux bots, autorisez explicitement Sens-AI (ajoutez User-agent: SensAIBot puis Allow: /).
  • Trop de redirections → certains sites font des chaînes de redirections qui finissent par boucler. Limitez aux URLs déjà connues.
  • Limite de votre plan atteinte → voir « Quota dépassé » plus haut.

Si rien ne marche

Écrivez-nous à [email protected] avec :

  1. L’URL ou le nom du fichier qui pose problème.
  2. Le statut affiché dans Sens-AI.
  3. Une capture d’écran des détails de la source.

On investigue dans la journée.

Étape suivante

Pour optimiser ce que le bot retient de vos sources : Créer des règles FAQ manuelles.

Cet article vous a-t-il été utile ?

À lire aussi dans cette section