Ajouter et gérer vos sources

Indexer une URL, un site complet, ou un fichier PDF / Word / CSV — pas à pas.

Dernière mise à jour :

Les trois façons d’ajouter du contenu

Depuis votre bot, onglet Connaissance, vous pouvez :

  1. Indexer une page web — vous collez une URL, Sens-AI la lit et l’absorbe.
  2. Explorer un site entier — vous donnez l’adresse d’accueil, Sens-AI parcourt les pages connectées et les indexe toutes (voir Explorer un site complet).
  3. Téléverser un fichier — PDF, Word (DOCX), texte, CSV. Max 10 Mo par fichier.

Commençons par la méthode la plus courante.

Indexer une URL

La marche à suivre

  1. Dans votre bot, ConnaissanceAjouter une sourceURL.
  2. Collez l’adresse exacte de la page (ex. : https://www.ma-boulangerie.fr/nos-pains).
  3. Cliquez sur Indexer.

Sens-AI récupère le contenu, le nettoie (supprime les menus, pieds de page, cookies banners), le découpe en passages de quelques paragraphes, et les prépare pour la recherche.

Temps typique : 15 à 60 secondes par page.

Bonne pratique : choisir les pages utiles

Pas toutes les pages de votre site sont intéressantes pour le bot. Les bonnes candidates :

  • Page d’accueil — présentation générale.
  • À propos / Notre histoire — contexte de votre entreprise.
  • Produits / Services / Tarifs.
  • FAQ existante si vous en avez une.
  • Contact, horaires, adresse.
  • CGV, politique de retour, livraison — pour les questions juridiques et pratiques.

À éviter :

  • Articles de blog de 2018 — obsolètes, peu utiles.
  • Pages de connexion, panier, checkout — pas de contenu informatif.
  • Landing pages publicitaires — souvent redondantes avec la page principale.

Téléverser un fichier

Formats acceptés

  • PDF (.pdf) — le plus courant. Sens-AI extrait le texte, ignore les images décoratives.
  • Word (.docx) — les documents Microsoft Office.
  • Texte brut (.txt) — si vous avez du texte simple.
  • CSV (.csv) — pratique pour un catalogue produit structuré.
  • HTML (.html) — si vous exportez une page web en local.

Limites : 10 Mo par fichier. Si votre fichier dépasse, découpez-le (les fichiers « catalogue-volume-1.pdf », « catalogue-volume-2.pdf » marchent très bien).

La marche à suivre

  1. ConnaissanceAjouter une sourceFichier.
  2. Glissez-déposez le fichier ou cliquez pour le choisir depuis votre ordinateur.
  3. Cliquez sur Uploader et indexer.

Temps typique : 30 secondes à 3 minutes selon la taille (les gros PDFs mettent plus de temps).

Conseils pour les PDFs

  • Un PDF bien structuré (avec des titres de sections clairs) donne de meilleures réponses qu’un PDF en deux colonnes ou avec des tableaux complexes.
  • Les documents scannés (PDF-image sans OCR) ne marchent pas — Sens-AI ne voit que du texte. Si votre document est un scan, passez-le d’abord dans un outil d’OCR (Adobe Acrobat, les versions récentes de Preview macOS, ou un service en ligne).
  • Les schémas et images sont ignorés. Si une info importante n’est que dans une image (« voir schéma page 5 »), elle manquera au bot.

Conseils pour les CSV

Un CSV idéal pour un catalogue produit :

nom_produit,description,prix,categorie,disponibilite
Pain de campagne,Pain traditionnel au levain naturel,4.50€,pains,oui
Baguette tradition,Baguette artisanale cuite sur place,1.20€,pains,oui
...

Chaque ligne devient une fiche exploitable. Nommez clairement vos colonnes — c’est ce que le bot utilise pour « comprendre » le contenu.

Indexer un site complet (crawl)

Pour les sites de 5 à 50 pages, vous pouvez demander à Sens-AI d’explorer tout seul.

  1. ConnaissanceAjouter une sourceSite entier.
  2. Entrez l’URL de la page d’accueil.
  3. Indiquez le nombre maximum de pages à indexer (par défaut : 20).
  4. Cliquez sur Découvrir et indexer.

Sens-AI part de votre page d’accueil, suit les liens internes, et indexe chaque page trouvée jusqu’à la limite que vous avez fixée.

Durée : 2 à 10 minutes selon le site.

Voir Gérer vos sources et le cycle d’indexation pour les détails sur le suivi, les erreurs, et la ré-indexation.

Après indexation

Dans l’onglet Connaissance, chaque source affiche :

  • Son statut (En cours, Indexé, Erreur).
  • Le nombre de passages extraits (ex. : « 42 chunks »).
  • La date de dernière indexation.
  • Trois boutons d’action : Voir le contenu, Ré-indexer, Supprimer.

Cliquez sur Voir le contenu pour parcourir ce que Sens-AI a réellement extrait. C’est utile pour détecter les problèmes (texte mal découpé, passages manquants).

Vérifier que ça marche

Posez quelques questions à votre bot depuis l’onglet Tester :

  • Une question dont la réponse est sur la page d’accueil.
  • Une question dont la réponse est dans une page secondaire.
  • Une question dont la réponse est dans un PDF que vous avez uploadé.

Si le bot s’en sort bien, votre base de connaissances est correctement indexée. Si une question revient vide ou avec « Je ne sais pas », la source correspondante manque ou n’a pas été bien lue.

Étape suivante

Pour renforcer les réponses sur des questions précises : Créer des règles FAQ manuelles.

Cet article vous a-t-il été utile ?

À lire aussi dans cette section