Ajouter des sources

Alimentez votre chatbot avec des pages web, des fichiers PDF, DOCX ou TXT pour qu'il réponde à vos questions.

Dernière mise à jour :

Types de sources

Sens-AI supporte deux types de sources pour alimenter la base de connaissances de votre bot :

Pages web (URL)

Ajoutez l’URL d’une page web et Sens-AI en extraira automatiquement le contenu textuel. Le système utilise un scraper intelligent qui :

  • Extrait le contenu principal (ignore menus, footers, publicités)
  • Convertit le HTML en texte structuré
  • Découpe le contenu en segments pour une recherche optimale

Fichiers

Uploadez directement des fichiers depuis votre ordinateur :

  • PDF : rapports, brochures, documentation technique
  • DOCX : documents Word
  • TXT : fichiers texte brut
  • CSV : données tabulaires

Taille maximale : 512 Ko par fichier.

Ajouter une URL

  1. Dans la configuration de votre bot, allez dans l’onglet Sources
  2. Collez l’URL dans le champ de saisie
  3. Cliquez sur Ajouter
  4. Le scraping et l’indexation démarrent automatiquement

Découvrir et crawler un site

Pour indexer un site entier, utilisez la fonction Découvrir les URLs :

  1. Entrez l’URL de base du site (ex : https://example.com)
  2. Cliquez sur Découvrir
  3. Sens-AI analysera le sitemap et les liens internes (jusqu’à 100 pages)
  4. Sélectionnez les pages à indexer
  5. Cliquez sur Ajouter les pages sélectionnées

Note : La découverte est limitée à 100 URLs par crawl via un parcours BFS (Breadth-First Search).

Uploader un fichier

  1. Dans l’onglet Sources, cliquez sur Uploader un fichier
  2. Sélectionnez votre fichier (PDF, DOCX, TXT ou CSV)
  3. Le fichier est stocké de manière sécurisée et indexé automatiquement

Pipeline d’ingestion

Chaque source passe par un pipeline en 3 étapes :

  1. Extraction : le contenu textuel est extrait (scraping ou parsing de fichier)
  2. Découpage : le texte est découpé en segments avec chevauchement pour maintenir le contexte
  3. Vectorisation : chaque segment est transformé en vecteur sémantique et stocké pour la recherche RAG

Le statut de chaque source est visible dans l’onglet Sources : en attente, en cours, indexé ou erreur.

Limites par plan

PlanPagesFichiers
Essai gratuit105
Starter5010
Professional20050
Business500200

Ré-indexation automatique

Sens-AI ré-indexe automatiquement vos sources web périodiquement pour garder le contenu à jour. Les sources en erreur sont ré-essayées automatiquement.

Étapes suivantes

Vos sources sont indexées ? Installez le widget sur votre site : Installer le widget.

Cet article vous a-t-il été utile ?

À lire aussi dans cette section