TP : Mise en Place d’un Système RAG (Retrieval-Augmented Generation) pour la Documentation Technique
Objectif
Dans ce TP, vous allez construire un pipeline de Retrieval-Augmented Generation (RAG) permettant d’interroger des documentations techniques Exemple . Vous utiliserez des sources comme :
Le but est de concevoir un système qui :
- Stocke et indexe les documents sous une base de données vectorielle.
- Permet de poser des questions et de récupérer des passages pertinents.
- Génère des réponses précises avec une IA générative en utilisant les passages récupérés.
Consignes Générales
- Sources de Documentation
Vous pouvez choisir une ou plusieurs des sources suivantes :
- But du TP
Construire un pipeline qui combine :
- Extraction : Collecte et pré-traitement des fichiers de documentation (par exemple, conversion de
.rst
ou .md
en texte brut).
- Indexation : Création d’une base vectorielle pour rechercher des passages pertinents.
- Récupération et génération : Utilisation des passages pour générer des réponses précises avec une IA.
- Libre à vous d’explorer
Vous êtes encouragé à expérimenter avec différents outils, bibliothèques et techniques comme le re-ranking ou l’utilisation de différentes bases vectorielles.
Ressources pour Vous Aider
- Base de données vectorielle : FAISS, PGVector, Weaviate.
- Embedding : SentenceTransformers, Mistral-embed
- Prompt Engineering : Techniques pour optimiser les interactions avec l’IA générative.