Architecture technique

Stack complète, dual-schema Milvus+Neo4j, NVIDIA Grace Ready

Une stack souveraine, de bout en bout

BrainDup fournit une stack technique complète, 100 % open source, conçue pour tourner en local sur les derniers nouveaux ordinateurs IA de bureau et serveurs locaux NVIDIA. Pas de dépendance cloud. Pas d'API externe propriétaire. Chaque composant a été sélectionné pour sa maturité, sa performance et sa capacité à fonctionner intégralement on-premise.

Stack complète

Couche	Technologie	Rôle
Interface	Django	Dashboard utilisateur, administration, templates HTMX + Bootstrap 5
API Backend	FastAPI	50+ endpoints REST, pipeline RAG complet, services d'extraction
Conversion documentaire	Docling GPU	Conversion PDF/DOCX vers Markdown, accélérée par GPU
Stockage vectoriel	Milvus	Embeddings 4096-dim (E5-Mistral-7B) + index sparse BM25, dual-schema
Graphe	Neo4j + APOC	Relations structurées, 10+ types de noeuds, requêtes Cypher
Base relationnelle	PostgreSQL	Données structurées, métadonnées, configuration, historisation
LLM	Ollama	Inférence locale : GLM-4, Mistral, Qwen — modèles interchangeables
Orchestration	n8n	Workflows automatisés, orchestrateur HTTP pur — zéro logique métier
Gestion documentaire	Nextcloud + Collabora Online	Stockage, versionning, édition DOCX souveraine dans le navigateur
Reverse Proxy	NGINX	Terminaison SSL, rate limiting, routage vers les services
Infrastructure	Docker Compose	11+ services isolés, pré-configuré NVIDIA Grace Ready (GB10 Blackwell)

Pourquoi ces choix ? Chaque technologie répond à trois critères non négociables : licence open source, exécution locale sans appel réseau externe, et performance prouvée en production. Django et FastAPI offrent un écosystème Python mature. Milvus et Neo4j sont les références dans leurs domaines respectifs. Ollama permet de basculer entre modèles LLM sans modifier une ligne de code. Et n8n, utilisé comme orchestrateur HTTP pur (sans Code node), garantit que toute la logique métier reste dans FastAPI — versionnée, testée, protégée.

Dual-schema RAG — la signature BrainDup

Robot IA connecté à une base de connaissances et un LLM - architecture dual-schema RAG

C'est l'innovation architecturale centrale de BrainDup. Là où la plupart des solutions RAG se contentent d'une recherche vectorielle, BrainDup combine deux schémas complémentaires pour une précision nettement supérieure.

Schéma vectoriel (Milvus)

La recherche sémantique par similarité. Les documents sont convertis en embeddings haute dimension (4096 dimensions via E5-Mistral-7B) et indexés dans Milvus avec un index hybride combinant vecteurs denses et sparse BM25. Ce schéma permet de retrouver des passages pertinents même lorsque les termes de la requête ne correspondent pas exactement aux mots du document.

Schéma graphe (Neo4j)

Les relations structurées entre entités. Les documents, chunks, personnes, organisations et entités sont modélisés comme des noeuds typés, reliés par des relations nommées. Ce schéma permet de répondre à des questions relationnelles : "Qui communique avec qui sur quel sujet ?", "Quels documents sont liés à cette organisation ?"

Trois modes de requête

Données seules — Interroger uniquement les documents du contexte spécifique (exemple : un dossier client).
Corpus seul — Interroger uniquement la base de connaissances de référence (exemple : corpus juridique, réglementaire).
Analyse combinée — Croiser les faits du contexte avec les connaissances de référence. C'est le mode le plus puissant.

Pourquoi le dual-schema est supérieur

Le RAG vectoriel seul perd les relations. Le graphe seul structure les liens, mais il ne comprend pas le sens. L'association des deux crée une intelligence documentaire que ni l'un ni l'autre ne peut atteindre séparément.

Selon les évaluations du CETIC, la précision passe de 57,5 % avec un RAG vectoriel classique à 81,7 % avec l'approche dual-schema — soit un gain de 24 points de précision.

NVIDIA Grace Ready

BrainDup est conçu pour tourner sur les nouveaux ordinateurs IA de bureau et serveurs locaux NVIDIA de dernière génération. Pas dans un cloud déguisé en solution locale — sur votre GPU, avec vos données, dans votre infrastructure.

Matériel cible : NVIDIA GB10 Blackwell

Architecture ARM64, 128 Go de VRAM unifiée
Capacité suffisante pour faire tourner des modèles LLM de 30B+ paramètres en local
Accélération GPU native pour Milvus, Docling et Ollama

Ce que BrainDup livre

Scripts d'installation pré-configurés pour GB10
Docker Compose optimisé ARM64 avec réservation GPU
Configuration Docling GPU avec batch processing optimisé (CUDA, cuDNN, Flash Attention 2)
Modèles Ollama téléchargeables en une commande

L'argument économique est simple. Un nouvel ordinateur IA de bureau NVIDIA représente environ 6 000 EUR d'investissement unique. Une solution cloud équivalente coûte environ 6 000 EUR par an. En trois ans, l'investissement local est amorti et vos coûts marginaux tombent à zéro.

Infrastructure Docker

L'ensemble de la plateforme tient dans un seul fichier docker-compose.yml qui orchestre 11+ services isolés :

PostgreSQL — Base relationnelle, métadonnées, configuration
Milvus — Stockage vectoriel avec accélération GPU
Neo4j — Base graphe avec plugin APOC
Ollama — Moteur d'inférence LLM local
Docling GPU — Conversion documentaire accélérée
n8n — Orchestration de workflows (21 workflows automatisés)
Nextcloud — Gestion documentaire collaborative
Collabora Online — Édition DOCX/XLSX dans le navigateur
MinIO — Stockage objet S3-compatible
etcd — Stockage clé-valeur distribué
NGINX — Reverse proxy, SSL, routage

Chaque service est isolé dans son propre conteneur, communique via un réseau Docker dédié, et dispose de son propre healthcheck. Le démarrage tient en une commande : docker compose up -d

En résumé

BrainDup n'est pas un prototype. C'est une architecture de production, testée, documentée, et conçue pour être déployée par des intégrateurs sur du matériel souverain. Le dual-schema RAG apporte une précision mesurable. L'infrastructure Docker garantit la reproductibilité. Et le choix du 100 % open source, 100 % local, élimine toute dépendance stratégique vis-à-vis d'un fournisseur cloud.

Passez à l'action

30 minutes pour évaluer le potentiel de l'IA souveraine dans votre organisation. Sans engagement.

Audit souveraineté gratuit