Architecture technique
Stack complète, dual-schema Milvus+Neo4j, NVIDIA Grace Ready
Une stack souveraine, de bout en bout
BrainDup fournit une stack technique complète, 100 % open source, conçue pour tourner en local sur les derniers nouveaux ordinateurs IA de bureau et serveurs locaux NVIDIA. Pas de dépendance cloud. Pas d'API externe propriétaire. Chaque composant a été sélectionné pour sa maturité, sa performance et sa capacité à fonctionner intégralement on-premise.
Stack complète
| Couche | Technologie | Rôle |
|---|---|---|
| Interface | Django | Dashboard utilisateur, administration, templates HTMX + Bootstrap 5 |
| API Backend | FastAPI | 50+ endpoints REST, pipeline RAG complet, services d'extraction |
| Conversion documentaire | Docling GPU | Conversion PDF/DOCX vers Markdown, accélérée par GPU |
| Stockage vectoriel | Milvus | Embeddings 4096-dim (E5-Mistral-7B) + index sparse BM25, dual-schema |
| Graphe | Neo4j + APOC | Relations structurées, 10+ types de noeuds, requêtes Cypher |
| Base relationnelle | PostgreSQL | Données structurées, métadonnées, configuration, historisation |
| LLM | Ollama | Inférence locale : GLM-4, Mistral, Qwen — modèles interchangeables |
| Orchestration | n8n | Workflows automatisés, orchestrateur HTTP pur — zéro logique métier |
| Gestion documentaire | Nextcloud + Collabora Online | Stockage, versionning, édition DOCX souveraine dans le navigateur |
| Reverse Proxy | NGINX | Terminaison SSL, rate limiting, routage vers les services |
| Infrastructure | Docker Compose | 11+ services isolés, pré-configuré NVIDIA Grace Ready (GB10 Blackwell) |
Pourquoi ces choix ? Chaque technologie répond à trois critères non négociables : licence open source, exécution locale sans appel réseau externe, et performance prouvée en production. Django et FastAPI offrent un écosystème Python mature. Milvus et Neo4j sont les références dans leurs domaines respectifs. Ollama permet de basculer entre modèles LLM sans modifier une ligne de code. Et n8n, utilisé comme orchestrateur HTTP pur (sans Code node), garantit que toute la logique métier reste dans FastAPI — versionnée, testée, protégée.
Dual-schema RAG — la signature BrainDup
C'est l'innovation architecturale centrale de BrainDup. Là où la plupart des solutions RAG se contentent d'une recherche vectorielle, BrainDup combine deux schémas complémentaires pour une précision nettement supérieure.
Schéma vectoriel (Milvus)
La recherche sémantique par similarité. Les documents sont convertis en embeddings haute dimension (4096 dimensions via E5-Mistral-7B) et indexés dans Milvus avec un index hybride combinant vecteurs denses et sparse BM25. Ce schéma permet de retrouver des passages pertinents même lorsque les termes de la requête ne correspondent pas exactement aux mots du document.
Schéma graphe (Neo4j)
Les relations structurées entre entités. Les documents, chunks, personnes, organisations et entités sont modélisés comme des noeuds typés, reliés par des relations nommées. Ce schéma permet de répondre à des questions relationnelles : "Qui communique avec qui sur quel sujet ?", "Quels documents sont liés à cette organisation ?"
Trois modes de requête
- Données seules — Interroger uniquement les documents du contexte spécifique (exemple : un dossier client).
- Corpus seul — Interroger uniquement la base de connaissances de référence (exemple : corpus juridique, réglementaire).
- Analyse combinée — Croiser les faits du contexte avec les connaissances de référence. C'est le mode le plus puissant.
Pourquoi le dual-schema est supérieur
Le RAG vectoriel seul perd les relations. Le graphe seul structure les liens, mais il ne comprend pas le sens. L'association des deux crée une intelligence documentaire que ni l'un ni l'autre ne peut atteindre séparément.
Selon les évaluations du CETIC, la précision passe de 57,5 % avec un RAG vectoriel classique à 81,7 % avec l'approche dual-schema — soit un gain de 24 points de précision.
NVIDIA Grace Ready
BrainDup est conçu pour tourner sur les nouveaux ordinateurs IA de bureau et serveurs locaux NVIDIA de dernière génération. Pas dans un cloud déguisé en solution locale — sur votre GPU, avec vos données, dans votre infrastructure.
Matériel cible : NVIDIA GB10 Blackwell
- Architecture ARM64, 128 Go de VRAM unifiée
- Capacité suffisante pour faire tourner des modèles LLM de 30B+ paramètres en local
- Accélération GPU native pour Milvus, Docling et Ollama
Ce que BrainDup livre
- Scripts d'installation pré-configurés pour GB10
- Docker Compose optimisé ARM64 avec réservation GPU
- Configuration Docling GPU avec batch processing optimisé (CUDA, cuDNN, Flash Attention 2)
- Modèles Ollama téléchargeables en une commande
L'argument économique est simple. Un nouvel ordinateur IA de bureau NVIDIA représente environ 6 000 EUR d'investissement unique. Une solution cloud équivalente coûte environ 6 000 EUR par an. En trois ans, l'investissement local est amorti et vos coûts marginaux tombent à zéro.
Infrastructure Docker
L'ensemble de la plateforme tient dans un seul fichier docker-compose.yml qui orchestre 11+ services isolés :
- PostgreSQL — Base relationnelle, métadonnées, configuration
- Milvus — Stockage vectoriel avec accélération GPU
- Neo4j — Base graphe avec plugin APOC
- Ollama — Moteur d'inférence LLM local
- Docling GPU — Conversion documentaire accélérée
- n8n — Orchestration de workflows (21 workflows automatisés)
- Nextcloud — Gestion documentaire collaborative
- Collabora Online — Édition DOCX/XLSX dans le navigateur
- MinIO — Stockage objet S3-compatible
- etcd — Stockage clé-valeur distribué
- NGINX — Reverse proxy, SSL, routage
Chaque service est isolé dans son propre conteneur, communique via un réseau Docker dédié, et dispose de son propre healthcheck. Le démarrage tient en une commande : docker compose up -d
En résumé
BrainDup n'est pas un prototype. C'est une architecture de production, testée, documentée, et conçue pour être déployée par des intégrateurs sur du matériel souverain. Le dual-schema RAG apporte une précision mesurable. L'infrastructure Docker garantit la reproductibilité. Et le choix du 100 % open source, 100 % local, élimine toute dépendance stratégique vis-à-vis d'un fournisseur cloud.