Architecture technique

Stack complète, dual-schema Milvus+Neo4j, NVIDIA Grace Ready

Une stack souveraine, de bout en bout

BrainDup fournit une stack technique complète, 100 % open source, conçue pour tourner en local sur les derniers nouveaux ordinateurs IA de bureau et serveurs locaux NVIDIA. Pas de dépendance cloud. Pas d'API externe propriétaire. Chaque composant a été sélectionné pour sa maturité, sa performance et sa capacité à fonctionner intégralement on-premise.

Stack complète

CoucheTechnologieRôle
InterfaceDjangoDashboard utilisateur, administration, templates HTMX + Bootstrap 5
API BackendFastAPI50+ endpoints REST, pipeline RAG complet, services d'extraction
Conversion documentaireDocling GPUConversion PDF/DOCX vers Markdown, accélérée par GPU
Stockage vectorielMilvusEmbeddings 4096-dim (E5-Mistral-7B) + index sparse BM25, dual-schema
GrapheNeo4j + APOCRelations structurées, 10+ types de noeuds, requêtes Cypher
Base relationnellePostgreSQLDonnées structurées, métadonnées, configuration, historisation
LLMOllamaInférence locale : GLM-4, Mistral, Qwen — modèles interchangeables
Orchestrationn8nWorkflows automatisés, orchestrateur HTTP pur — zéro logique métier
Gestion documentaireNextcloud + Collabora OnlineStockage, versionning, édition DOCX souveraine dans le navigateur
Reverse ProxyNGINXTerminaison SSL, rate limiting, routage vers les services
InfrastructureDocker Compose11+ services isolés, pré-configuré NVIDIA Grace Ready (GB10 Blackwell)

Pourquoi ces choix ? Chaque technologie répond à trois critères non négociables : licence open source, exécution locale sans appel réseau externe, et performance prouvée en production. Django et FastAPI offrent un écosystème Python mature. Milvus et Neo4j sont les références dans leurs domaines respectifs. Ollama permet de basculer entre modèles LLM sans modifier une ligne de code. Et n8n, utilisé comme orchestrateur HTTP pur (sans Code node), garantit que toute la logique métier reste dans FastAPI — versionnée, testée, protégée.

Dual-schema RAG — la signature BrainDup

Robot IA connecté à une base de connaissances et un LLM - architecture dual-schema RAG

C'est l'innovation architecturale centrale de BrainDup. Là où la plupart des solutions RAG se contentent d'une recherche vectorielle, BrainDup combine deux schémas complémentaires pour une précision nettement supérieure.

Schéma vectoriel (Milvus)

La recherche sémantique par similarité. Les documents sont convertis en embeddings haute dimension (4096 dimensions via E5-Mistral-7B) et indexés dans Milvus avec un index hybride combinant vecteurs denses et sparse BM25. Ce schéma permet de retrouver des passages pertinents même lorsque les termes de la requête ne correspondent pas exactement aux mots du document.

Schéma graphe (Neo4j)

Les relations structurées entre entités. Les documents, chunks, personnes, organisations et entités sont modélisés comme des noeuds typés, reliés par des relations nommées. Ce schéma permet de répondre à des questions relationnelles : "Qui communique avec qui sur quel sujet ?", "Quels documents sont liés à cette organisation ?"

Trois modes de requête

  1. Données seules — Interroger uniquement les documents du contexte spécifique (exemple : un dossier client).
  2. Corpus seul — Interroger uniquement la base de connaissances de référence (exemple : corpus juridique, réglementaire).
  3. Analyse combinée — Croiser les faits du contexte avec les connaissances de référence. C'est le mode le plus puissant.

Pourquoi le dual-schema est supérieur

Le RAG vectoriel seul perd les relations. Le graphe seul structure les liens, mais il ne comprend pas le sens. L'association des deux crée une intelligence documentaire que ni l'un ni l'autre ne peut atteindre séparément.

Selon les évaluations du CETIC, la précision passe de 57,5 % avec un RAG vectoriel classique à 81,7 % avec l'approche dual-schema — soit un gain de 24 points de précision.

NVIDIA Grace Ready

BrainDup est conçu pour tourner sur les nouveaux ordinateurs IA de bureau et serveurs locaux NVIDIA de dernière génération. Pas dans un cloud déguisé en solution locale — sur votre GPU, avec vos données, dans votre infrastructure.

Matériel cible : NVIDIA GB10 Blackwell

  • Architecture ARM64, 128 Go de VRAM unifiée
  • Capacité suffisante pour faire tourner des modèles LLM de 30B+ paramètres en local
  • Accélération GPU native pour Milvus, Docling et Ollama

Ce que BrainDup livre

  • Scripts d'installation pré-configurés pour GB10
  • Docker Compose optimisé ARM64 avec réservation GPU
  • Configuration Docling GPU avec batch processing optimisé (CUDA, cuDNN, Flash Attention 2)
  • Modèles Ollama téléchargeables en une commande

L'argument économique est simple. Un nouvel ordinateur IA de bureau NVIDIA représente environ 6 000 EUR d'investissement unique. Une solution cloud équivalente coûte environ 6 000 EUR par an. En trois ans, l'investissement local est amorti et vos coûts marginaux tombent à zéro.

Infrastructure Docker

L'ensemble de la plateforme tient dans un seul fichier docker-compose.yml qui orchestre 11+ services isolés :

  • PostgreSQL — Base relationnelle, métadonnées, configuration
  • Milvus — Stockage vectoriel avec accélération GPU
  • Neo4j — Base graphe avec plugin APOC
  • Ollama — Moteur d'inférence LLM local
  • Docling GPU — Conversion documentaire accélérée
  • n8n — Orchestration de workflows (21 workflows automatisés)
  • Nextcloud — Gestion documentaire collaborative
  • Collabora Online — Édition DOCX/XLSX dans le navigateur
  • MinIO — Stockage objet S3-compatible
  • etcd — Stockage clé-valeur distribué
  • NGINX — Reverse proxy, SSL, routage

Chaque service est isolé dans son propre conteneur, communique via un réseau Docker dédié, et dispose de son propre healthcheck. Le démarrage tient en une commande : docker compose up -d

En résumé

BrainDup n'est pas un prototype. C'est une architecture de production, testée, documentée, et conçue pour être déployée par des intégrateurs sur du matériel souverain. Le dual-schema RAG apporte une précision mesurable. L'infrastructure Docker garantit la reproductibilité. Et le choix du 100 % open source, 100 % local, élimine toute dépendance stratégique vis-à-vis d'un fournisseur cloud.