Can an LLM run completely offline?

Yes. Atome's C engine has no network path and no cloud dependency — inference runs entirely on the device, so it works offline and the data never leaves the chip.

Why does a heap-free engine matter on a microcontroller?

No malloc means no memory fragmentation and no out-of-memory failures during inference, plus a smaller, auditable codebase — about 2.6 KB of .text. That predictability is critical for embedded reliability.

LLM hors ligne et isolé du réseau : IA embarquée sans cloud ni réseau

Le moteur C99 d'Atome possède une propriété que la plupart des piles d'inférence n'ont pas : à l'exécution, il n'alloue aucun tas, ne fait aucun appel système et ne touche à aucun réseau. Tout réside dans des tampons statiques dimensionnés à la compilation. Cela ressemble à une mesure d'austérité, mais c'est en réalité la source des meilleures propriétés de sécurité et de fiabilité du moteur.

Ce que « sans tas » signifie vraiment

La structure du bloc est fixe : une LayerNorm, une convolution ternaire depthwise, un modèle d'état diagonal, une attention top-k, un routeur — et un tampon statique pour chaque sortie de voie, l'état du SSM, le cache KV, les poids du routeur et les logits. Rien d'autre. Pas de malloc signifie pas de fragmentation, pas de panne mémoire en pleine inférence, et aucun allocateur à auditer. Le moteur entier se compile en environ 2,6 Ko de .text. Un mode de défaillance qui ne peut tout simplement pas se produire est le mode de défaillance le moins coûteux à gérer.

Pourquoi l'isolement est une fonctionnalité

Un modèle qui ne peut pas appeler à la maison ne peut pas fuiter. Pour les déploiements de défense, médicaux et industriels, « les données ne quittent jamais la puce » est un argument de conformité réellement défendable, parce qu'il n'existe aucun chemin réseau au départ — ce n'est pas une politique, c'est une architecture. L'absence de dépendance au cloud signifie aussi aucune latence, aucun coût par inférence et aucune coupure quand le lien tombe. Le modèle fait partie du firmware, répond de la même manière sur chaque appareil, et continue de fonctionner quand l'internet du bâtiment, lui, ne fonctionne plus.

La discipline qu'il impose

Concevoir pour une structure fixe, c'est savoir dire non : pas de convolutions larges, pas de bloc feed-forward dense, pas de poids multi-bancs, pas d'échelles par ligne. Ce sont des omissions délibérées, pas des manques. Chacune romprait soit le contrat de parité bit-exacte entre Python et C, soit le budget RAM. La contrainte est la conception — et c'est elle qui permet au même point de contrôle entraîné d'être exporté vers le flash et de s'exécuter à l'identique sur la référence et sur la puce.

Quand cela compte le plus

Si votre produit traite de l'audio, des signaux médicaux, de la localisation, ou tout ce qu'un utilisateur ne voudrait pas voir envoyé à un serveur, un modèle embarqué isolé supprime la question entièrement au lieu d'y répondre par une politique de confidentialité. Si votre produit doit continuer à fonctionner dans un tunnel, dans une usine ou dans un capteur distant sans connectivité, la même propriété devient une garantie de fiabilité. Le moteur, ses cibles de compilation et la table RAM mesurée se trouvent tous dans le répertoire c_engine du dépôt public.

Ce qu'un attaquant ne peut pas atteindre

Les spécialistes de la sécurité raisonnent en surface d'attaque, et un moteur isolé et sans tas supprime d'emblée plusieurs surfaces. Il n'y a pas d'écouteur réseau à sonder, donc l'exploitation à distance n'a aucun point d'entrée. Il n'y a pas d'allocateur dynamique, donc toute une classe de bugs de corruption de tas ne peut pas se produire. Il n'y a pas d'appels système vers un système d'exploitation, parce qu'il n'y a pas de système d'exploitation — le moteur est une bibliothèque compilée dans votre firmware. Rien de tout cela ne rend le produit environnant automatiquement sûr, mais cela réduit la partie du système qui touche le modèle à une petite surface statique et auditable, exactement ce que l'on veut quand il faut raisonner sur un appareil qui peut rester sur le terrain pendant une décennie.

Le déterminisme est une forme de sûreté

Parce que le moteur n'alloue rien et que les chemins Python et C sont bit-exacts, le comportement de l'appareil est déterministe et reproductible : la même entrée produit la même sortie, sur chaque unité, à chaque fois, et cette sortie correspond à ce que vous avez validé sur votre poste de travail. Pour des fonctions relevant de la sûreté, cela vaut autant que l'argument de confidentialité. Vous pouvez tester un ensemble fixe d'entrées, prouver les sorties, et savoir que les appareils déployés ne dériveront pas, parce qu'il n'y a pas d'état d'allocateur, pas de variabilité réseau, et pas de divergence flottante entre la référence et la puce. Ici, la prévisibilité est une fonctionnalité que l'on conçoit, pas une propriété que l'on espère.

Consommation et longevité sur le terrain

Un moteur isolé et sans tas tend aussi à être frugal, et la frugalité est ce qui permet à un appareil de vivre des années sur une batterie ou un budget d'énergie récupérée. Sans radio à alimenter, sans ordonnanceur de système d'exploitation en marche, et avec des poids ternaires qui remplacent les multiplications par des changements de signe et des sauts, l'énergie dépensée par inférence est dominée par une courte salve d'arithmétique simple plutôt que par le réseau ou un CPU occupé. Cela compte pour les produits que cette architecture vise précisément : un capteur sur un mur, un objet porté, un moniteur distant qui doit fonctionner sans intervention longtemps. Une énergie par inférence plus basse et plus prévisible se traduit directement par une autonomie plus longue et moins de visites de maintenance, et comme le calcul est déterministe, vous pouvez caractériser ce budget énergétique une fois et lui faire confiance sur toute la flotte.

En résumé

Un moteur sans tas et isolé n'est pas un compromis d'austérité ; c'est de là que viennent les meilleures propriétés de l'architecture. L'absence d'accès réseau signifie que les données ne peuvent pas fuiter et que l'appareil continue de fonctionner hors ligne. L'absence d'allocateur signifie qu'une classe entière de défaillances ne peut pas survenir et que le code reste petit et auditable. Le déterminisme bit-exact signifie que le comportement validé est celui qui est livré, et une arithmétique frugale signifie une longue autonomie sur le terrain. Pour des produits sensibles à la confidentialité, relevant de la sûreté ou de longue durée de vie, ce ne sont pas des bonus — c'est la raison même de construire en embarqué.

Questions fréquentes

Un LLM peut-il fonctionner entièrement hors ligne ?

Oui. Le moteur C d'Atome n'a aucun accès réseau ni dépendance au cloud — l'inférence s'exécute entièrement sur l'appareil, il fonctionne donc hors ligne et les données ne quittent jamais la puce.

Pourquoi un moteur sans tas est-il important sur un microcontrôleur ?

Pas de malloc signifie pas de fragmentation mémoire ni de panne mémoire pendant l'inférence, et une base de code plus petite et auditable — environ 2,6 Ko de .text. Cette prévisibilité est essentielle pour la fiabilité embarquée.

← Tous les articles Code & données sur GitHub