Blog
Des articles concrets et honnêtes sur les petits LLM, les modèles ternaires et l'IA embarquée — chaque affirmation est étayée par le dépôt open source.
Jalon
Fini le « QEMU uniquement » : le modèle 944K tourne sur un vrai ESP32-WROOM-32, entièrement hors ligne, ~1 tok/s — avec un binaire pré-compilé, un journal série et un flash en une commande que vous pouvez vérifier. Cadre honnête : une preuve d'exécution, pas une victoire de benchmark.
IA embarquée
La plupart des « petits » LLM réclament des mégaoctets de RAM. Voici le vrai calcul mémoire pour faire tourner un modèle de langue sur un STM32, un RP2040 ou un ESP32 — et ce qui tient réellement dans 256 Ko.
Comparatif
Un comparatif de TinyLlama, llama2.c, TinyMaix et Atome face aux vrais budgets RAM et flash des microcontrôleurs — avec un verdict honnête sur ce qui tient sur un MCU à 2 $.
Décryptage
Les poids ternaires permettent à un modèle de langue entraîné de tenir dans le flash. Voici ce que signifie la quantification BitNet 1,58 bit, pourquoi c'est rapide sur un microcontrôleur, et ce que cela coûte en précision.
Résultats honnêtes
Un benchmark bidirectionnel d'un petit LLM ternaire face à un transformeur FP32 classique : une victoire nette à 60K paramètres, une défaite nette à 944K, et pourquoi ce renversement compte.
Ingénierie
Comment un modèle de langue ternaire tourne sur ESP32 et STM32 via un moteur C99 sans tas — et pourquoi la parité bit-exacte entre Python et C compte pour livrer une IA embarquée fiable.
Cas d'usage
Un regard concret sur ce à quoi un modèle de langue embarqué de classe kilooctet sert vraiment — analyse de commandes, détection d'anomalies, routage d'intention — et trois choses qu'il ne peut pas faire.
Architecture
Pourquoi le moteur C d'Atome n'alloue rien à l'exécution, ne communique avec rien, et ce qu'un modèle de langue sans tas et isolé apporte en confidentialité, sécurité et fiabilité.
Guide matériel
Un guide de compatibilité par puce pour faire tourner un modèle de langue sur un microcontrôleur, à partir des budgets RAM et flash mesurés d'Atome sur STM32, RP2040 et ESP32-S3.
Guide
Confidentialité, latence, coût et fiabilité : les compromis entre exécuter un modèle de langue sur l'appareil et appeler une API cloud — un guide pratique pour les équipes de produits embarqués.
Opinion
Un test en cinq points pour toute affirmation de LLM « qui tourne sur l'edge » — tient en RAM, tient en flash, sans tas, reproductible, mesuré et non estimé — appliqué honnêtement, y compris à Atome.