Blog Atome lm — petits LLM, IA embarquée et inférence sur appareil

Jalon

Atome tourne désormais sur un ESP32 physique — mesuré sur silicium réel

Fini le « QEMU uniquement » : le modèle 944K tourne sur un vrai ESP32-WROOM-32, entièrement hors ligne, ~1 tok/s — avec un binaire pré-compilé, un journal série et un flash en une commande que vous pouvez vérifier. Cadre honnête : une preuve d'exécution, pas une victoire de benchmark.
IA embarquée

Faire tourner un LLM sur un microcontrôleur (ce qui tient vraiment dans 256 Ko)

La plupart des « petits » LLM réclament des mégaoctets de RAM. Voici le vrai calcul mémoire pour faire tourner un modèle de langue sur un STM32, un RP2040 ou un ESP32 — et ce qui tient réellement dans 256 Ko.
Comparatif

Le meilleur petit LLM pour un MCU à 2 $ : TinyLlama vs llama2.c vs TinyMaix vs Atome

Un comparatif de TinyLlama, llama2.c, TinyMaix et Atome face aux vrais budgets RAM et flash des microcontrôleurs — avec un verdict honnête sur ce qui tient sur un MCU à 2 $.
Décryptage

Qu'est-ce qu'un LLM ternaire ? Les poids 1,58 bit de BitNet expliqués

Les poids ternaires permettent à un modèle de langue entraîné de tenir dans le flash. Voici ce que signifie la quantification BitNet 1,58 bit, pourquoi c'est rapide sur un microcontrôleur, et ce que cela coûte en précision.
Résultats honnêtes

Benchmark de petit LLM : où un modèle ternaire bat un transformeur classique — et où il perd

Un benchmark bidirectionnel d'un petit LLM ternaire face à un transformeur FP32 classique : une victoire nette à 60K paramètres, une défaite nette à 944K, et pourquoi ce renversement compte.
Ingénierie

Faire tourner un LLM sur ESP32 et STM32 avec un moteur C bit-exact

Comment un modèle de langue ternaire tourne sur ESP32 et STM32 via un moteur C99 sans tas — et pourquoi la parité bit-exacte entre Python et C compte pour livrer une IA embarquée fiable.
Cas d'usage

Cas d'usage du LLM embarqué : 5 choses qu'une IA sur microcontrôleur peut faire aujourd'hui

Un regard concret sur ce à quoi un modèle de langue embarqué de classe kilooctet sert vraiment — analyse de commandes, détection d'anomalies, routage d'intention — et trois choses qu'il ne peut pas faire.
Architecture

LLM hors ligne et isolé : une IA embarquée sans cloud ni réseau

Pourquoi le moteur C d'Atome n'alloue rien à l'exécution, ne communique avec rien, et ce qu'un modèle de langue sans tas et isolé apporte en confidentialité, sécurité et fiabilité.
Guide matériel

Quels microcontrôleurs peuvent faire tourner un LLM ? Guide STM32, RP2040 et ESP32-S3

Un guide de compatibilité par puce pour faire tourner un modèle de langue sur un microcontrôleur, à partir des budgets RAM et flash mesurés d'Atome sur STM32, RP2040 et ESP32-S3.
Guide

LLM embarqué ou cloud : guide de décision pour les produits embarqués

Confidentialité, latence, coût et fiabilité : les compromis entre exécuter un modèle de langue sur l'appareil et appeler une API cloud — un guide pratique pour les équipes de produits embarqués.
Opinion

Checklist edge-AI : votre « petit LLM » tourne-t-il vraiment sur un microcontrôleur ?

Un test en cinq points pour toute affirmation de LLM « qui tourne sur l'edge » — tient en RAM, tient en flash, sans tas, reproductible, mesuré et non estimé — appliqué honnêtement, y compris à Atome.