La startup britannique Fractile, spécialisée dans les puces électroniques, a levé 15 millions de dollars pour son processeur d’IA en mémoire qui, selon elle, peut exécuter les derniers modèles d’IA au moins 100 fois plus vite et pour 10 fois moins cher.
Le tour de table a été co-dirigé par Kindred Capital, NATO Innovation Fund et Oxford Science Enterprises, aux côtés d’investisseurs de premier plan tels que Herman Hauser d’ASM, Stan Boland d’Icera et Five.ai et Amar Shah de Wayve.
Fondée en 2022 à Londres (Royaume-Uni), l’entreprise a levé 2,5 millions de dollars avant de sortir du mode furtif et a recruté des collaborateurs d’ARM, d’Imagination Technologies et de Nvidia.
Elle a déposé des brevets protégeant des circuits clés et son approche du calcul en mémoire. Elle est en discussion avec des partenaires potentiels et prévoit de signer des partenariats avant la production de son premier accélérateur d’IA commercial.
NATO’s first equity deal backs UK startups Fractile, Space Forge
« Dans la course à l’IA d’aujourd’hui, les limites du matériel existant – dont la quasi-totalité est fournie par une seule entreprise – représentent le plus grand obstacle à l’amélioration des performances, à la réduction des coûts et à une adoption plus large. Il ne s’agit pas seulement d’une accélération – le changement du point de performance pour l’inférence nous permet d’explorer de toutes nouvelles façons d’utiliser les meilleurs modèles d’IA actuels pour résoudre les problèmes les plus complexes du monde », a déclaré Walter Goodwin, PDG et fondateur de Fractile.
« Il ne fait aucun doute qu’avec Fractile, Walter est en train de bâtir l’une des futures entreprises vedettes du monde. C’est un brillant praticien de l’IA, mais il écoute aussi attentivement le marché afin d’être certain de construire des produits vraiment convaincants que d’autres experts voudront utiliser à grande échelle. Pour ce faire, il a déjà commencé à constituer l’une des meilleures équipes au monde d’experts en semi-conducteurs, en logiciels et en outils, avec des antécédents d’exécution sans faille. Je ne doute pas que Fractile deviendra rapidement le partenaire le plus fiable des principaux fournisseurs de modèles d’IA », a déclaré Stan Boland, investisseur.
Selon Fractile, deux voies s’offrent aux entreprises qui tentent de construire un meilleur matériel pour l’inférence de l’IA. La première est la spécialisation : il s’agit de se concentrer sur des charges de travail très spécifiques et de construire des puces adaptées à ces exigences particulières. Étant donné que les architectures de modèles évoluent rapidement dans le monde de l’IA et que la conception, la vérification, la fabrication et l’essai des puces prennent un temps considérable, les entreprises qui adoptent cette approche sont confrontées au problème de viser une cible mouvante dont la direction exacte est incertaine.
Au lieu de cela, Fractile utilise le calcul en mémoire et vise à multiplier par 20 le TOPS/W de tout autre système disponible aujourd’hui pour l’inférence de l’IA dans les centres de données. Cela permet de servir plus d’utilisateurs en parallèle par système d’inférence, avec – dans le cas des LLM par exemple – plus de mots par seconde renvoyés à ces utilisateurs, ce qui permet de servir beaucoup plus d’utilisateurs pour le même coût.
Actuellement, pour que les résultats des modèles les plus importants correspondent à la vitesse de lecture humaine, les entreprises d’IA ont tendance à déployer des systèmes qui n’utilisent que la « prédiction du prochain jeton ». Des vitesses plus rapides permettraient d’effectuer des requêtes récursives rentables, des chaînes de pensée et des recherches arborescentes afin d’améliorer la qualité des réponses.
Les performances supplémentaires peuvent également accélérer la capacité de l’IA à résoudre des problèmes scientifiques et informatiques lourds, allant de la découverte de médicaments à la modélisation du climat en passant par la génération de vidéos.
D’autres entreprises comme Axelera, Femtosense et même GraphCore ont développé des architectures de calcul en mémoire pour les applications d’IA embarquées et de pointe.