MENU

Intel change l’architecture de ses CPUs avec Alder Lake

Intel change l’architecture de ses CPUs avec Alder Lake

Technologies |
Par Wisse Hettinga



Le CPU d’ordinateur de bureau de nouvelle génération d’Intel, nommé Alder Lake, est la première architecture hybride de l’entreprise à intégrer deux types de cœurs : un cœur pour la performance et un cœur pour l’efficacité. Ceci est similaire à l’approche big.little d’ARM qui utilisait un petit cœur optimisé pour une faible consommation d’énergie avec des performances inférieures aux côtés d’un cœur plus grand et plus performant. Les deux cœurs pourraient exécuter le même code en fonction du contexte, évitant ainsi les problèmes d’avoir un planificateur pour allouer des tâches à plusieurs cœurs. Cela a traditionnellement été un facteur limitant pour les performances au niveau du système des conceptions de puces multicœurs.

L’approche hybride d’Intel est basée sur des threads, avec un directeur de thread. Il s’agit d’une technologie de planification améliorée qui ajoute plus de surveillance du cœur pour déterminer le contexte. Intel espère que cette surveillance accrue combinée à l’approche des threads et à trois structures indépendantes évitera le risque de goulot d’étranglement des performances. La structure de calcul peut prendre en charge jusqu’à 1 To/s, soit 100 Go/s par cœur ou par cluster et connecte les cœurs et les graphiques via le cache de dernier niveau à la mémoire. Cette stucture a une plage de fréquences dynamique élevée et est capable de sélectionner dynamiquement le chemin de données pour l’optimisation de la latence par rapport à la bande passante en fonction des charges réelles. Cela ajuste également dynamiquement la politique de cache de dernier niveau pour qu’elle soit inclusive ou non-inclusive en fonction de l’utilisation.

Related ARM big.little articles

La matrice d’E/S prend en charge jusqu’à 64 Go/s, connectant les différents types d’E/S ainsi que les périphériques internes et peut changer de vitesse de manière transparente sans interférer avec le fonctionnement normal d’un périphérique, en sélectionnant la vitesse de la matrice pour correspondre à la quantité requise de transfert de données. La structure de mémoire peut fournir jusqu’à 204 Go/s de données et adapter dynamiquement la largeur et la vitesse de son bus pour supporter plusieurs points de fonctionnement pour une bande passante élevée, une faible latence ou une faible consommation.

Ces matrices connectent les différents types de cœurs de processeur, contrôlés par le Thread Director. Ceci est intégré directement dans le matériel et fournit une télémétrie de bas niveau sur l’état du cœur et le mix d’instructions du thread. Thread Director est dynamique et adaptatif, adaptant les décisions de planification aux besoins de calcul en temps réel plutôt que d’utiliser des règles statiques simples déterminées au moment de la compilation, ce qui permet au système d’exploitation de placer le bon thread sur le bon cœur au bon moment.

Traditionnellement, le système d’exploitation prenait des décisions en fonction de statistiques disponibles limitées, telles que les tâches de premier plan et d’arrière-plan. Thread Director utilise la télémétrie matérielle pour diriger les threads qui nécessitent des performances plus élevées vers le bon cœur de performances à ce moment-là. En surveillant le mix d’instructions, l’état du cœur et d’autres télémétries de microarchitecture pertinentes à un niveau granulaire, le système d’exploitation peut prendre des décisions de planification plus intelligentes

Intel a également étendu l’API « PowerThrottling », avec une classification EcoQoS qui informe le planificateur si le thread préfère l’efficacité énergétique pour planifier les threads sur des cœurs efficaces plutôt que sur les cœurs de performance.

Suivant: cœur efficace vs cœur de performance 

 


Efficient core

La microarchitecture Efficient-core, précédemment nommée « Gracemont », est conçue pour une efficacité de débit, permettant des performances multithread évolutives pour le multitâche moderne. Il s’agit de la microarchitecture x86 la plus efficace d’Intel avec une cible de zone de silicium agressive afin que les charges de travail multicœurs puissent évoluer avec le nombre de cœurs avec une large plage de fréquences. Cela peut fonctionner à une tension inférieure pour réduire la consommation d’énergie globale, tout en créant la marge de puissance nécessaire pour fonctionner à des fréquences plus élevées. Cela permet à l’Efficient-core d’augmenter les performances en cas de besoin.

L’architecture comprend un cache cible doté de 5 000 entrées de branches qui se traduit par une prédiction d’embranchements plus précise et un cache d’instructions plus grand de 64 kilo-octets pour garder les instructions utiles à proximité sans épuiser la puissance du sous-système de mémoire. C’est le premier décodeur de longueur d’instruction à la demande d’Intel qui génère des informations de pré-décodage.

Un décodeur groupé « out of order » permet de décoder jusqu’à six instructions par cycle tout en maintenant l’efficacité énergétique et un large back-end avec une allocation sur cinq largeurs et un retrait sur huit largeurs, une fenêtre de 256 entrées « out of order » et 17 ports d’exécution

Cela donne une augmentation de 40 pour cent des performances pour un thread unique par rapport au cœur du processeur Skylake précédent, tout en consommant moins de 40 pour cent de la puissance. Quatre cœurs Efficient-core offrent 80 % de performances en plus tout en consommant moins d’énergie que deux cœurs Skylake exécutant quatre threads ou les mêmes performances de débit tout en consommant 80 % d’énergie en moins

 

Performance core

Le cœur Performance-core précédemment nommé « Golden Cove » est conçu pour une latence plus faible dans l’exécution des instructions. Les six décodeurs d’instructions (au lieu de quatre) ont un cache micro-opérande (µop) de huit largeurs (au lieu de six) et 12 ports d’exécution (au lieu de 10). Ceci est supporté par des fichiers de registre physique plus volumineux avec un buffer de réorganisation plus profond avec 512 entrées. Un algorithme de prédiction de branchement amélioré réduit la latence effective L1 ; optimisations de bande passante prédictive en écriture complète dans le cache L2.

Tout cela offre une amélioration de 19% des performances sur une large gamme de charges de travail par rapport à l’architecture actuelle du processeur Intel Core de 11e génération (Cypress Cove).

Des extensions matricielles avancées ont été ajoutées pour améliorer davantage les performances de l’IA pour l’inférence d’apprentissage en profondeur et les performances d’apprentissage. Cela inclut du matériel dédié et une nouvelle architecture de jeu d’instructions pour effectuer des opérations de multiplication matricielle beaucoup plus rapidement avec une latence plus faible et une prise en charge accrue des applications de données volumineuses et de code à grande empreinte.

architecture SoC

Tout cela est réuni dans une architecture de système sur puce (SoC) avec trois points de conception clés

Le premier est un CPU pour ordinateur de bureau à deux puces à performances maximales optimisé pour les performances, l’efficacité énergétique, la mémoire et les E/S

Le second est un CPU pour mobiles en package BGA hautes performances qui ajoute l’imagerie, des graphiques Xe plus grands et une connectivité Thunderbolt 4

Le troisième est un boîtier mince, à faible consommation d’énergie et à haute densité avec des E/S optimisées et une alimentation électrique pour les ordinateurs portables ultra-mobiles.

Lire aussi:

Intel lance un GPU avec 100 milliards de transistors

Intel et Synopsys en route vers une collision frontale sur ARC ?

www.intel.com

Related articles

 

Si vous avez apprécié cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à :    ECI sur Google News

Partager:

Articles liés
10s