Intel ARC Alchemist, détails de son architecture pour les jeux GPU

by Jack
Processeur graphique

Depuis plus d’une décennie, les performances d’un PC ne sont pas seulement une question de CPU, mais aussi de GPU. Ce dernier participe également à l’accélération de l’exécution des programmes et pas seulement au rendu graphique, puisqu’il existe aujourd’hui des centaines d’applications qui utilisent la capacité de traitement parallèle des algorithmes parallèles pour accélérer leurs algorithmes GPU pour des performances maximales.

Le fait qu’Intel soit laissé pour compte signifiait que ses concurrents directs et surtout AMD avaient un avantage. Grâce aux excellentes performances GPU d’AMD, ils ont remporté plusieurs contrats du gouvernement des États-Unis pour le développement de supercalculateurs. Tout cela au milieu du paradigme qu’est la course pour atteindre l’ExaFLOP de la puissance de calcul.

Processeur graphique

Ce fut le tournant pour Intel, qui a embauché Raja Koduri d’AMD et a réuni une équipe autour de lui avec un seul objectif. Créer une architecture graphique évolutive qui lui a permis de rivaliser avec AMD et NVIDIA, des GPU intégrés dans les CPU aux GPU HPC. Tout cela sans oublier les cartes graphiques pour les jeux. Où les Intel ARC Alchemist sont la première génération avec laquelle Intel entend couper des parts de marché à ses concurrents.

Un voyage dans l’architecture d’Intel ARC Alchemist

Drones Intel ARC Alchemist

Comme si nous planions de plus en plus haut, nous allons décomposer les différents composants qui composent le premier GPU gaming passionné d’Intel. En partant du spécifique au global et afin que vous puissiez comprendre quelle est l’organisation ou l’architecture de l’architecture Intel ARC Alchemist et comment elle se compare à ses homologues de NVIDIA et AMD. Il s’agit d’un GPU de jeu qui, bien qu’il soit construit par Intel, sera fabriqué selon le processus TSMC N6.

Nous verrons l’architecture Intel ARC Alchemist dans les deux cartes graphiques dédiées pour les ordinateurs de bureau et les ordinateurs portables de jeu dans diverses configurations où la bande passante de chacune d’entre elles ainsi que la quantité de tranches de rendu varieront. La version avec 8 Render Slices est la plus avancée de toutes. Sa date de sortie devrait entrer en 2022.

Le Xe-Core, la fondation de l’Alchimiste Intel ARC

Noyau Xe

La première chose que nous devons garder à l’esprit est que les noyaux dits EU ont disparu pour être remplacés par les noyaux Xe, mais ils ne sont pas les mêmes, puisque chaque noyau Xe est équivalent à l’unité de calcul d’AMD ou au SM de NVIDIA, mais avec Une série de changements à noter est qu’Intel a omis l’échantillonneur ou l’unité de texture et d’autres unités à fonction fixe. Il ne les a pas exclus, mais ils facilitent la création de GPU non graphiques.

Chaque Xe-Core d’Intel ARC Alchemist est composé de 16 moteurs vectoriels, chacun d’eux est un Lecteur SIMD 256 bits et donc il est composé de 8 ALU 32 bits à virgule flottante faisant un total de 128 unités de calcul par Xe-Core. Un ratio équivalent à celui de la NVIDIA RTX 3000 et le double de celui de l’AMD RDNA 2.

En ce qui concerne la Unités XMX Ils sont équivalents au NVIDIA Tensor Core et sont donc conçus pour accélérer le calcul avec des matrices, idéal pour les algorithmes basés sur les réseaux de neurones convolutifs. En ce qui concerne la puissance brute, les unités XMX ont deux fois la puissance de calcul que leurs équivalents dans le NVIDIA RTX 3000. Bien que comme l’architecture NVIDIA, il semble que ces unités partagent les registres et le scheduler avec les Vector Engines. Ces unités seront la clé de son algorithme XeSS, qui est l’arme d’Intel contre Intel.

Caches, unité de texture et lancer de rayons de premier ordre

Architecture de lancer de rayons Intel Arc

Sans quitter le Xe-Core, nous pouvons voir que le cache d’instructions de premier niveau et le cache de données ils se trouvent dans chaque Xe-Core. Il s’agit d’un élément différentiel par rapport à NVIDIA et AMD, puisque leur cache d’instructions est généralement partagé par deux unités équivalentes. Un autre changement par rapport au cache de premier niveau vient par rapport aux architectures Intel précédentes.

Jusqu’à ses GPU Gen 11, Intel avait séparé le cache de texture du cache de données. Quelque chose qui n’est pas habituel à faire, maintenant ils l’ont non seulement unifié, mais la mémoire locale partage le même espace que le cache de données. Ainsi, les développeurs peuvent choisir la quantité allouée au cache de données L1 et la quantité à la mémoire locale. Qui n’est pas un cache, mais une petite RAM pour stocker temporairement certaines variables et interconnecter les différentes unités.

La le cache de données est utilisé par l’unité de texture, appelé Sampler par Intel lui-même et l’unité pour l’intersection dans Ray Tracing. Ce dernier semble plus avancé que celui d’AMD car il est séparé de l’unité de texture et peut effectuer à lui seul le tour de la structure de données qu’est l’arbre BVH. Il est donc plus similaire au NVIDIA RT Core, mais nous ne savons pas pour le moment quelles sont ses performances, mais puisque le lancement de l’architecture est pour 2022, nous nous attendons à des performances équivalentes à celles du NVIDIA RTX 3000 à cet égard.

De nombreux Xe-Cores Render Slice

Architecture de tranche de rendu Intel ARC

Le Render Slice est un ensemble d’unités qui se rassemble à l’intérieur de trois unités à fonction fixe nommées par Intel comme Geometry, Rasterizer et HiZ. Qui sont responsables d’une série de fonctionnalités communes à tous les GPU et qui sont essentielles pour afficher des graphiques en temps réel.

Fonction fixe de rastérisation

Le premier est le unité rastérisée ou rastériseur et il s’occupe de la tâche commune de projeter l’image sur l’écran et de convertir la géométrie de la scène 3D composée de sommets en un espace cartésien bidimensionnel composé de pixels ou de fragments. Comme toutes les unités raster modernes, Intel a adopté la rastérisation des tuiles sur le cache GPU LLC.

Tesselation adaptative

La seconde est l’unité de tessellation classique que de nombreux jeux utilisent pour ajouter de la densité géométrique dans les jeux. Qui est appelée Géométrie, nous ne savons pas s’il s’agit d’un Geometry Engine contemporain comme celui porté par les GPU AMD et NVIDIA, mais nous supposons que puisque ce type d’unités est essentiel pour le Mesh Shading. Et n’oublions pas qu’Intel ARC Alchemist prend en charge DirectX 12 Ultimate.

Salut-Z

La troisième unité s’appelle Salut-ZIl faut tenir compte du fait que lorsque la rastérisation est effectuée, ce qui est fait est de générer le Z-Buffer ou le tampon de profondeur, qui stocke la distance à laquelle ils se trouvent par rapport à la caméra. L’idée de Hi-Z est qu’au lieu d’utiliser un grand tampon d’images comme le Z-Buffer, nous utilisons une hiérarchie d’entre eux pour accélérer l’accès. Gardez à l’esprit que de nombreux algorithmes de jeu tels que les cartes d’ombre traditionnelles l’utilisent et qu’il est également essentiel pour l’Occlusion Culling. Ce qui permet au GPU de supprimer les fragments avec une valeur Z plus éloignés de la caméra.

Sans quitter la tranche de rendu, nous n’avons pas non plus le Arrière-plan de pixels, le nom qu’Intel a donné aux unités classiques chargées de générer le tampon d’image final. À la fin du pipeline, lorsque le Pixel Shader a coloré chaque pixel, il l’envoie au Pixel Backend et de là au cache L2 du GPU ou de la mémoire.

Multiple Render Slice et L2 Cache font un GPU

Architecture alchimiste

Si nous allons encore plus haut, nous pouvons voir l’architecture d’Intel ARC Alchemist dans toute sa splendeur, composé de 8 Render Slices et d’un énorme cache de second niveau en tant que système LLC. Qui est chargé de donner une cohérence de cache à toutes les tranches de rendu qui font partie du GPU. Comme le reste des GPU contemporains, plusieurs unités de l’Intel Xe HPG importent et exportent des données vers le cache L2, de sorte que son fonctionnement n’a plus de secret.

Quels disques sont en contact avec le cache L2 ? Eh bien, ce qui suit :

  • Les caches de niveau supérieur sur chaque Xe-Core
  • Les unités fonctionnelles fixes que nous avons mentionnées précédemment : Geometry, Rasterizer et Hi-Z
  • Le backend Pixel.

Quant à la raison pour laquelle nous disons qu’il s’agit de la quasi-totalité du GPU et pourquoi nous devons garder à l’esprit qu’Intel lancera ses premiers GPU Intel ARC Alchemist au premier trimestre 2022 et qu’ils ont encore des données à révéler à ce sujet. Parmi eux, la configuration du processeur de commande et les accélérateurs classiques tout GPU tels que le contrôleur d’affichage, le codec vidéo, les unités DMA et toute autre unité qu’Intel n’a pas encore révélée.

C’est tout ce que nous pouvons dire jusqu’à présent sur la nouvelle architecture Intel.

Related Articles

Leave a Comment