Gráfica Intel Arc Discrete GPUs

Não sei se será melhor abrir novo tópico...

Intel Ponte Vecchio is a Spaceship of a GPU​


Intel-Architecture-Day-2021-Xe-HPC-Ponte-Vecchio-Xe-Core.jpg

Intel-Architecture-Day-2021-Xe-HPC-Ponte-Vecchio-Vector-and-Matrix-Engine.jpg


The building block of the Xe HPC core is then assembled into the Xe HPC Slice that aggregates 16 of these cores together. Since each has 512KB of L1 cache, that gives us 8MB of L1 cache total.
Intel-Architecture-Day-2021-Xe-HPC-Ponte-Vecchio-Xe-Slice.jpg


Up to four Xe HPC Slices are brought together with a large L2 cache, 4x HBM2e memory controllers, a media engine, along with the Xe Links to form the Xe HPC Slice. In the bottom corner, one will notice the “Stack-to-Stack” block.
Intel-Architecture-Day-2021-Xe-HPC-Ponte-Vecchio-Xe-Stack.jpg

That is for the Xe HPC 2-Stack that combines two of these stacks for a total of 128x Xe HPC cores/ 8x slices together. As a result, we get eight times the slice figures for things such as 128x ray tracing units as well. We also double features such as the Xe Links (16) and HBM2e memory controllers (8.)
Intel-Architecture-Day-2021-Xe-HPC-Ponte-Vecchio-Xe-2-Stack.jpg


The Xe Link is the high-speed coherent unified fabric that allows for GPU to GPU transfer. We are not going to say this is Intel’s answer to NVLink, but a reader can draw their own conclusion.
Intel-Architecture-Day-2021-Xe-HPC-Ponte-Vecchio-Xe-Link.jpg

The Xe Link can be used to connect two, four, six, or eight GPUs together.
Intel-Architecture-Day-2021-Xe-HPC-Ponte-Vecchio-8x-Link-Scaling.jpg



Intel-Architecture-Day-2021-Xe-HPC-Ponte-Vecchio-Key-Challenges.jpg

While the compute tile is based on TSMC N5, the Ponte Vecchio Base Tile is on Intel 7. We also see that we have 144MB of L2 cache and a PCIe Gen5 interface. Intel did not say that this is a CXL device, although CXL 1.1 is focused on PCIe Gen5 generation parts
We discussed Xe link but this is based on TSMC N7
https://www.servethehome.com/intel-ponte-vecchio-is-a-spaceship-of-a-gpu/
 
sfajRtt.jpg

Coisa linda. :D

F3gi2Ry.jpg

Que raio de gráficos. Onde é que anda o Eixo do Y com legenda?

GPU3LOK.jpg

Vai ser barato. :D
Ainda estou para perceber o "Rambo Cache". Acho que ainda não foi explicado.

3Y3NDtf.jpg

2 Stacks com 128 Xe Cores + 128 Ray tracing Units (que será usado para computação) 8 controladores HBM2e, 64 MB L1, 288 MB L2, na configuração máxima.
 
O mais aliciante disto tudo para mim é que vamos ter outro competidor para dlls e fsr que também vai ser "aberto" e pode ser usado em tanto amd como nvidia (com um penálti em performance pelo que entendo).

E para já o consenso parece ser que este método da intel é superior ao método da AMD e mais a par ao método da nvidia o que é uma grande win para o consumidor aos meus olhos.

Se outros métodos abertos que funcionam em todo hardware se começam a propagar muito o futuro de dlls pode ficar em questão, ou secalhar podemos ter as 3 tecnologias a co existir, só o futuro dirá.
 
O Arc tem núcleos para operações Matrix.
Em Intel vai correr no XMX.
Mas em nVidia e AMD vai correr em DP4a.

A falar de dp4a, estas são as arquiteturas que suportam dpa4a e que por arrasto vão suportar XeSS:

AMD: Vega 20, Arcturus, Navi 12 e posteriores .
Arm: Mali G-52, G-76, Valhall .
Intel: Gfx12 e posteriores.
Nvidia: GP102 e posteriores.

Espero que saia coisa boa disto tudo, o mercado precisa de outro player de peso.
Se eles lançam algo para o mid range, com preço apetecível que tenha boa performance começam num bom caminho, e claro, que haja realmente placas para comprar quando eventualmente se lançarem para o mercado.
 
Se eles lançam algo para o mid range, com preço apetecível que tenha boa performance começam num bom caminho, e claro, que haja realmente placas para comprar quando eventualmente se lançarem para o mercado.

Duvido que haverá mais stock de Intel em abundancia, dado que eles vão usar a TSMC, ou seja, ainda mais uns sku's para a TSMC dividir a produção de 6nm.

Só não entendo como será a dinamica da TSMC com a Intel...
Não estará a Intel à espera de saber a formula magica da TSMC para depois replicar nas proprias fabs?!
 
Duvido que haverá mais stock de Intel em abundancia, dado que eles vão usar a TSMC, ou seja, ainda mais uns sku's para a TSMC dividir a produção de 6nm.

Só não entendo como será a dinamica da TSMC com a Intel...
Não estará a Intel à espera de saber a formula magica da TSMC para depois replicar nas proprias fabs?!
acho que não é por ai mas sim por estratégia geopolítica as coisas lá para as ilhas estão escaldantes assim é mais uma razão para USA defender aquela área tão importante para os americanos perante a china...
 

Intel XeSS super sampling does not require per-game training, 2.0 and 3.0 versions coming​


Karthik Vaidyanathan (KV), Intel’s Principal Engineer for XeSS technology has been interviewed by Usman Pirzada from Wccftech.

Intel XeSS will not require training per game, just like NVIDIA DLSS 2.0​

One of the first things revealed by Karthik was that XeSS will not require per-game training. It’s a uniform library that will be compatible with various titles at the same time. It is a bit similar approach to NVIDIA DLSS 2.0, for which libraries can be moved between the games without affecting the core technology, which is supersampling.

KV: DLSS 1.0, again I am not aware of the internals of DLSS because its not open, but from my understanding, it was not something that generalized across games, DLSS 2.0 plus was neural network based and it generalized very well. XeSS from day one, our objective has to be a generalized technique. […] And also you don’t want to have a solution that’s fragile that requires training for every game that someone ships that’s also been our objective from day one.
He also confirmed that the official demo of XeSS was not used as training material:

[…] You’ve seen the demo and I can say that XeSS has never seen that demo. It was never trained on that demo. All the content in that scene that you saw was not used as a part of our training process.

XeSS will work with GPUs supporting Microsoft Shader Model 6.4 and above​

The engineer also explains why XeSS will see a broader adoption than NVIDIA DLSS. Intel’s technology will be available in two variants: XMX-accelerated, exclusive to Intel Arc GPUs, and DP4a based, a special dot product acceleration supported by Microsoft Shader Model 6.4 enabled GPUs, including NVIDIA Pascal, Turing, and AMD RDNA1/2.

KV: Nvidia has had this I think, since Turing and AMD has this now on RDNA2. So even without Matrix acceleration you can go quite far. It might not be as fast as matrix acceleration, but certainly meets the objective. And as I said, the objective is to maintain the fidelity of your render and achieve smooth frame rates. So, when it comes to older models, on older internal GPUs, we’ve had dot product acceleration (DP4a) for a while now. Microsoft has enabled this through Shader Model 6.4 and above and on all these platforms XeSS will work.
[…]
KV: So, for DP4a, yes, SM 6.4 and beyond SM 6.6 for example supports DP4a and SM 6.6 also supports these packing intrinsics for extracting 8-bit data and packing 8-bit data. So we recommend SM 6.6.
So far AMD had not publicly acknowledged that they wish to support XeSS technology, nor they have provided a list of supported GPUs, which is understandable since the technology has not been released yet. However, it should be noted that Intel did not wait for AMD FSR to be released to express interest in competitor’s technology.

The DP4a version will have a longer frame render time, but it will still be significantly lower than rendering the image at native 4K resolution.

XeSS will have one API for both versions​

From the developer’s perspective, there will be no change to the API for XMX and DP4a based versions of XeSS.

KV: […] I would wanted to point out that both the DP4a version and the XMX version are exposed through the same API. So as far as the integration is concerned, it’s actually the same. What the game engine sees is the same interface and underneath that interface, you know, you can select the DP4a or the XMX version and depending on the platform. So I wanted to clarify that, it’s not two different interfaces. It’s the same interface and the same library that it’s integrated with two different paths inside of it, which makes it a lot easier for game developers.

No support for NVIDIA Tensor Cores, and no FP16/FP32 fallback at launch​

Furthermore, he added that the XMX version of XeSS will not take advantage of NVIDIA Tensor Cores.

KV: Ah, no. Until there is standardization around Matrix acceleration that is cross-platform, it’s not easy for us to build something that runs on all kinds of Matrix acceleration hardware. DP4a has reached a stage where, you know, it supports this on all platforms. Certainly on all modern platforms. So that makes it much easier for us. But Matrix acceleration is not at that same stage. So our matrix implementation that targets XMX is Intel specific.
Some users may want to know that there is also no FP16/32 fallback option planned. At launch FSR had FP32 fallback for older GPUs, ensuring that a very large number of graphics architectures are supported. However, those instructions are not based on matrixes, like Tensor or XMX cores, which is the most common operation for AI-based algorithms.

KV: [FP16/32 fallback] No, not at the moment. We will look into it, but I cannot commit to anything at this point. Even, if you were able to do it, there’s the big question of performance and whether its justified.

XeSS will have multiple quality modes​

Just like FSR and DLSS, XeSS will feature quality modes, providing more flexibility to gamers and developers, who would want to get the most out of their high-end or low-end GPUs through either manual or automatic optimization.

KV: We will have the quality modes as both FSR and DLSS have those at this point. So, you know, we will support the same when users are used to it. So we would support that. But I also wanted to point out that the one thing that sort of gets lost in these different modes, performance, quality, ultra quality is that what you really want to have is something like the performance mode produce an image quality that is so close to ultra quality that it doesn’t take away from the visual experience.

XeSS 2.0 and 3.0 are confirmed but they might require open-source input​

Karthik confirmed that Intel will launch XeSS 2.0 and 3.0 in the future as the technology evolves. The manufacturer will be open-sourcing its technology once the technology matures. An open-source approach to AI-based super resolution might either help boost the popularity of XeSS and push the market towards a true cross-vendor solution, but it might also be a start of further market segmentation with minor changes between potential XeSS-clones. This is likely why Intel is reluctant to open source its technology at launch.

KV: There will be XeSS 2.0 at some point, XeSS 3.0 at some point. You know at some point maybe graphics just completely changes and it’s all neural networks. […] We have a certain perspective on this. […] if you have a technology that’s open source and runs on multiple platforms, it’s something that you can integrate into your game engine and not have to differentiate for every single platform that you’re running on. So, yes, it’s also been our objective from day one to have a solution that works on other GPUs, is open source and can set the path or establish a path to wider adoption across the industry.

XeSS is trained at 64 samples per pixel​

XeSS reference images for training are trained at 64 samples per pixel, which is 4x more than NVIDIA using 16 samples.

KV: That’s a very interesting question. Let me put it differently, we train with 64 samples per pixel reference images and I think that makes more sense. Because what we are trying to match, the kind of quality that we are trying to train the network with is 64x SSAA. That’s what we use to train the network, and another way of looking at it is how many samples it ends up being overall. So, when NVIDIA says 16k images, I am assuming it translates to the number of samples it has inside a pixel. So from our standpoint, that’s what I can talk about. We train with reference images that have 64 samples per pixel.
Intel XeSS technology should launch alongside Arc “Alchemist” GPUs in the first quarter of 2022. Intel will release a closed-source XeSS SDK to developers based on the XMX version. The DP4a version SDK will be released by the end of this year.

https://wccftech.com/intel-xess-interview-karthik-vaidyanathan/

https://videocardz.com/newz/intel-x...per-game-training-2-0-and-3-0-versions-coming
 
Sempre curti bué o tom Peterson pois vê-se mesmo que é um engenheiro entusiasmado com o que faz. Odiei o que o jensen huang lhe fez durante a apresentação das turing em que o humilhou publicamente de forma idiota.

Da entrevista como seria de esperar não saiu muita coisa nova e apenas saliento estes pontos como alguma novidade:

-xess tem como goal final definir a api para este tipo de implementações e vai permitir no futuro ter backends proprietários (provavelmente definidos em drivers) para cada vendor ter a sua própria implementação optimizada (que pode resultar em diferentes performances e qualidade).

-a intel parece ter planos para criar uma tool standard de avaliação de resultados de up scaling para retirar um pouco a avaliação subjectiva que se tem usado até agora. Duvido que seja perfeito mas poderá ser mais uma tool para ajudar na comparação.

-o tom deixou hint que a intel ia melhorar o ecossistema de adaptive sync. Quero ver no que é que isto se vai traduzir pois acho que o mercado já está actualmente com alguma maturidade.
 
Em relação ao adaptive sync, a verdade é que a implementação da AMD sempre foi um pouco "vaga", provavelmente será a implementação de um standard com critérios um pouco mais rigorosos.
Até porque a AMD antes de implementar o Async nos drivers OSS questionou numa mailing se algum fabricante estava interessado numa implementação comum no MESA ao invés dos drivers de cada fabricante, os OSS developers da Intel disseram que sim e começou uma discussão sobre a forma de implementar uma base comum no MESA e depois os "bits" específicos de cada um no drivers, sempre se pouparam umas linhas e uns MB.

Espero bem que no caso do XESS façam o mesmo.
 
O que disse o Huang sobre o Peterson?
No meio da apresentação de cenas com ray-tracing de turing o tom estava a controlar os slides e as demos enquanto o jensen falava. Depois o jensen começou a sair offscript e começou a baralhar com a ordem dos slides e demos. Do nada começou a cascar no tom a dizer implicitamente que ele era incompetente durante 2-3min. Epá, eu achei aquilo muito mau e passado algum tempo o tom saiu da nvidia e não estranho nada que um dos motivos que o fez sair foi aquele episódio.
 
Nvidia: GP102 e posteriores.

O GP104 e GP106 também suportam a instrução dp4a.

The engineer also explains why XeSS will see a broader adoption than NVIDIA DLSS. Intel’s technology will be available in two variants: XMX-accelerated, exclusive to Intel Arc GPUs, and DP4a based, a special dot product acceleration supported by Microsoft Shader Model 6.4 enabled GPUs, including NVIDIA Pascal, Turing, and AMD RDNA1/2.
O Upscale por AI em placas que não sejam da Intel, não terá aceleração por hardware. Vamos ver o impacto na performance que isso terá.

Não me parece que seja a solução para o futuro. O futuro será os jogos usarem o DirectML do DirectX 12 Ultimate, e depois o DirectML encarrega-se de distribuir a carga conforme o Gpu que estamos a usar. Ou seja, na Nvidia usava os Tensor Cores, na Intel usava o XMX e na AMD usa o que vierem a ter. Mas o developer nem sequer pensa que Gpu o consumidor tem, pois a ele só lhe interessa que suporte DirectML.
 
Última edição:
Não me parece que seja a solução para o futuro. O futuro será os jogos usarem o DirectML do DirectX 12 Ultimate, e depois o DirectML encarrega-se de distribuir a carga conforme o Gpu que estamos a usar. Ou seja, na Nvidia usava os Tensor Cores, na Intel usava o XMX e na AMD usa o que vierem a ter. Mas o developer nem sequer pensa que Gpu o consumidor tem, pois a ele só lhe interessa que suporte DirectML.

Em primeira instância não, mas é como o @muddymind resumiu da entrevista do Tom Peterson. O XeSS inicialmente não vai poder utilizar os tensor cores, mas se a nvidia quiser vai poder otimizar para o seu hardware.
 
Uma das coisas que mais me preocupa é a falta de maturidade dos drivers.

https://videocardz.com/driver/intel-graphics-driver-30-0-100-9864

Olhando para as release notes com known issues extensos de casos que não são corner cases percebe-se facilmente que ainda há um longo caminho a percorrer até chegar ao nível dos dois grandes.

É daquelas coisas que será necessário tempo e só espero que isto não dite o insucesso pois acho que seria extremamente benéfico o aparecimento de um 3o player estável.

Por outro lado só espero que a intel não se arme em "esperta" com negócios dúbios a levar os oem builders de portáteis a serem "icentivados" a usar gpus da intel (que infelizmente a intel já tem histórico de práticas da mesma natureza).
 
Uma das coisas que mais me preocupa é a falta de maturidade dos drivers.

https://videocardz.com/driver/intel-graphics-driver-30-0-100-9864

Olhando para as release notes com known issues extensos de casos que não são corner cases percebe-se facilmente que ainda há um longo caminho a percorrer até chegar ao nível dos dois grandes.

É daquelas coisas que será necessário tempo e só espero que isto não dite o insucesso pois acho que seria extremamente benéfico o aparecimento de um 3o player estável.

Por outro lado só espero que a intel não se arme em "esperta" com negócios dúbios a levar os oem builders de portáteis a serem "icentivados" a usar gpus da intel (que infelizmente a intel já tem histórico de práticas da mesma natureza).

Cada ponto referido concordo... em especial a esses jogos que a intel faz no mercado :(
 
Back
Topo