Gráfica Nvidia Ampere 8nm (RTX 3000 series)

Esqueçam qualquer tipo de noticias a tirar conclusões sobre performance de novas nVidia, a partir dos números daquele supercomputador. Eles até podem acertar, mas um relógio avariado está correcto 2 vezes por dia.
A performance daquele supercomputador passa dos previstos 5.9 Petaflops com as V100 para 8 Petaflops com o futuro GPU da nVidia, mas......

  • Os 2 números de PFlops são previsões.
  • O número de GPUs com as iniciais V100 não será o mesmo com o número de GPUs que vão usar numa instalação futura.
  • Não se sabe que percentagem de performance vem dos processadores. Além disso, os nós com GPUs também terão CPUs e como o número de GPUs será diferente, o número de CPUs também será.
  • Linpack (Se é que eles estão a usar Linpack, porque falam muito em AI) é um workload muito diferente de jogos.
  • Se estão a falar de performance AI, poderão estar a contar com os "Tensor cores". O Workload em programas de AI também é muito diferente de outros workloads tradicionais do mercado HPC.
  • Uma futura "A100" poderá ser muito diferente dos GPUs para o mercado consumidor. Mesmo se for usada no mercado consumidor, só será em Titans ou talvez X080Ti.
Provavelmente estarei a esquecer-me de mais variáveis. Transpor números previstos do mercado HPC, para o mercado de jogos, ainda por cima com tantas variáveis, é mesmo muito especulação. Títulos com X% mais rápidas, é clickbait.

EDIT:
Já estive a investigar noutras fontes. Os supercomputadores Big Red da Nvidia são 75% mais rápidos com os novos Ampere ao invés com Turing.

Não, não é. Ler o artigo original.
E só há 1 supercomputador Big Red 200 e são de uma familia da Cray, que agora é da HPE. A família destes computadores chamam-se Shasta e as gráficas nVidia são apenas um dos componentes.

https://www.nextplatform.com/2020/0...e-first-production-cray-shasta-supercomputer/
 
Última edição:
NVIDIA's Next-Generation "Ampere" GPUs Could Have 18 TeraFLOPs of Compute Performance

i02BAGQni1w0EBIq.jpg


eUWJdvZSSfHVetow.jpg
 
Não me parece nada de outro mundo.

A 2080 Ti faz 13,5 TFlops. Uma 3080 Ti vem de certeza com mais Cuda Cores e com clock mais elevado, o que faz aumentar os TF.
 
A 2080 ti faz 13,5TF em FP32. FP64 faz umas centenas de GigaFlops e o pessoal já vai com sorte. Dai que isto são números que não servem para quase nada, no que diz respeito à adivinhação da performance das placas gaming. :002:

Só nos diz que as próximas Tesla de topo deverão ser uns belos de uns azulejos a 7nm que, no mínimo, duplicarão a performance FP64 do actual GV100 (Titan V, Tesla V100), que faz ~7,5TF FP64.
Eu não precisava de bola de cristal, ou de tantas contas, para fazer uma previsão semelhante. :D
 
Não me parece nada de outro mundo.

A 2080 Ti faz 13,5 TFlops. Uma 3080 Ti vem de certeza com mais Cuda Cores e com clock mais elevado, o que faz aumentar os TF.

Aquele valor de 18 Tflops deve estar a ser calculado em FP64. A 2080 Ti faz 420 GFlops em FP64, porque está artificialmente cortada (1:32). A comparação que se deve fazer é com a V100, que na versão SMX2, faz 7,8 TFlops em FP64.
Dois pontos sobres aquele post com os cálculos:
  • Não sei se não há nós no actual "Big Red 200" com GPUs, visto que o plano original era de alguns nós terem 1 ou 2 GPUs. Isso mudaria os cálculos.
  • Não sei onde estão a fazer a previsão de performance. Se são números teóricos ou será em Linpack ou outra coisa qualquer (AI?)l.
Acho muito complicado tirar grandes conclusões de performance com o que se sabe até agora.
 
Andam ai uns leaks que o GA100 terá um die size massivo de 826mm2... A 3080 Ti será GA103 e a 3080 será GA104. por isso esse GA100 presumo que seja uma Titan ou algo do género.

Ainda segundo esse leak:

  • INT32 Unit remains unchanged.
  • Double the FP32 Unit for shader proportion.
  • The performance of the new Tensor Core is doubled.
  • Enhanced L1 Data Cache for more comprehensive functions.
  • True architecture for RTX GAMING with all-new design RT CORE ADVANCED.
 
Os detalhes dos testes tem info interessante:

Código:
      "name": "OpenCL Device Driver Version",
      "value": "445.01",

      "name": "OpenCL Platform Version",
      "value": "OpenCL 1.2 CUDA 11.0.0",

Se não vi mal, a ultima release do Cuda é a 10.2 e não a 11.0. Drivers 445.01 também acho que não existem publicamente.

Código:
    {
      "id": 75,
      "name": "Clock Frequency",
      "value": "1.20 GHz",
      "ivalue": 1203,
      "fvalue": 1203.0
    },

1.2 Ghz de Clock.

Source: https://browser.geekbench.com/v5/compute/207559.gb5

No outro teste:

Código:
      "name": "OpenCL Platform Version",
      "value": "OpenCL 1.2 CUDA 11.0.28",

      "name": "OpenCL Device Driver Version",
      "value": "445.35",

Código:
    {
      "id": 75,
      "name": "Clock Frequency",
      "value": "1.20 GHz",
      "ivalue": 1203,
      "fvalue": 1203.0
    },

https://browser.geekbench.com/v5/compute/287799.gb5

Isto foi apenas numa olhada pelos detalhes na diagonal. É possível que tenha lá mais info interessante.

Em relação ao scores e para comparação:
G0PmjPP.png


https://browser.geekbench.com/opencl-benchmarks
 
Última edição:
Back
Topo