Processador Apple Custom Processors (Kalamata)

FNWXJxPWQAkWVzk


 
@Dark Kaeser Está-me a escapar algo ou ali nos "4 Efficiency Cores" do M1 Ultra, não deveria estar 8 MB L2 Cache (4+4)?
Já agora, a L3 não aparece nessa imagem, mas deverá ter 96 MB de L3 (48+48).

Uma ultima coisa. Olhando para os TDPs, acho que não seria muito complicado ter este M1 Ultra num Portátil, com Clocks um pouco mais baixos ou num DTR, com os mesmos Clocks.
 
@Dark Kaeser Está-me a escapar algo ou ali nos "4 Efficiency Cores" do M1 Ultra, não deveria estar 8 MB L2 Cache (4+4)?
Já agora, a L3 não aparece nessa imagem, mas deverá ter 96 MB de L3 (48+48).

Uma ultima coisa. Olhando para os TDPs, acho que não seria muito complicado ter este M1 Ultra num Portátil, com Clocks um pouco mais baixos ou num DTR, com os mesmos Clocks.
Não foi dito que a "L3" cache era de 24 MB?
 
Tenho 2 curiosidades:
  1. Como é que funciona o GPU internamente. Se funciona fisicamente como 1 GPU monolítico, usando o Ultrafusion, ou se são 2 GPUs semi-independentes e depois tem "algo" que faz mostrar, de forma lógica, apenas 1 GPU monolítico "virtual", ao Sistema Operativo, ou mesmo se o próprio Sistema Operativo vê 2 GPUs independentes e depois há "algo" tipo SLI.
  2. A outra curiosidade é se o Ultrafusion permite mais do que 2 Dies. Por exemplo, 4 Dies, num futuro mac Pro.
Acho que responde à 2ª curiosidade pelo menos



há mais duas patentes, que por limitações do fórum não dá para colocar, mas

Screenshot-2022-03-09-at-13-18-20-1-Underfox-Underfox3-Twitter.png


Imagem de cima
https://www.freepatentsonline.com/20210125967.pdf

imagem de baixo
https://www.freepatentsonline.com/20210217702.pdf
 
Não foi dito que a "L3" cache era de 24 MB?
Referes-te ao Pro ou ao Max?

Se não estou em erro, o que aconteceu no lançamento dos M1 Pro e Max é que se pensou que o Max poderia ter 64 MB de L3, mas depois foi confirmado que eram "apenas" 48 MB de L3.
Isto é, o Pro tem 24 MB de L3 e o Max tem 48 MB de L3.
Como o M1 Ultra são 2 max, terá 96 MB de L3 (48+48). :)
Acho que não estou a falhar nas contas.
Acho que responde à 2ª curiosidade pelo menos



há mais duas patentes, que por limitações do fórum não dá para colocar, mas

Screenshot-2022-03-09-at-13-18-20-1-Underfox-Underfox3-Twitter.png


Imagem de cima
https://www.freepatentsonline.com/20210125967.pdf

imagem de baixo
https://www.freepatentsonline.com/20210217702.pdf
Interessante. Nem imagino para que preços se irá atirar um M1 com mais do que 2 dies. :D

Com mais de 2 dies, ainda se torna mais interessante perceber como é que os iGPUs estão a funcionar internamente. A Apple controla o hardware e Sistema operativo, incluído o driver. Não controla todo o software.
A solução mais "fácil" será o Sistema Operativo ver cada iGPU de forma independente e depois o driver fazer algo tipo "SLI". No entanto, isso trará problemas de compatibilidade e não iria escalar de forma quase linear, com o aumento de iGPUs.

Pelo meio, vejo outros problemas. Por exemplo, cada iGPU tem acesso a toda a memória RAM ou só à parte que está ligada aos controladores de memória daquela Die? É que se aceder a toda, irá haver uma penalização a nível de bandwidth e latência. Se só aceder a parte, torna complicado o Sistema ver os vários iGPUs como um único, haverá duplicação de dados, etc.
Espero que a Apple dê mais informação da parte dos iGPUs. :)
 
Pois, o Mac Pro deve ter 4 dies pelo menos. Mas enquanto o atual (e todos os cpus HEDT/Server) podem levar "teras" de ram, uma solução 4-die "apenas" pode ter 256 GB...

A não ser que consigam aumentar a densidade ou fazer stacking RAM para 512-1TB
 
Pois, o Mac Pro deve ter 4 dies pelo menos. Mas enquanto o atual (e todos os cpus HEDT/Server) podem levar "teras" de ram, uma solução 4-die "apenas" pode ter 256 GB...

A não ser que consigam aumentar a densidade ou fazer stacking RAM para 512-1TB
Com 4 dies, talvez tenha que ter "algo" entre eles, por exemplo uma IO die, que tenha controladores de memória ligados a DIMMs. Poderia ter menos LPDDR e ficaria a funcionar como Cache ou endereçamento inicial, ou algo assim. :) Isto é 100% especulação minha e quase de certeza não vai acontecer. :D

Mais a sério, será que haverá mesmo uma versão com 4 dies? Será preciso? A Apple talvez não apresente nada com mais de 128 GB, que também não é assim tão grande e por algum tempo não tenha nada para quem precise acima disso.
Mesmo com 2 dies há ali cenários que não serão perfeitos. Cores de uma das dies a aceder a cache/memória ligada na outra die, vai ter uma penalização de latência. Os Ryzens com 2 CCX tinham essa penalização e os cores estavam na mesma die.
Além disso ainda é preciso ver como é que aqueles 2 iGPUs funcionam em simultâneo.
Se estes problemas se levantam com 2 dies, com 4 será ainda mais complicado.
 
Uns Benchmarks do iGPU:
zgqHTmb.png


9FfOUjg.png

https://www.theverge.com/22981815/apple-mac-studio-m1-ultra-max-review

O RTX 3090 PC tem um Intel i9-10900 + 3090. O Boxx Apexx 4 tem um Threadripper 3970X, mas não não consigo perceber que Gráfica tem.
São apenas 2 testes, Sistemas Operativos diferentes, etc, mas os M1 levam uma "porrada" do PC com uma 3090, se só contarmos com Performance Pura e não Performance/TDP. Aliás, no Tomb Raider, o Mac Pro x86 ou anda muito perto ou é melhor.

Reparei que no Tomb Raider, a 4K, o Ultra escala quase linearmente em relação ao Max. Max com 1 iGPU, 33 FPS, Ultra com 2 iGPU, 60 FPS, por isso, ali não há dúvidas que estão os 2 iGPUs a "funcionar" ao mesmo tempo.
No GeekBench 5 Compute é que o Ultra não tem um resultado muito melhor que o Max, mas mesmo que fosse o dobro, seria por volta de 120 a 140 mil, o que mesmo assim fica muito longe da 3090. Naquele benchmark, até foi testado com OpenCL e a própria API da Apple, o Metal.

Seria interessante ver mais resultados dos iGPUs do Ultra e saberem-se mais detalhes de como funcionam os 2 iGPUs ao mesmo tempo. :)
 
Ya, a 4K escala muito bem, quase 100%, depois a 1080p é pouco, mas isso se ve no geral porque já entra limitação do CPU.

OpenCL que o scaling é terrível e não esperava, algo assim de computação pura costuma escalar muito bem em multi GPU

Nota que o M1 max do Mac Studio é mais rápido que no macbook pro. Clocks maiores de origem ou consegue sustentar melhor por ter mais cooler? Se bem que o geekbench é um bench curto o que não deve ser suficiente pro MBP reduzir clocks
 
Estou espantado é que a Apple tenha sugerido que o M1 Ultra ia ser melhor que a 3090 e no final aconteça isto. Não é habitual vindo deles. Por outro lado acabo por ficar descansado porque têm que trabalhar mais.
 
Estou espantado é que a Apple tenha sugerido que o M1 Ultra ia ser melhor que a 3090 e no final aconteça isto. Não é habitual vindo deles. Por outro lado acabo por ficar descansado porque têm que trabalhar mais.

Sim, por margem tão larga cai um bocado mal. Quando lançaram o M1 e Pro e Max foram mais consistentes com a realidade. No Ultra, pintaram demasiado a manta no processamento gráfico ... Claramente tal não escalou tão bem quanto o processamento central.
 
Última edição:
Já da outra vez foi o mesmo.
Ninguém estava à espera que fosse.

Não me recordava. Pensava que tinha sido uma estreia. Como referi fiquei incrédulo e ainda por cima não precisavam e concordo com o @Trance que até lhes ficou mal.

Quando pegamos no consumo, eles podem comparar e dizer que a performance pode ser superior mas têm que dizer que estão a dizer para o mesmo consumo e não em termos absolutos Enfim. Não podia de deixar a nota.
 
Que tamanho monstruoso e a 5nm...
O Package é monstruoso, a área de cada 1 dos 2 Chips dos "APUs", nem por isso.
O Package é monstruoso porque além dos 2 Chips "APUs" do M1 Max, tem 8 Chips de RAM LPDDR. Isto é, o CPU, GPU e RAM estão todos ali.
A área de cada um dos "APUs" é grande, mas há CPUs e GPUs maiores. A área dos 2 "APUs" em conjunto é enorme, mas de certeza que tem contras que um APU monolítico não tem.
Podia era ter comparado com um Threadripper da AMD...
Threadripper é para meninas. :D
UUX8mB4.jpg


Agora a sério, são novamente coisas muito diferentes. O Threadripper não tem RAM, não tem GPU, usa Chiplets (menos monolítico), o IO é separado, etc. :)

Não há nada muito parecido com o M1 Ultra, para se poder comparar. A nível de package, o mais parecido será talvez o MI200 (CDNA2) da AMD, que no mesmo package tem 2 GPUs, 8 Chips HBM e é produzido a 5 nm TSMC, mas não tem a mesma finalidade do M1 Ultra.
9aOrH42.jpg
 
O package do threadripper ainda imaginei lá para trás ser usado para coisas mais avançadas. como colocar HBM onboard ou até um GPU dedicado com HBM.

É claro 2x 420 mm2 é impressionante, mas há coisas maiores por aí fora. GPUs são maiores que isso, tem muitos CPUs tão grandes também, o próprio IO die do threaripper/epyc...

Não tem é a quantidade de transistores, mas pronto é magia negra dos 5nm.

O que pode comparar é a Hooper, com os mesmos 5nm TSMC, mais de 800mm2 monolítico, mas "apenas" 80B de transistors vs 114B dos dois M1 max
 
Back
Topo