Processador Apple Custom Processors (Kalamata)

Isto é um tweet de uma pessoa da secção Apple da Bloomberg. Foi a Bloomberg que avançou em primeira mão que a Apple iria ter computadores com processadores ARM proprios, por isso a informação neste tweet é capaz de ser muito confiável. :)


Ou está-me a escapar algo (provável :D), ou não estou a ver como é que a Apple consegue ter num SOC com 1 Die, com 40 Cores e 128 EUs.
Ou é um SOC Multi Die (MCM), ou a Gráfica é uma Placa dedicada ou tem mais que 1 Socket (Com GPUs, acho improvável este ultimo). :)

Do lado do CPU com 40 Cores, 32 P + 8 E Cores?

Um Computador com 40 Cores + 128 EUs, vai ser um monstro. :|
 
Qual o objetivo de terem tanta potencia bruta grafica?

Para jogos não será certamente, pois o MacOS basicamente não os tem. E mesmo que tenham mais potencia bruta, iria faltar-lhes a otimização da Nvidia e Amd.
 
3D rendering and modeling (real-time ou offline), en/de/transcoding, ML, sistemas que precisem de convoluções real-time ou de datasets grandes, etc. O que não falta são use cases para tirar proveito de um gpu grande. No entanto relembro que isto é gpu para metal (necessita moltenvk e outros wrappers para suportar outras apis) e não têm features como ray-tracing (importante para aceleração de renders com ray-tracing).
 
Talvez a melhor comparação seja com a A100 da nVidia. Este M1 Max tem mais 3 mil milhões de transistores que a A100, mas a A100 a 7 nm ocupa 826mm², quanto este M1 Max ocupa 432mm².
É certo que são chips diferentes, para finalidades diferente e mercados diferentes, o que faz com que esta comparação não possa ser directa e justa, mas não deixa de ser interessante. :)
Sim, são coisas diferentes, mas a complexidade está lá... Talvez por dar menos clocks e potencia, os yields sejam melhores, não?

Não sei se é comparável com a Infinity Cache. Parece-me apenas ser Last Level Cache como outros APUs, que é usado pelo CPU e GPU.
A possível diferença é este M1 ter Caches enormes. Possivelmente 24 MB de L2 para os 8 P Cores e 64 MB L3. Não vejo referência à Cache L2 dos E Cores.
Aquilo funciona como L3 partilhada basicamente...

os E-cores tem 4 MB L2.

É completamente impossível ter este SOC a 5 nm, com 128 EUs no GPU. O salto de 16 para 32 EUs, a nível de die size, é de 187mm².
Mesmo uma versão com 64 EUs parece-me extremamente improvável, a 5 nm. Iria atirar o SOC para +/- 800mm². Até porque provavelmente teriam que vender esse Socket com partes desactivadas, por causa dos yelds.
Se aparecer este SOC com mais EUs, a 5 nm, aponto para o máximo de 48 EUs. E isso, mantendo os mesmos 8 P e 2 E Cores.

Para o mac pro e imac "pro", provavelmente ou irão separar GPU do CPU ou até combinar varios M1 Max, tipo 2 e 4 destes na mesma maquina...

Mas se reparares, a diferença entre o M1 pro e Max foi a adição de um bloco de GPU aka 16 cores + 2 canais de memoria + 2x 16 MB L3 + 1 decoder de proraw

O que era de valor seria comparar estes GPUs com a concorrência, pela quantidade de transistores, o bus largo de memoria e numeros de EUs (4096) não duvido que esteja ao nivel do GA104 ou mesmo GA102 e das "big navi" , mas por questões de arquitectura/eficiencia, tem que rodar a "apenas" 1280 mhz, rdna2 opera a 2,5 ghz++ e as ampere chegam a 2 ghz...

Se isso rodasse a 2 ghz e tivesse GDDR6/HBM, bom ia encarar os big monstros da amd e nvidia, claro que não era num portatil!

Aquilo tem 57B de transistores, mesmo com CPU/AI cores, IO, decoder/encoder de video e afins, o GPU + L3 + memory controller ocupa mais de metade do die. E mesmo assim os gpus da nvidia tem AI (tensor cores), RT cores e decoder/encoder de video
 
Última edição:
Qual o objetivo de terem tanta potencia bruta grafica?
A questão se calhar deve-se fazer ao contrário. "Porque não terem tanta potência bruta?"

A nível de TDPs, com o M1 Max "Completo", não parece ter valores maus. A nível de Cooling, também não parece desviar-se muito dos anteriores Macbook Pros.
A Apple tem um modelo de integração vertical e com este GPU, consegue "livrar-se" de mais um fornecedor externo. A Apple, por exemplo, tem acesso aos 5 nm da TSMC, coisa que os fornecedores de GPUs no mercado não têm.
A nível de integração, é menos um chip grande (O até agora GPU dedicado) e menos Chips de RAM (GDDR desse GPU). Além disso, devem conseguir que o PCB da Motherboard seja mais pequeno e menos complexo.
Do lado dos consumidores, é possível escolher entre versões com 32, 24 e 16 EUs no GPU, por isso, não é obrigatório ter "tanta potência bruta". Ainda têm a escolha do anterior M1 noutros produtos.

Por tudo isto, se nos benchmarks independentes confirmarem os valores de performance/TDP dados pela Apple, não vejo razão para "não terem tanta potência bruta". :)

os E-cores tem 4 MB L2.
Ena. Dá 2 MB por cada E Core. Mais uma vez, Cache bem grande.

Se estou a fazer bem as contas, temos então 28 MB de L2 e 64 MB de L3 no total.
O que era de valor seria comparar estes GPUs com a concorrência, pela quantidade de transistores, o bus largo de memoria e numeros de EUs (4096) não duvido que esteja ao nivel do GA104 ou mesmo GA102 e das "big navi" , mas por questões de arquitectura/eficiencia, tem que rodar a "apenas" 1280 mhz, rdna2 opera a 2,5 ghz++ e as ampere chegam a 2 ghz...
Eu estou muito curioso de ver resultados comparativos com outros GPUs integrados e dedicados, especialmente com GPUs que funcionem em OS X, visto que consegue-se ter uma comparação mais directa e justa.

De relembrar que isto é um GPU integrado e não dedicado. Se contarmos com as Iris Plus + eDRAM e aquele Frankenstein do APU Intel com GPU AMD, acho que é "apenas" a terceira tentativa de ter GPUs integrados a dar maior luta a GPUs dedicados. :)
Aquilo tem 57B de transistores, mesmo com CPU/AI cores, IO, decoder/encoder de video e afins, o GPU + L3 + memory controller ocupa mais de metade do die. E mesmo assim os gpus da nvidia tem AI (tensor cores), RT cores e decoder/encoder de video
São transistores "diferentes". Por exemplo a quantidade de SRAM nos 2 Chips deve ser bastante diferente. Normalmente, é na SRAM que se consegue os melhores valores de numero de transistores por área. Outro exemplo é que Chips onde o importante é apenas performance bruta, têm menor densidade a esse nível.

Este M1 Max é um chip muito mais genérico que a A100. A A100 se calhar nem um GPU "completo" é.
 
A questão se calhar deve-se fazer ao contrário. "Porque não terem tanta potência bruta?"

A nível de TDPs, com o M1 Max "Completo", não parece ter valores maus. A nível de Cooling, também não parece desviar-se muito dos anteriores Macbook Pros.
A Apple tem um modelo de integração vertical e com este GPU, consegue "livrar-se" de mais um fornecedor externo. A Apple, por exemplo, tem acesso aos 5 nm da TSMC, coisa que os fornecedores de GPUs no mercado não têm.
A nível de integração, é menos um chip grande (O até agora GPU dedicado) e menos Chips de RAM (GDDR desse GPU). Além disso, devem conseguir que o PCB da Motherboard seja mais pequeno e menos complexo.
Do lado dos consumidores, é possível escolher entre versões com 32, 24 e 16 EUs no GPU, por isso, não é obrigatório ter "tanta potência bruta". Ainda têm a escolha do anterior M1 noutros produtos.

Por tudo isto, se nos benchmarks independentes confirmarem os valores de performance/TDP dados pela Apple, não vejo razão para "não terem tanta potência bruta". :)


Ena. Dá 2 MB por cada E Core. Mais uma vez, Cache bem grande.

Se estou a fazer bem as contas, temos então 28 MB de L2 e 64 MB de L3 no total.

Eu estou muito curioso de ver resultados comparativos com outros GPUs integrados e dedicados, especialmente com GPUs que funcionem em OS X, visto que consegue-se ter uma comparação mais directa e justa.

De relembrar que isto é um GPU integrado e não dedicado. Se contarmos com as Iris Plus + eDRAM e aquele Frankenstein do APU Intel com GPU AMD, acho que é "apenas" a terceira tentativa de ter GPUs integrados a dar maior luta a GPUs dedicados. :)

São transistores "diferentes". Por exemplo a quantidade de SRAM nos 2 Chips deve ser bastante diferente. Normalmente, é na SRAM que se consegue os melhores valores de numero de transistores por área. Outro exemplo é que Chips onde o importante é apenas performance bruta, têm menor densidade a esse nível.

Este M1 Max é um chip muito mais genérico que a A100. A A100 se calhar nem um GPU "completo" é.

Só se não considerares os APUs das consolas, claro. Esse são por excelencia os melhores gpu integrados disponiveis.
 
Só se não considerares os APUs das consolas, claro. Esse são por excelencia os melhores gpu integrados disponiveis.
Não vale muito a pena considerar os APUs das Consolas. Poucos aparecem no mercado PC, aparecem "cortados" e os CPUs têm bastante deficiências comparados com os CPUs no mercado PC.
Os das anteriores gerações, tinham CPUs com Cores bastante simples e com uma performance Single Thread bastante má.
Da corrente geração, o 4700S tem o GPU desligado, o Ryzen que ele tem é significativamente pior em grande parte das instruções aos Zen2 PC e a GDDR impõe uma latência medonha.

Na prática, podem servir para o mercado de Consolas, mas não têm tido qualquer impacto no mercado PC.
Eu acho que o M1 max é um GPU dedicado com um CPU integrado :002:

A unica coisa comparavel é os SoCs das consolas
A relação entre a área ocupada pelo GPU e o resto é capaz de não ser muito diferente dos APUs x86 actuais. Os GPUs já ocupam uma grande parte da área nos APUs x86 no mercado PC.
Acho que as grandes diferenças são que a Apple usa, comparativamente, um processo de fabrico melhor, tem um die size que é mais do dobro dos Intel/AMD e arranjou uma forma de "alimentar" o GPU com bastante Bandwidth.
Há outra diferença que vem do mercado da Apple. Não se vai encontrar um Portátil com o M1 Max por 700€.
 
Die shot do M1 Max:

M1MAX_575px.jpg


Die shot do Cezzane/Renoir:

vVoHn1yYBcaRWWjg.jpg


O gpu é relativamente pequeno (quadrado com 8 segmentos do lado direito), no Cezzane é ainda menor por causa da L3 e aumento do tamanho dos cores

Agora no M1 Max o GPU sozinho parece ocupar metade do die e isso sem contar com L3 e IMC, que obviamente estão "reforçados" por causa do GPU, e ainda tens as unidades de encoder/decoder que são bem musculadas (os GPUs também tem, mas não tão especializado, no Cezzane e o "L" no canto inferior direito)

Alias, a unidade de decoder é tão grande como os P-cores propriamente ditos!
 
Última edição:
Tudo aponta para LPDD5-6400, o que dá uns 410 GB/s.

Claro que se usasse GDDR6 de 14000 num bus de 256 bits por exemplo ate podia ter mais, 448 GB/s, mas a latencia seria maior e teria que desenvolver ICs de 128 bits. Os ICs nas gráficas so tem 32 bits o que implicava soldar 8 chips na board e não no package.
 
Tudo aponta para LPDD5-6400, o que dá uns 410 GB/s.

Claro que se usasse GDDR6 de 14000 num bus de 256 bits por exemplo ate podia ter mais, 448 GB/s, mas a latencia seria maior e teria que desenvolver ICs de 128 bits. Os ICs nas gráficas so tem 32 bits o que implicava soldar 8 chips na board e não no package.
lá está onde quero chegar... existe 400 GB/s e existe 400 GB/s o timings/latências acaba por ser crucial e ai a diferença pode ser maior ainda :D
 
Última edição:
A questão não é só número de chips que se teria de usar em GDDR e latências. Outro ponto muito importante é o consumo. O consumo de 8 Chips de GDDR ia ser pior. Estamos a falar de um Chip que vai ser usado em Portáteis.

Outra forma "fácil" e se calhar mais lógica, de chegar aos 400 GB/s seria usar HBM2e. Bastaria 1 Chip HBM2e com os seus 1024 Bits de Bus e conseguiriam ter 460 GB/s de Bandwidth.
Deve haver uma boa razão para não usarem HBM. Talvez consumo, ou preço ou algo assim. :)
EDIT: Não esquecendo que com 1 chip HBM2e, só teria 16 GB de RAM, o que também seria um problema.
 
Última edição:
O HBM não devem usar por limitação de capacidade apenas, porque do resto para consumo/eficiencia e integração é do melhor que ha!

Tem a questão do preço, mesmo sendo portatil premium, ter que por interposer e afins...
 
Resultados do GPU do M1 Max no GFXBench:

ProcessorAztec Ruins Normal TierAztec Ruins High TierCar Chase1440p Manhattan 3.1.1 OffscreenManhattan 3.1ManhattanT-RexALU 2Driver Overhead 2Texturing
Apple M1 Max503.3 FPS194.3 FPS298.5 FPS398.9 FPS816.9 FPS1,187.8 FPS1,391.2 FPS1,073.1 FPS398.1 FPS235,842 MTexel/s
Nvidia GeForce RTX 3080 Mobile455.1 FPS217.6 FPS437.8 FPS394.8 FPS580.7 FPS632.9 FPS1,918.0 FPS2,887.9 FPS172.5 FPS221,647 MTexel/s
AMD Radeon RX 6800M390.9 FPS242.0 FPS298.7 FPS363.5 FPS389.5 FPS404.1 FPS1,298.2 FPS2,650.4 FPS115.8 FPS234,201 MTexel/s
Apple M1203.6 FPS77.5 FPS176.5 FPS130.9 FPS272.4 FPS403.9 FPS649.5 FPS298.6 FPS245.1 FPS71,098 MTexel/s

https://www.tomshardware.com/news/a...o-rx-6800m-geforce-rtx-3080-mobile-gfxbench-5
https://gfxbench.com/device.jsp?benchmark=gfx50&os=OS X&api=metal&D=Apple+M1+Max&testgroup=overall

É preciso dizer que os M1 usam OS X e Metal como API, enquanto a RX 6800M e a RTX 3080 Mobile usam Windows e OpenGL como API.
Seja como for, no minimo, dá para fazer uma comparação directa com o anterior M1 "normal". :)
 
Sinceramente esperava que eles rapidamente tivessem um bom GPU, já andam a fazer GPUs para os SoCs móveis há algum tempo, e acho que o M1 já era um bom GPU para o que era.

Agora sacar rapidamente isto é ainda melhor que esperava. E ainda estamos nos portáteis...
 
É dificil comparar por causa das APIs, daí que tem casos com saltos enormes

mas ainda assim, quando se começa a comparar com os top para mobile da AMD e nVidia... MEDO!!
 
Back
Topo