Processador ARM for server

Parece-me que é para vender para developers que queiram desenvolver para ARM. É uma das falhas de ARM. Arranjar um PC x86 é extremamente fácil. Arranjar um PC ARM, nem por isso.
Aquele formato dá-lhes flexibilidade. Com a mesma board COM podem ter diversos formatos finais, como aquela daughter board Mini-ITX.
 
giphy.gif



Website.png

eMAG%208180_575px.png

O anandtech tem um unboxing dessa workstation, para uma review no futuro.

SNrSKiS.jpg


PjCxioZ.jpg


oZwGwAt.png


https://www.anandtech.com/show/1573...he-office-unboxing-an-ampere-emag-workstation
 
Última edição:
Com uma Radeon Pro W5100 :biglaugh:

Entretantos...

Drilling Down Into The SiPearl European Arm Server Chip
And now that SiPearl has gotten its initial funding of €6.2 million (about $6.7 million) and hired its first ten employees and taken down a license for the “Zeus” Neoverse N2 cores and related technologies from Arm Holdings to begin the design of the first generation of “Rhea” Arm server processors, we thought it would be a good time to sit down with Notton and have a chat about what SiPearl is doing both in conjunction with the EPI effort and as a separate company with its own aspirations in the Arm server chip space alongside Ampere Computing, Marvell, and Fujitsu, who are the three main players here.
sipearl-arm-chip-roadmap.jpg

https://www.nextplatform.com/2020/04/22/drilling-down-into-the-sipearl-european-arm-server-chip/

Ainda não se percebeu muito bem a amálgama que vai sair daqui... se é que vai sair.
 
Alguns benchmarks do Ampere 8180 (ARMv8 32 cores). NOTA: Este CPU é de 2018. Não é o "Altra" de 80 cores anunciado à pouco.

Single Thread:
R5Ehyqg.png


Multi Thread:
kIcEXPe.png


Cross Compile versus Nativo:
AdDJC1j.png


https://www.anandtech.com/print/15733/ampere-emag-system-a-32core-arm64-workstation

A performance single thread é má, o que é esperado. Apesar disso, não deviar ter usado o 10700K porque processadores de servidores não costumam atingir aqueles clocks. Seja como for, há uma diferença grande para o Gravitron2 da Amazon, que é um ARM recente.
Em multithreading é menos mal. Há uma grande diferença para o Gravitron2, mas o Gravitron2 tem o dobro dos cores.

Para um sistema dev é ok.
 
:n1qshok: Fugaku

June 2020
The 55th edition of the TOP500 saw some significant additions to the list, spearheaded by a new number one system from Japan.
The new top system, Fugaku, turned in a High Performance Linpack (HPL) result of 415.5 petaflops, besting the now second-place Summit system by a factor of 2.8x. Fugaku, is powered by Fujitsu’s 48-core A64FX SoC, becoming the first number one system on the list to be powered by ARM processors. In single or further reduced precision, which are often used in machine learning and AI applications, Fugaku’s peak performance is over 1,000 petaflops (1 exaflops).
https://www.top500.org/lists/top500/2020/06/


Arm And Japan Get Their Day In The HPC Sun
top500-june-2020-top10.jpg

https://www.nextplatform.com/2020/06/22/arm-and-japan-get-their-day-in-the-hpc-sun/
 
Fugaku delivers 2.8X the Linpack oomph at 64-bits, but at a $910 million cost compared to around $205 million for Summit, it costs 4.4X to get there.

Outch, mas sendo um supercomputador só com CPUs (Se é que aquele ARM pode ser considerado apenas um CPU), é normal.

Estes dois gráficos são interessantes:
UYa4dRz.jpg


QjKGUV5.jpg
 
Sim, mas lembrar que parte do custo é de desenvolvimento de tecnologia que de certa forma é "proprietária" não só do SoC mas também do interconnect, compiladores, SW e afins VS "montar" algo que está disponível de forma comercial para todos e cujo resultado depende apenas do orçamento.
 
A Ampere anunciou hoje o Altra Max e uns updates ao Altra.

O Altra Max, tem 128 cores a 7nm, a mesma cache L1 e L2 do Altra, 8 canais de memória, DDR4-3200, 128 Lanes Pci-Ex Gen4, sampling em Q4 e comercialização em 2021. Acho que não há mais detalhes:
y3nnu9z.jpg


dsU0P9U.jpg


Suponho que também seja baseado no Neoverse N1.

Quanto ao Altra, vai ter uma versão a 3.3 Ghz com TDP de 250W:
8eRj6Y1.jpg


Também já fizeram Tape out do futuro processador a 5nm.

https://www.servethehome.com/ampere-altra-max-targets-a-128-core-arm-cpu-shipping-in-2021/
https://www.anandtech.com/show/1587...80-cores-up-to-33-ghz-at-250-w-128-core-in-q4
https://www.phoronix.com/scan.php?page=article&item=ampere-altra-max&num=1
 
O que tem? Reparaste que é uma comparação entre um sistema só com CPUs* com sistemas hibridos CPUs+GPUs? Reparaste que há cores que não são usados em computação, porque são usados na parte de gestão?

*Apesar de destes A64FX não serem bem CPUs "tradicionais" e são mais parecidos com os antigos Xeon Phi.

Aquela minha resposta foi para dar a "curiosidade" que no mesmo dia um processador ARM chegou ao primeiro lugar do TOP500. Não foi para discutir aquele sistema. Há uma thread para isso. Não vamos estar a encher isto de lixo.

Pensava que o score era apenas de CPU nesses, devido á quantidade de cores. MAs pelo que percebi estão a contabilizar os GPU como cores tambem ?!?

Se vires a lista completa 2 sistemas puramente Xeon pouco depois, sem GPU ( e 8º e outro a 14). A peformance/core dos ARM é inferior se fiseres as contas.
O contumo é que não indicam, e ai é que os ARM podem ser melhores.
Mas o problema do ARM para o mundo consumidor, é conseguir ter boa performance com poucos cores ..
 
Pensava que o score era apenas de CPU nesses, devido á quantidade de cores. MAs pelo que percebi estão a contabilizar os GPU como cores tambem ?!?

O resultado é do sistema todo, que pode ter só CPUs, CPUs+GPUs, CPUs+Aceleradores e CPUs que não são bem só CPUs, caso deste ARM da Fujitsu, Os Xeons Phi, os Sunway SW26010 (Nº 4 na lista).

Depois, há uma contabilização por CPUs, mas em muitos casos, não são os CPUs a fazer computação ou têm apenas uma pequena parte.
O exemplo melhor é o que está em nº5. É um sistema com Intel Xeon E5-2692V2, mas o que faz computação são aqueles Matrix-2000.
Em sistemas com GPUs, também grande parte do resultado vem dos GPUs e não dos CPUs.

Se vires a lista completa 2 sistemas puramente Xeon pouco depois, sem GPU ( e 8º e outro a 14). A peformance/core dos ARM é inferior se fiseres as contas.
O contumo é que não indicam, e ai é que os ARM podem ser melhores.
Mas o problema do ARM para o mundo consumidor, é conseguir ter boa performance com poucos cores ..

Não podes comparar estes Fujitsu ARM com o nº8 e nº14. O primeiro usa um Xeon "CPU tradicional" e o nº14 além dos CPUs, usa GPUs Tesla.

Estes Fujitsu ARM são processadores que na verdade funcionam como um acelerador. É bastante parecido com o Xeon Phi.
Na verdade, o processador ser ARM ou x86 nesses processadores, pouco conta. E fazer contas por core também é um exercício fútil. Depende que tamanho têm os cores e o que fazem. Por exemplo, no Nº4 tens aqueles Sunway SW26010 com 260 cores e também é um CPU.
Mesmo olhando para os preços, também não é uma boa comparação. Aquele supercomputador da Fujitsu foi todo desenvolvido in-house e para depois ser comercializado. É normal que os custos sejam muito maiores.

Aquele sistema da Fujitsu é importante porque a Fujitsu sempre foi uma marca que produziu processadores SPARC e mudou para ARM, ajudando a desenvolver as instruções SVE.
 
O resultado é do sistema todo, que pode ter só CPUs, CPUs+GPUs, CPUs+Aceleradores e CPUs que não são bem só CPUs, caso deste ARM da Fujitsu, Os Xeons Phi, os Sunway SW26010 (Nº 4 na lista).

Depois, há uma contabilização por CPUs, mas em muitos casos, não são os CPUs a fazer computação ou têm apenas uma pequena parte.
O exemplo melhor é o que está em nº5. É um sistema com Intel Xeon E5-2692V2, mas o que faz computação é aqueles Matrix-2000.
Em sistemas com GPUs, também grande parte do resultado vem dos GPUs e não dos CPUs.
Não estás a perceber..
nº 7, Selene. Tem indicação de 277,760 Cores nessa lista de:

280 DGX A100 > 2 CPU's /DGX > 64 Cores /CPU . Dá um total de apenas 35,840 cores ( 71 680 threads).
A minha questão, é de onde é que eles estão a contabilizar o resto dos "cores" ..

Por outro lado, tem 2240 GPU's A100 ( 8 por DGX)..
277,760 - 35, 840 = 241,920 cores .. Se dividires por 2240 A100's dá "108 cores por A100 " , que é curiosamente a quantidade de SM's da A100 ..
Esse numero de cores anunciado contabiliza cada SM das graficas como um core; não apenas os cores de CPU..

Não podes comparar estes Fujitsu ARM com o nº8 e nº14. O primeiro usa um Xeon "CPU tradicional"

Exactamente por ser um "CPU tradicional" , é a comparação mais directa que tens com o mercado consumidor, ou não ?


e o nº14 além dos CPUs, usa GPUs Tesla.
enganei-me a ver o numero, era o 13..
 
Não estás a perceber..
nº 7, Selene. Tem indicação de 277,760 Cores nessa lista de:

280 DGX A100 > 2 CPU's /DGX > 64 Cores /CPU . Dá um total de apenas 35,840 cores ( 71 680 threads).
A minha questão, é de onde é que eles estão a contabilizar o resto dos "cores" ..

Por outro lado, tem 2240 GPU's A100 ( 8 por DGX)..
277,760 - 35, 840 = 241,920 cores .. Se dividires por 2240 A100's dá "108 cores por A100 " , que é curiosamente a quantidade de SM's da A100 ..
Esse numero de cores anunciado contabiliza cada SM das graficas como um core; não apenas os cores de CPU..

Ah ok, estavas a falar de como fazem a contabilização dos cores. Penso que é CPU+GPU, apesar de o que é um "core" num GPU é algo um bocado discutível.

Exactamente por ser um "CPU tradicional" , é a comparação mais directa que tens com o mercado consumidor, ou não ?

Ok, estou a perceber. Queres um paralelismo com o mercado consumidor. Então esquece por completo aquele ARM da Fujitsu e vê os resultados dos supercomputadores que têm o Marvell ThunderX2, que é um processador "tradicional" server ARM.

Pelo que vejo, só estão lá na versão 28 cores (ele vai até 32). https://www.top500.org/system/179565/
Devido a ser um processador um pouco mais antigo, a melhor comparação seria com o 8180 da Intel e o 7601 da AMD. 8180 acho que não há, mas há o 8280 que é uma geração à frente com melhores clocks. https://www.top500.org/system/179607/
Um com o Epyc 7601. https://www.top500.org/system/179779/

Não fiz as contas, mas os 3 usam o mesmo interconnect (O ARM usa EDR, mas pronto, com 4 links, dá 100 Gbits). Acho que é a comparação mais justa que se pode fazer entre x86 e ARM, em supercomputadores.
 
exactamente ;)

Pelo que vejo, só estão lá na versão 28 cores (ele vai até 32). https://www.top500.org/system/179565/
Devido a ser um processador um pouco mais antigo, a melhor comparação seria com o 8180 da Intel e o 7601 da AMD. 8180 acho que não há, mas há o 8280 que é uma geração à frente com melhores clocks. https://www.top500.org/system/179607/
Um com o Epyc 7601. https://www.top500.org/system/179779/

Não fiz as contas, mas os 3 usam o mesmo interconnect (O ARM usa EDR, mas pronto, com 4 links, dá 100 Gbits). Acho que é a comparação mais justa que se pode fazer entre x86 e ARM, em supercomputadores.

O que estou a achar estranho ai é a performance do 7601 ..
O 7742 com o mesmo clock ( apenas melhoria de IPC) https://www.top500.org/system/179853/ , dobro dos cores tem 4x a performance ( 2x performance/core)
E o Intel 8280 ainda assim consegue +50% cores do 7742 tem ~3.5x a performance ( 2.3x a performance por core do 7742 )..

Alguma outra variavel que não estou a ver , porque estou a achar muita diferença entre AMD e Intel +/- da mesma altura...
 
exactamente ;)



O que estou a achar estranho ai é a performance do 7601 ..
O 7742 com o mesmo clock ( apenas melhoria de IPC) https://www.top500.org/system/179853/ , dobro dos cores tem 4x a performance ( 2x performance/core)
E o Intel 8280 ainda assim consegue +50% cores do 7742 tem ~3.5x a performance ( 2.3x a performance por core do 7742 )..

Alguma outra variavel que não estou a ver , porque estou a achar muita diferença entre AMD e Intel +/- da mesma altura...

A diferença deve estar nas diferenças de performance AVX/AVX2/AVX512 desses 3 processadores. Os AMD não suportam AVX512 e a performance AVX2 deu um grande salto entre o Zen1 e o Zen2 porque passaram de 2 unidades FMAC de 128 bit para 256 bit. O Skylake-SP, nas versões de topo, como é esse, tem 2 unidades AVX512.

Mas isto também é uma razão porque é complicado fazer um paralelismo com o mercado consumidor. Isto é demasiado especifico ao mercado HPC.
Tenho ideia que o ThunderX2 e os novos processadores ARM para servidor, não dão grande importância à performance FP.

Já agora, é engraçado que esse 7742 está a usar o compilador e as libraries da Intel.
 
Ontem também saiu uma review ou preview (?) - acho eu não faço ideia, aquilo é literalmente chinês, de um "PC" - de Desktop, não Partido Comunista - da Power Leader com um Kunpeng 920 (Huawei/HiSilicon) 2249K.


Mas além de uma chinesa com tatuagens, uma gráfica AMD com o Spreadheater cor de rosa, é definitivamente uma Yeston (parece-me ser a RX 550), só deu para perceber que tem 16GB Ram e uma série de conectividade, pelo menos 3 M2, 6 Sata, e pouco mais.
Ah e correr UOS Linux, distro chinesa com base no Deepin.

Procurando pelo modelo específico 2249K, encontra-se uns benches no Openbenchmarking, mas é uma versão com apenas 8Gb de Ram, e gráfica HIS RX 230 (ou outro remake qualquer da mesma)

https://openbenchmarking.org/result/2005072-NI-KUNPENG9230
https://openbenchmarking.org/result/2005112-NI-CPUTEST2039
https://openbenchmarking.org/result/2005154-NI-IMAGINGTE38

se alguém tiver curiosidade e paciência para procurar uma referência para comparativos.
 
Back
Topo