Processador "Nehalem" EX: 8 cores nativos (16 threads)

blastarr

Power Member
img.x


dieshot.jpg


4p_diagram.jpg


8p_diagram.jpg


O task manager do Windows com uma só CPU (multiplique-se por 8 para o cenário da imagem acima -128 threads num só sistema-... :D)
128threads.jpg

Nehalem-EX will add new reliability, availability and serviceability (RAS) features traditionally found in the company’s Intel® Itanium processor family, such as Machine Check Architecture (MCA) Recovery. Together with new levels of performance, both high-end processors should speed the move away from more expensive, proprietary RISC-processor based systems.

http://www.techreport.com/discussions.x/16981
 
Última edição:
Damn ! :wow:

Isto é destinado a empresas, servers ?

Sim, é incompatível com sockets para PC's desktop, mas usa a mesma arquitectura do Core i7/i5.
É o sucessor directo do "Dunnington", um Core 2 com 6 cores nativos, para o mesmo mercado.

E se dúvidas havia sobre o futuro da arquitectura Itanium, aquele último quote (vem da própria Intel), combinado com o adiamento -mais um- do Itanium "Tukwilla", só demonstra que é provável que a arquitectura IA64 esteja próxima de ter os dias contados.
Mais uma vítima RISC da arquitectura x86/x86-64. :p
 
Este é o competidor do Magny-Cours (12 core) da AMD. É para sair quando? E é 45nm ou 32nm?

128threads.jpg

Que abuso :p

Sai este ano, e é um octo-core 45nm nativo com controlador de memória onboard quad-channel (256bit, mais 64bit do que o Core i7) e 24MB de L3 (o triplo do Core i7), não são dois hexa-core ligados num packaging MCM daqui a um ano...
Por essa altura, já a Intel tem o shrink para 32nm.
 
Sai este ano (segundo semestre), e é um octo-core nativo, não são dois hexa-core ligados num packaging MCM daqui a um ano...

Mas olha que pela imagem não parece nada nativo, mas sim 2 quad-core colados por uma interface com algumas cosmeticas.

04335344.jpg
 
Última edição:
Mas olha que pela imagem não parece nada nativo, mas sim 2 quad-core colados por uma interface com algumas cosmeticas.

Estás a ver mal, então.
Se a die é monolítica, como é perfeitamente claro na shot que nomeia cada secção, então é uma CPU de 8 cores nativa.
O "Dunnington" também tinha uma arquitectura algo semelhante, com apenas 3MB de L2 partilhados por cada par de cores (arquitectura do "Conroe"), e uma cache L3 de 16MB partilhada por todos eles numa só die.
Só continuava a depender do FSB e do controlador de memória no chipset da motherboard, algo desnecessário na arquitectura "Nehalem".

A imagem especulativa retirada desse site chinês ignora por completo a existência da cache L3, apenas com "placeholders" para "LLC" (Low-Level Cache, 256KB de L2 para cada core, como é normal na arquitectura "Nehalem" de 45nm).
 
Última edição:
Atenção que o controlador de memória é FB-DIMM, pelo o que não se pode falar em "256 bits".

Aquilo tudo entre os cores é a cache L3?

2300 milhões de transistores, que pequeno monstro :D

Não me parece que a solução MCM da AMD seja inferior, alem de permitir melhores yields.

De qualquer forma um sistema AMD com 12 cores e 8 cpus "só" terá 96 threads... É bem provável que este Nehalem EX consiga bater o AMD ou andar lá perto.

A AMD que não despache um HT rápido e um controlador de memória mais poderoso, porque nisso o Nehalen dá um porrada ENORME...
 
Última edição:
Estás a ver mal, então.
O "Dunnington" também tinha uma arquitectura algo semelhante, com apenas 3MB de L2 partilhados por cada par de cores (arquitectura do "Conroe"), e uma cache L3 de 16MB partilhada por todos eles numa só die.
Só continuava a depender do FSB e do controlador de memória no chipset da motherboard, algo desnecessário na arquitectura "Nehalem".

Mas ali há um Router e uns Hubs para 4 dos cores comunicarem com os outros 4. Eles podem argumentar que é uma versão nativa, mas a nivel de design é um MCM disfarçado de nativo.

Nehalem realmente nativo sem qualquer Hub ou Router para 2 cores comunicarem com outros 2:
intel-nehalem.png


Magny-Cours:
magny_cours_die_thumb%5B1%5D.png


A solução da Intel parece um pouco mais trabalhada, mas não é assim tão diferente da solução da AMD.
 
Última edição:
Mas ali há um Router e uns Hubs para 4 dos cores comunicarem com os outros 4. Eles podem argumentar que é uma versão nativa, mas a nivel de design é um MCM disfarçado de nativo.

Nehalem realmente nativo sem qualquer Hub ou Router para 2 cores comunicarem com outros 2:
intel-nehalem.png

É muito mais rápido (várias ordens de magnitude até) comunicar à velocidade interna da CPU pela cache L3 -o tal "router"-, do que comunicar por um bus externo à die para um segundo chip, apesar dos teus esforços para desvalorizar esse facto.

Até a Intel reconheceu isso com o "Dunnington".
Mesmo sem controlador de memória integrado, muitos cores a partilhar uma cache L3 onboard de grandes dimensões são muito mais rápidos e menos dependentes de comunicação com o exterior do que duplicar essa comunicação (o que acontecia nos Xeon dual-socket, com um FSB separado para cada CPU na mesma motherboard).
Com o controlador de memória integrado, até as latências da RAM FB-DDR2 deixam de ser tão penalizadoras.
 
Última edição:
É muito mais rápido (várias ordens de magnitude até) comunicar à velocidade interna da CPU pela cache L3 -o tal "router"-, do que comunicar por um bus externo à die para um segundo chip, apesar dos teus esforços para desvalorizar esse facto.

O que é dito é 24Mb de shared cache. Não é dito como essa cache é shared. Ou melhor diz que é por um system interface.
A questão que resta saber é se o System Interface da Intel para cada 4 cores comunicarem com os outros 4 é assim tão radicalmente diferente do Magny-Cours.
No entanto nota-se que há ali algum trabalho na tentativa de integrar 2 modulos de 4 cores. A AMD não tem esse trabalho no entanto permite melhores yields colar 2 hexa-cores em MCM.

O Magny-Cours tb tem controlador 256bits (4*64bits) DDR3 1600Mhz e cada hexa-core pode aceder ao controlador do outro hexa-core. A Intel possui 4 QPI links. A AMD tem 4 HT links em cada hexa-core tendo 8 HT links no total. No entanto 2 deles são usados para os cores comunicarem entre si ficando com 4HT links livres.

A AMD tb pelo que disse antecipou o Istanbul hexa core em 1 trimestre. Como o magny cours so depende do istanbul visto que sao 2 istanbul colados pode-se colocar a possibilidade de o Magny cours ainda aparecer no final de 2009 com este antecipamento.
 
Última edição:
Mas ali há um Router e uns Hubs para 4 dos cores comunicarem com os outros 4. Eles podem argumentar que é uma versão nativa, mas a nivel de design é um MCM disfarçado de nativo.

Então e por ter um router e hubs faz dele uma solução "menos nativa"?
Tens a certeza que a comunicação no chip é entre dois pares de 4 cores? Não será a comunicação necessária para a cache, controladores de memória, Qpi, etc?
Parece-me mais esta última.

Atenção que o controlador de memória é FB-DIMM, pelo o que não se pode falar em "256 bits"

Não percebi bem esta da ligação do "bits" com o FB-DIMM.
O controlador de memória é 4 X 64 bit.
Por falar em memória, o buffer já não se encontra nos Dimms, mas fica externo, sendo um por canal.
Se bem percebo, pode-se usar Dimms DDR3 "normais", visto o buffer ser externo.

http://download.intel.com/pressroom/pdf/nehalem-ex.pdf
O Pdf da intel tem uma parte interessante sobre a IBM e o EX5, apesar de não revelar nada tecnicamente.
O actual EX4, entre muitas coisas, consegue-se ter um sistema 16 sockets com o Xeon MP.
Parece-me possível um sistema 32 socket com o EX5. Isso significaria 256 cores, 512 Threads, 4 TB de Ram num sistema x86.


É aqui que entra o Itanium.
O ultimo foi lançado em 2007. O próximo só será lançado em 2010, ainda a 65 nm.
Apesar do Tukwila ser interessante, está a ser encostado cada vez mais para sistemas high-end. Isto é, não espero ver sistemas Itanium com menos de 8 sockets.
A morte do Itanium não será, mas se calhar vai chegar o dia em que só a HP o vai usar. Acho que vai depender do sucesso do Poulson, que supostamente não deveria sair muito depois do Tukwila.
 
Última edição:
O que é dito é 24Mb de shared cache. Não é dito como essa cache é shared. Ou melhor diz que é por um system interface.
A questão que resta saber é se o System Interface da Intel para cada 4 cores comunicarem com os outros 4 é assim tão radicalmente diferente do Magny-Cours.
No entanto nota-se que há ali algum trabalho na tentativa de integrar 2 modulos de 4 cores. A AMD não tem esse trabalho no entanto permite melhores yields colar 2 hexa-cores em MCM.

Essa teoria não tem ponta por onde se lhe pegue.
Que parte de 24MB de cache L3 partilhada por 8 cores é que não entendeste nos slides ?
Não me digas que estás à espera de ver de novo cache off-die, como acontecia no tempo do Pentium original (estava na motherboard), ou nos Pentium Pro/II (estava no PCB do Slot 1, mas não na die, ou sequer no mesmo packaging)... :rolleyes:

O Magny-Cours tb tem controlador 256bits (4*64bits) DDR3 1600Mhz e cada hexa-core pode aceder ao controlador do outro hexa-core. A Intel possui 4 QPI links. A AMD tem 4 HT links em cada hexa-core tendo 8 HT links no total. No entanto 2 deles são usados para os cores comunicarem entre si ficando com 4HT links livres.

Desculpa, mas dois controladores de memória dual-channel em duas dies fisicamente separadas não é o mesmo que ter 4 controladores de memória na mesma die, comunicando à velocidade e latência internas do processador, ou pelo menos à velocidade e latência da cache L3, que está no mesmo clock domain do controlador de memória RAM.
Também ninguém diz que a HD4870 X2 tem um bus de 512bit, pois não ?

A AMD tb pelo que disse antecipou o Istanbul hexa core em 1 trimestre. Como o magny cours so depende do istanbul visto que sao 2 istanbul colados pode-se colocar a possibilidade de o Magny cours ainda aparecer no final de 2009 com este antecipamento.

Isso não faz qualquer sentido. Estás a assumir que:

a) os yields do "Istambul" são tão bons que já dá para colocar dois no mesmo substrato, num socket completamente novo e ainda pouco testado pela indústria (leia-se, não há a "free-ride" da retro-compatibilidade com o LGA 1207 que tem salvo a família Opteron até aqui).

b) o TDP do "Istambul" com 6 cores é igual ao TDP do "Magny-Cours" com duas dies "Istambul" num mesmo MCM (riiiiight...).
 
Última edição:
Essa teoria não tem ponta por onde se lhe pegue.
Que parte de 24MB de cache L3 partilhada por 8 cores é que não entendeste nos slides ?
Não me digas que estás à espera de ver de novo cache off-die, como acontecia no tempo do Pentium original (estava na motherboard), ou nos Pentium Pro/II (estava no PCB do Slot 1, mas não na die, ou sequer no mesmo packaging)... :rolleyes:
Eu sei que ta la, mas no magny-Cours tb tens 12Mb de L3 partilhada por 12 cores, portanto não vas por ai...


blastarr disse:
Desculpa, mas dois controladores de memória dual-channel em duas dies fisicamente separadas não é o mesmo que ter 4 controladores de memória na mesma die, comunicando à velocidade e latência internas do processador, ou pelo menos à velocidade e latência da cache L3, que está no mesmo clock domain do controlador de memória RAM.
Também ninguém diz que a HD4870 X2 tem um bus de 512bit, pois não ?
Não vejo qual é a diferença. Os 2 controladores de memoria dual channel da AMD tb funcionam á velocidade da CPU. A unica diferença é os dados vão via HT link nas trocas de informação entre os 2 pares de hexa-core. O unico problema é so se o HT link não der vazão suficiente para trocas de dados entre os 2 hexa-core. A HD 4870X2 não tem nada a ver pq os cores não conseguem aceder ao controlador de memoria um do outro, caso contrario não era preciso replicar a memoria para cada core.

blastarr disse:
Isso não faz qualquer sentido. Estás a assumir que:

a) os yields do "Istambul" são tão bons que já dá para colocar dois no mesmo substrato, num socket completamente novo e ainda pouco testado pela indústria (leia-se, não há a "free-ride" da retro-compatibilidade com o LGA 1207 que tem salvo a família Opteron até aqui).

b) o TDP do "Istambul" com 6 cores é igual ao TDP do "Magny-Cours" com duas dies "Istambul" num mesmo MCM (riiiiight...).
1 Magny Cour = 2x Istanbul, portanto se o Istanbul correu bem e foi antecipado não vejo porque é que o Magny Cours tb nao pode o ser. Os yields do Istanbul se não fossem assim tão bons este não tinha sido antecidado.
O TDP ja o têm calculado desde o inicio, não é por haver uma antecipação do Istanbul que o TDP vai aumentar. Tas misturar tempo com questões tecnicas.

Nemesis11 disse:
Então e por ter um router e hubs faz dele uma solução "menos nativa"?
Tens a certeza que a comunicação no chip é entre dois pares de 4 cores? Não será a comunicação necessária para a cache, controladores de memória, Qpi, etc?
Parece-me mais esta última.
Então no caso da AMD esses routers e hubs chamam-se HT links. So resta saber se aquele System Interface da Intel é realmente mais rapido que os HT links da AMD. Como disse, em pricipio deve ser porque ve-se que a Intel gastou muitos milhoes de transistores naquela System Interface para comunicação entre os 2 quad-core, enquanto que a AMD usa somente os HT links excedentes (tem 8 disponiveis).
Para mim este 8 core é um MCM nativizado. Se vires o Corei7 não aparece nenhuma "System Interface" mesmo meio da cache L3 e a cortar o core do CPU em 2 partes.
 
Última edição:
Para mim este 8 core é um MCM nativizado. Se vires o Corei7 não aparece nenhuma "System Interface" mesmo meio da cache L3 e a cortar o core do CPU em 2 partes.

Que absurdo.
Ou é MCM e as dies estão fisicamente separadas, ou não é e os cores estão numa só die.
Isto, caro amigo, é uma CPU com 8 cores nativos, não há meio termo... :rolleyes:

"System Interface" nada diz sobre a composição do mesmo. Aliás, até seria ridículo usar o QPI internamente, quando os cores podem comunicar entre si muito mais rapidamente pela cache L3.
Ninguém diria que o EIB que divide ao meio os grupos de SPE's do CELL é um link Hypertransport, pois não ? São meros buses internos de alta velocidade, criados apenas e só para manter coerência entre os dados nas memórias cache L1, L2, L3 e a Northbridge onboard (estes dois últimos fazem parte, segundo a terminologia da Intel para toda a arquitectura Nehalem, do "uncore").
 
Última edição:
Então no caso da AMD esses routers e hubs chamam-se HT links. So resta saber se aquele System Interface da Intel é realmente mais rapido que os HT links da AMD. Como disse, em pricipio deve ser porque ve-se que a Intel gastou muitos milhoes de transistores naquela System Interface para comunicação entre os 2 quad-core, enquanto que a AMD usa somente os HT links excedentes (tem 8 disponiveis).
Para mim este 8 core é um MCM nativizado. Se vires o Corei7 não aparece nenhuma "System Interface" mesmo meio da cache L3 e a cortar o core do CPU em 2 partes.

A comunicação não é entre dois "quad cores". Se formos pelo teu pensamento um quad core tem os 4 qpi e o outro quad os controladores de memória.

Se isto é um Mcm "nativizado" (não faz sentido, mas ok), o que chamas o CELL com o EIB?

ibmcellchips.jpg
 
isto para uso doméstico far far away certo?

dado que é muito raro encontrar uma aplicação para "uso doméstico" que tire partido das 16 threads eu nem sei qual seria a utilidade disto nesse mercado :P Já para rentabilizar os i7 é complicado quanto mais isto :D
 
Segundo o DailyTech, este "Nehalem-EX" já não usa os Fully Buffered-DIMM's DDR2, mas sim DIMM's DDR3 registados normais, com ECC (Error Checking and Correcting).
Uma boa notícia, quer em termos de latências, quer em termos de consumo eléctrico (o chip agregador em cada FB-DIMM chegava a gastar quase 6W por si só, imaginemos várias dezenas de DIMM's num único blade e chegamos ao cenário menos desejado).
 
Então é boa noticia, porque assim teremos os verdadeiros 256 bits ao seu máximo :p

Mas não esquecer que as memórias ECC são algo lentas. Provavelmente limitado a 1066, com alguma sorte 1333.

então é a morte do FB-DIMM... Outra vantagem que assim fica TODO o mercado informático a usar apenas um standart de memória o que pode ajudar nos preços.
 
Back
Topo