1. Este site usa cookies. Ao continuar a usar este site está a concordar com o nosso uso de cookies. Saber Mais.

Gráfica Exclusive: Intel Larrabee 5 times faster than Nvidia, AMD

Discussão em 'Novidades Hardware PC' iniciada por DJ_PAPA, 2 de Outubro de 2008. (Respostas: 33; Visualizações: 6276)

  1. DJ_PAPA

    DJ_PAPA Power Member

    The title sounds really promising, we have heard it before with intels graphic cards. For some reason here at OCTDK.Com we believe it more this time than in the past, after the last few years of sucess for intel, Conroe, Yorksfield, Atom and now the upcomming Nehalem arcitecture things have been running in a golden flow at intel...

    Earlyer today the story was posted at another site and removed after 2½ hours online.

    NOTICE : Pictures are not related to this story.

    Read More At : OCTDK.Com
     
  2. Kremlin

    Kremlin Power Member

    Assim não dá... só troco de computador no ano 2080.
     
  3. thejoedoe

    thejoedoe Power Member

    Isso tudo ainda é muita teoria. Quando a placa sair aí sim é que vamos ver como se porta.
    De qualquer maneira era bom que fosse assim, e de preferência com um preço baixinho.
     
  4. DJ_PAPA

    DJ_PAPA Power Member

    Isso é impossível se aqueles 50mm*50mm=2500mm^2 do core forem verdade. So é 10x mais que o RV770 a 55nm :cool:
    No entanto para a HD 4870X2 a diferença é so de 2.5x em Tflops e se for para 2x HD 4870X2 fica empatado com 5Tflops.

    O que a Intel está a tentar fazer daqui a 2 anos ja a ATI tem no mercado hoje e a correr qualquer jogo.
     
    Última edição: 2 de Outubro de 2008
  5. Boobaloo

    Boobaloo Power Member

    Isto lembra-me o Cell da PS3, ia acabar com a concorrencia das consolas tal o poder que tinha, no final as outras 2 consolas estão-se a portar melhor.

    O larrabee parece-me interessante é que dará mais liberdade aos programadores para criar os gráficos. Todos os jogos hoje são quase iguais uns aos outros, pq estão demasiado dependenes do DX e dos motores gráficos associados.

    Tenho saudades dos tempos onde aparecia um Outcast que tinha um aspecto completamente diferente de um Mechwarrior ou dos jogos de naves, agora é tudo igual uns têm mais brilho, outros mais sombras, outros tem mais umas luzitas....
     
    Última edição: 3 de Outubro de 2008
  6. SamuHell

    SamuHell Power Member

    Corrijam-me se estiver enganado. Este bicho é para gráficos integrados como o GMA X3100??

    Se for para Desktop tudo bem, se for para portáteis...

    Já tou a ver a função pública do mundo inteiro a melhorar o seu rendimento....

    ...em FPS's!

    Estamos a ver cada vez mais o reaproveitamento de old tech e ideias passadas nas inovações recentes. Os cpus eram torradeiras então aproveitou-se os designs dos Pentium III que tinham melhor rendimento por ciclo, agora dos Pentium MMX para fazer trabalho de encher chouriços.

    Para quando o uso dos clones de 486? talvez um DX5 a 133MHz no BUS USB para depender menos do CPU como o Firewire. (Só um desabafo... não me crucifiquem)
     
  7. Globlos

    Globlos Power Member

    Estupidez... Acho que isto é tudo fake mas tass...

    Lançam uma placa e ja é 5X mais rápida que as fabricantes de gráficas que estão no mercado a ******* de anos....

    Yeah Right...
     
  8. thejoedoe

    thejoedoe Power Member

    Calma
    Ela é 5x mais rápida a fazer calculo vectorial (Teoricamente)
    Ainda falta o resto.
    Os filtros isotropicos o anti-aliasing, e essas coisas todas que metem a imagem mais bonita.
     
  9. blastarr

    blastarr Power Member

    Todo este artigo é pura e completa especulação de um leigo escrita num site de overclockers... :rolleyes:
    Até as fotos/slides não têm nada a ver (pelo menos ele avisou sobre isso).

    Nice work of fiction, though... :P
     
  10. Nemesis11

    Nemesis11 Power Member

    Não

    É para desktops, pelo menos numa primeira fase.

    O core ser baseado num pentium MMX ou noutra treta qualquer, pouco importa. Não é isso que é fundamental.
    Vou colocar aqui um quote do preview do Anandtech

    Não estou a dizer que o Larrabee seja 5 vezes melhor que as outras gráficas. Até acredito que seja pior, por causa de outros factores, como por exemplo os drivers.
    Acho que é uma questão de esperar e também ver se o Larrabee não poderá ser muito mais importante para outras coisas sem ser gráficos.
    O Atom também foi feito a pensar no mercado de UMPC, que é um mercado que "não existe" e onde tem sucesso é no mercado de netbooks.
    Talvez o Larrabee seja uma boa noticia para o mercado HPC..........quem sabe.

    O vender menos, não faz do cell um processador melhor ou pior que os outros dois.
    Por falar em Cell:
    http://www.custompc.co.uk/news/604962/leadtek-demos-cell-chip-on-a-pci-e-card.html

    Concordo em parte. Mas, vamos imaginar, se a Intel criar uma Api tipo o GLIDE da 3Dfx, isso será bom ou mau para o mercado de jogos nos PC?
     
  11. muddymind

    muddymind 1st Folding then Sex

    Após ler isto já percebi donde foram buscar a afirmação ridícula dos 5x mais rápido... enfim.. :rolleyes:
     
  12. bsd

    bsd Power Member

    Achei graça estarem a falar no Larrabee, eu quando ouvi falar pensei que seria coisa para sair daqui a mais alguns anos (não falta sair o Nehemon com 8-16 cores?).
    A Intel mandou a 4 de Setembro o seguinte artigo do SIGGRAPH a toda a gente que recebe mails deles (eu recebo, podem registar-se).

    http://softwaredispatch.intel.com/?lid=1999&cid=473&pid=450&mid=MIw0ja/37vQ=&ch=e

    Aqui, como é um artigo para o SIGGRAPH, a coisa é apresentada mais do ponto de vista da GPU.

    Agora. Vamos lá ver se conseguimos perceber do que é que se trata. É que eu não reconheci aquilo que tinha lido na diagonal no artigo naquilo que está nesse post (press release?).

    Contexto: quer a Intel, quer a AMD/ATI, quiçá a NVIDIA, andam a trabalhar no sentido de terem um só chip CPU/GPU, reduz-se o tamanho, passa-se de dois packages para um, e também porque ninguém sabe como aproveitar o número de transistores num chip que está sempre a aumentar.
    Em segundo lugar, até agora, eu tinha a sensação de que isto era para o low-end (o da AMD/ATI), para reduzir dimensão e custos, porque para o high-end, as gráficas que consomem brutalidades de energia junta no mesmo package que o CPU, não parece boa ideia para a dissipação de calor.

    Era interessante alguém ter um artigo para o Larrabee mais virado para a arquitectura de CPUs, porque este fala numa "implementação do Larrabee como GPU", deixando implícito que pode ser usado como CPU.

    Observações:
    a) Os 32-64 cores do Larrabee não são iguais aos do Core 2 Duo ou aos do Pentium Pro. São in-order cores por oposição a out-of-order. O que significa que executam as instruções exactamente pela ordem em que aparecem. Não têm toda aquela coisa do Pentium Pro de execução fora-de-ordem, predição de saltos, execução especulativa, registadores sombra, etc; ou seja, popam imensos transistores e com isso fazem-se mais cores.

    b) Os cores do Larrabee não são tão simples como os de uma GPU, não fazem só operações SIMD e MIMD, são cores x86, que executam código normal escrito numa linguagem normal. Ou seja, não temos os 320 cores de uma ATI 3800, apenas 32-64. A unidade vectorial (VPU) do Larrabee processa vectores de 16, suponho que os de uma GeForce potente processam vectores de 32.

    Tudo parece indicar que se trata de um chip com imensos cores genéricos, que podem ser postos a funcionar como cores de um CPU ou como os "pixel/vertex shaders" de uma GPU.
    No primeiro caso, serão cores claramente inferiores a executar o código dos programas que existem hoje em dia, e no segundo caso, dá-me ideia que são também inferiores (desnecessariamente pesados, em vez de mínimos e rápidos) aos de uma GPU.

    É um chip para fazer a ponte entre CPU e GPU. Vindo da Intel, deve ser de certeza um excelente passo em relação ao futuro, no entanto, o código que executamos hoje em dia... os compiladores... ainda são todos fundamentalmente lineares e não vectorais.

    Quantos de nós é que já utilizaram funcionalidades de OpenMP no compilador (paralelização automática de código)?
    É que para utilizar tanto paralelismo não basta ter muitos threads, cada coisa que se faz tem de ser paralelizada, as linguagens e compiladores têm de melhorar.

    Mas é capaz de ser o caminho certo, porque a extracção de paralelismo de um único fio de execução recorrendo a pipelines, execução fora-de-ordem, etc, já deu o que tinha a dar (acabou, não dá mais MIPS), então mais vale mudar e aproveitar melhor os transistores que eram usados para isso.
     
  13. bsd

    bsd Power Member

    Só mais uma coisa: a Intel faz este Larrabee com 32-64 cores com o mesmo número de transistores que faz o Xeon de 6 cores!!!!
    Vejam quantos transistores se poupam eliminando os pipelines!

    É um passo noutro sentido.

    Isto só vai aparecer inicialmente como GPU, porque teria um desempenho decepcionante como CPU. Como GPU pura, a NVIDIA há de por cá fora uma melhor. Depois vai entrar pelo CPU inicialmente em computadores mais integrados.
     
  14. possessed

    possessed Full Throttle BOINC Roller

    transistores a mais?!?!?!? que ideia é que vocês têm dos cpus, se os transistores estão lá é porque são precisos. Não se esqueçam que pelo menos 50% dos transistores da die do cpu são cache. Essa cache não existe (em termos de quantidade) num gpu.
     
  15. bsd

    bsd Power Member

    Não sei se isso é resposta ao meu post.
    Não vejo a expressão "transistores a mais" no post de ninguém, nem explícita, nem implicitamente.

    Em cada chip que se faz, os designers sabem que vão ter mais X transistores (a tal lei de Moore que por enquanto ainda se mantém, o dobro cada dois anos) para utilizar, o desafio é como os utilizar da forma que resulte mais útil.
    Aqui há uma troca, em vez de optar por um pipeline com muitos andares, os cores são semelhantes aos de um Pentium (ou talvez um 486 com MMX e SSE), mais pequenos e mais em consequência.

    Não podemos falar do Larrabee como um GPU, quanto muito GPGPU, uma vez que os seus cores têm um conjunto completo de instruções x86, é como um computador paralelo grandinho do início dos anos 90, com 64 cores misturando ainda com uma unidade vectorial (como um grande Sun com 64 processadores ao lado de um Cray pequenino).
    De certeza que o Larrabee vai ser utilizado para muitas aplicações especializadas que poderão tirar partido do paralelismo.
    Também tenho a certeza de que com o mesmo número de transistores vão haver GPUs melhores.

    Como um conjunto paralelo de muitos cores (mais uma VPU), o Larrabee também tem imenso cache. Cada core tem um cache L1 separado de instruções e dados de 32kB + 32kB! Além disso, para cada core existe ainda um cache L2.
    Ou seja, isto é muito mais semelhante a uma arquitectura paralela dos anos 90 (anos 90 porque os cores são in-order) do que a uma GPU.

    Começo também a perguntar-me se isto, que de certeza é um chip excelente para imensas aplicações especializadas, virá a ser um produto bem sucedido.
    Quem é que nos próximos 1-3 anos poderá dar-se ao luxo de ter um chip da classe do Xeon actual mais potente como processador secundário que nem sequer será tão bom para gráficos puros como outras GPUs.

    Para o consumidor normal, que utilidade terá este chip?
    Acho que só terá utilidade quando substituir ambos CPU e GPU.
    Senão para que serve? Para jogos de xadrez muito potentes? Será bom para o Kasparov (que perdeu contra uma arquitectura massivamente paralela da IBM, tipo esta mas com muita memória), mas a maior parte de nós perde com o computador mesmo com um só core.
    Será que os jogos vão evoluir em inteligência além da parte gráfica? Duvido.
     
  16. blastarr

    blastarr Power Member

    Acho que estás um pouco a leste do que é o Larrabee ou sequer do que é uma GPU moderna...

    Por exemplo, cache L1 e L2 ?
    Olha só para o esquema de uma GTX 280 (também se pode aplicar a qualquer Geforce 8 ou 9, nas devidas proporções):

    http://www.beyond3d.com/images/reviews/gt200-arch/GT200-full-1.2-26-05-08.png

    Esta GPU tem um total de 2.75MB de memória cache, dividida entre embedded DRAM -eDRAM- (1920KB), L2 (256KB), L1 (160KB) e SRAM (480KB).
    É quase tanta memória cache como um moderno Intel Core 2 Duo E7300, por exemplo !

    Todas as GPU's modernas possuem cache L1 e L2.

    A razão pela qual a Nvidia não optou por encolher a memória cache e criar mais espaço para ALU's de processamento gráfico (como a ATI fez nas HD4xxx) deve-se à aposta deles na computação GPGPU, onde a memória cache em grandes quantidades simplifica a programação de aplicações não-gráficas em CUDA/OpenCL (BTW, o OpenCL da Apple é 90% CUDA, até o compilador C é o mesmo).
    Foi uma abordagem testada apenas no GT200 de topo durante este ano, e que dará frutos em breve.

    O "Larrabee" seguirá um caminho diferente. Os cores não são baseados no Pentium MMX como o "folclore" popular apregoa, mas sim no substancialmente diferente Intel Atom, ou melhor, em muitos cores Atom simplificados (despidos dos 512KB de cache L2 dedicada; em vez disso acedem a uma cache L2 partilhada de grandes dimensões), aos quais adicionaram uma unidade de vectores dedicada que difere das SSE2/3/4 por não estar abrangida pelos constrangimentos do compilador intel x86/x64.


    Isto significa que, apesar de a "base" de cada core ser x86, a performance em software x86 single ou dual-threaded clássico será terrível, o que também implica que um compilador criado de raiz estará orientado para novos tipos de software "many-core", negando o propósito de se basear em x86 em primeiro lugar (e colocando-o em pé de igualdade com o CUDA, que na versão 3.0 correrá também programas nativos sobre arquitecturas x86 -embora com a penalização correspondente no desempenho em relação às GPU's da Nvidia-).

    A Intel não quer o "Larrabee" a fazer concorrência interna aos "Nehalem"/Core i7 ou aos futuros "Sandy Bridge"/"Gesher", etc.
     
  17. possessed

    possessed Full Throttle BOINC Roller

    querem ver que ando a inventar coisas, ou então não:

    pelo que tu escreveste queres simplesmente dizer que os transistores multiplicam-se nas dies e os engenheiros têm de lhes dar um uso:007:
    e eu que pensava que era o desenho do die que com mais isto ou aquilo fazia aumentar o número de transistores necessários.

    nem é costume estar de acordo com o blastarr, mas lê o que ele escreveu que ao menos sabe o que diz.
     
  18. thejoedoe

    thejoedoe Power Member

    Os transistores estão lá por uma razão. É porque são necessários.
    A gora se se podia fazer o mesmo com menos transístores aí a questão é outra. Trata-se de um problema de arquitectura/optimização.

    Acho que o bsd quando se refere que "e também porque ninguém sabe como aproveitar o número de transistores" quer dizer que os CPU/GPU estão subaproveitados/subutilizados e junta-los será uma maneira de aumentar o aproveitamento dos transistores.

    Bem, isso trata-se de generalisar o processador o que pode levar a uma performance menor de que quando se trata-se de processadores especializados. (Axo que a AMD tinha um projecto qualquer sobre isto). Mas por outro lado não se perde tempo na comunicação entre os componentes
     
  19. Boobaloo

    Boobaloo Power Member

    Quando falava em portar-se melhor era para chamar atenção que o poder de um chip em determinados calculos não quer dizer que no compto geral seja melhor, os jogos da x360 têm tão bom aspecto como os da PS3 e tem tido jogos bastante melhores (salvo algumas excepções e também pq já existe à mais tempo) e não está a ser trucidada pela ps3 como muitos vaticinavam, já a WII, apesar de ser mais fraquita está-se a portar muito bem a nível de vendas e da qualidade dos jogos para a qual foi construida.

    Pelo que tenho lido o grande problema é a dificuldade de programação da ps3, o que acontecerá de certeza com o Larrabee, pois pelo menos inicilamente apresentará modos de trabalho distintos que levarão algum tempo a ser dominados.

    Quanto às API´s o que pretendia dizer era que dantes como não havia algo que unificasse os gráficos cada jogo tinha um aspecto diferente, agora são muito mais homogeneos, o que não impede que eu sei que é um sonho que não se trabalhe com DX10 ou algo semelhante pois o pesadelo que era à alguns anos para os programadores só teria piorado.
     
  20. bsd

    bsd Power Member

    Hei, olha a delicadeza...
    Claro que estou a leste do que é o Larrabee, não estamos todos? Os primeiros diagramas técnicos da sua arquitectura têm estado a aparecer nos últimos 2 meses.
    E depois a questão está em interpretar estes diagramas, e perceber quais os potenciais deste chip, quer como GPU, quer como CPU adicional.
    Não é esse o assunto deste thread?

    Obrigado pela imagem. Estás a querer somar muitas parcelas, essa dos 1920kB são os registadores, não é cache, não?
    Eu não disse que não tinha cache. Eu simplesmente reagi à seguinte afirmação do possessed:
    E os números que tu dás confirmam. A GTX 280 (que eu não conhecia antes de ver a imagem que puseste) tem 256kB de L2, compara isso com os 6MB num CPU.
    Se eu disse que o Larrabee tem imenso cache, é precisamente porque dá ideia que metade da área dele é para cache. Mas mais importante, o Larrabee tem cache L1 separada de instruções e dados, muito mais semelhante ao cache de um CPU x86.

    O compilador é o mesmo, em que sentido? Não é o mesmo compilador que gera o código que corre no GPU...

    "Folclore" popular ou não, tanto dá falar no Pentium, como no Atom.
    Dizer que é semelhante ao Pentium, ou ao Atom, faz sentido e dá uma referência em relação ao aspecto fundamental que distingue os cores do Larrabee dos do Pentium Pro & filhos: é que são in-order cores, não executam instrucções fora de ordem.

    A cache L2 não é bem partilhada. Cada core do Larrabee tem a sua quota de 256kB do cache L2.

    A unidade vectorial difere das SSE2/3/4 principalmente porque estas operam sobre registos de 128 bits (que pode ser um vector de 4 floats ou de 2 doubles), enquanto que a VPU operará sobre vectores de 16 floats (terão de existir registadores vectoriais de 512 bits).
    Assim, é mais semelhante a um processador vectorial (dos antigos, com vectores de 32 ou 64 elementos) do que às instruções SIMD dos DSPs. Daí o nome. Na prática, é semelhante.

    Aqui estamos completamente de acordo, podes confirmar relendo o meu post.
    Não tinha ainda ouvido dizer que o CUDA 3.0 vai correr código x86, podes dar referências?

    Quanto à questão da concorrência, também vem na linha do que eu disse. Eu tirei basicamente duas conclusões (arriscadas...) é que como CPU será mais lenta que os actuais, e como GPU penso que será mais lenta que as suas contemporâneas.

    Também é preciso ter em conta que a Intel está agora a apresentar o Larrabee "numa implementação como GPU" (citando o artigo da SIGGRAPH), mas está obviamente implícito que pode haver outras aplicações em que terá utilidade, e onde provavelmente será mais bem sucedido do que as GPUs propriamente ditas. O Larrabee também é a resposta à necessidade de ter supercomputadores mais densos.

    Pensavas, mas estás enganado. É uma questão do dia a dia da engenharia. Engenharia é fazer escolhas dentro dos recursos disponíveis.

    Porque é que achas que o 80386 não tinha um multiplicador de um ciclo de relógio e em vez disso usava microprograma para as multiplicações? Não era porque o pessoal da Intel não soubesse fazer um multiplicador de um ciclo de relógio, era assunto batido e público e havia chips contemporâneos que o faziam, simplesmente ocupava imensos transistores e para eles pareceu mais útil ter segmentação, paging, trocas de contexto, níveis de prioridade nos interrupts. Ou seja, com os transistores que se podia ter num chip na altura, a Intel deu-lhes esse uso, enquanto que outros fizeram chips com mais registadores e com multiplicadores de um ciclo de relógio, era um dos argumentos do debate RISC vs. CISC.

    Ou porque é que achas que o Pentium/Pentium Pro era mais lento que os PowerPC 601-604 em vírgula flutuante? É uma questão de escolha, era mais rápido em inteiro.

    Quando se desenha um chip, todos os elementos já foram inventados há muito tempo e já foram testadados e utilizados em ASIC.
    Começa-se precisamente por estabeler a moldura de tempo do projecto, prever que na altura em que o chip for fabricado vai ser possível, aliás prático, aliás económico, meter X transistores.
    Depois, com esse budget de X transistores, decide-se o que é que vai dentro do chip que melhor responda às necessidades.

    Está claro o que eu queria dizer com "ninguém sabe como aproveitar o número de transistores num chip que está sempre a aumentar"? Saliento que a parte do "ninguém sabe" tem a ver com o facto da lógica que se estava a seguir de pipelining ter chegado ao limite, da lógica dos dual/quad core também (as aplicações usam-nos pouco), e por isso mesmo as GPUs continuam a aumentar os GFLOPS enquanto que as CPUs não.

    Eh pá. Eu fiz montes de afirmações arriscadas. Disse que seria apenas razoável como GPU, que seria menos que razoável como CPU, especulei acerca do seu futuro como produto. Havia tanta coisa para me atacar ou simplesmente discordar.

    E tu vais pegar nesta minha afirmação completamente simples e pacífica?

    Se me queres mandar "flames" manda "flames" a sério. Há muito por atacar aí. Ou não arriscas?

    Na verdade esta frase tua ilustra muito bem o que eu estava a dizer.

    Do ponto vista do gajo de materiais, a coisa é mais complicada, meter efectivamente os transistores no chip.
    Mas do ponto de vista da arquitectura é mesmo assim, começa-se o projecto, estima-se que o pessoal de materiais vai efectivamente ser capaz de meter X transistores no chip, e depois escolhe-se qual o melhor uso a dar-lhes.

    Penso que não estavamos a falar do ponto de vista do engenheiro de materiais.
     
    Última edição pelo moderador: 6 de Outubro de 2008

Partilhar esta Página