Gráfica Nvidia Ampere 8nm (RTX 3000 series)

Eu é que sinto que desde o meu primeiro post sobre a matéria não me devo estar explicar muito bem uma vez que eu não estou a defender ou a ilibar o fabricante.

(bla bla bla whiskas saquetas)


Não deixa de ser responsabilidade do fabricante, mas se eu quero que tu corras o meu software, pois ganho dinheiro com isso, se calhar convinha tentar descobrir o que é que no meu software possa estar a levar a que essas aberrações aconteçam. Apenas isto.


(bla bla bla whiskas saquetas)
Eu sei que escrevo demasiado, e a malta deve filtrar metade do que digo.

Acho não haver uma lista de quais as gráficas afectadas pelo problema. Até ver, e como já disse, não há (que eu saiba) relatos de founders edition. O que não significa que não sejam afectadas pelo mesmo problema.

Mas, o facto das evga serem o número predominante deve-se única e exclusivamente ao facto das mesmas terem sido vendidas em maior número, não por serem de pior fabrico que uma Zotac (por exemplo, que há muito menos relatos).

Uma pequena pesquisa nos googles e reddits da vida, vemos relatos de quase todas as marcas.

O problema está sempre no hardware como é obvio.

O que se passou aqui é que um jogo "sem querer", foi como se tivesse feito um exploit ao hardware. Os Gpu's fazem uma media da potencia utilizada, e o jogo conseguiu uma forma de enviar picos de load para o Gpu's, de tal forma pequenos mas elevados, que não é detetado pelas medias.

Provavelmente os fabricantes de gpu's terão de arranjar uma nova forma de detetar a energia em uso, que não seja por uma simples media. Nunca tal tinha acontecido com outros jogos, e por isso é que o método usado atualmente era suficiente.

Pronto, conseguiste resumir em tão poucas linhas parte do que tenho estado a dizer :D :D :D

Em resumo, as gráficas avariaram com um problema que nem devia existir.

É óbvio que o fabricante é que tem que resolver.

Mas na minha mente não é menos óbvio que a Amazon ficaria bem na pintura se tentasse descobrir o que é que no seu código o provoca.

Consegues mesmo danificar o teu GPU com o MSI afterburner?

Vamos imaginar as gráficas que permitem meter acima dos 100% de power draw, um overclock xpto que tenha o GPU e a VRAM SEMPRE a correr nos limites de temperaturas.

Pode não estoirar, mas não dá saúde garantidamente.
 
Consegues mesmo destruir o teu GPU com o MSI afterburner?

Nunca tentei, e não digo que seja fácil, mas provavelmente já houve pessoal que conseguiu. Mas mesmo que não destrua, consigo reduzir o tempo de vida útil da mesma na boa. Basta injetar o máximo de voltagem que conseguir, aumentar o power limit ao máximo, e deixar andar sempre assim.
O Gpu não te vai durar o mesmo tempo, é certinho.
 
Nunca tentei, e não digo que seja facil, mas provavelmente já houve pessoal que conseguiu. Mas mesmo que não destrua, consigo reduzir o temp ode vida util da mesma na boa. Basta injectar o maximo de voltagem que coinseguir, aumentar o power limit ao maximo, e deixar andar sempre assim.
O Gpu não te vai durar o mesmo tempo, é certinho.
Mas isso porque a gráfica o permite...
 
Mas isso porque a gráfica o permite...

Exatamente, é como em tudo na vida.

O limite de velocidade no código da estrada é 120 Km/h.
Se carregares no acelerador, o automóvel permite que vás muito acima dos 120 Km/h.

Se apanhares uma multa, a culpa é tua que pisaste no acelerador, ou é da marca que não colocou um limitador de velocidade, impedindo assim que o mesmo andasse a mais de 120 Km/h?

Existe exemplos para todos os gostos e feitios.
 
Exatamente, isso é regulação de tensão interna, o msi afterburner até podia permitir colocar lá 10v que isso não interessa, a vbios é que tem de estar programada devidamente para aceitar ou não essa tensão com base na construção/especificações da placa/hardware.

Já o mesmo não se podia dizer se fosse na alimentação externa, se por exemplo chegasse lá um manolo qualquer e tentasse alimentar a placa com 230vac no pcie...
 
Exatamente, isso é regulação de tensão interna, o msi afterburner até podia permitir colocar lá 10v que isso não interessa, a vbios é que tem de estar programada devidamente para aceitar ou não essa tensão com base na construção/especificações da placa/hardware.

Mas a marca só dá garantias com o power limit a 100%. Se colocas o power limit a 120%, mesmo com a vbios a aceitar, estás por tua conta e risco. Claro que depois para eles descobrirem que fizeste isso, são outros 500's.
 
O limite de velocidade no código da estrada é 120 Km/h. Se ti carregares no acelerador, o automóvel permite que tu vais muito acima dos 120 Km/h.
Se apanhares uma multa, a culpa é tua que pisaste no acelerador, ou é da marca que não colocou um limitador de velocidade, impedindo assim que o mesmo andasse a mais de 120 Km/h?

Não sei se é a analogia mais apropriada. Para mim, a mais óbvia é que quando aceleras o carro, este não chega a 400Km/h, certo? Existe ali um limite interno estabelecido pelo fabricante que para todos os efeitos está dimensionado para que o carro continue operacional.

Nunca tentei, e não digo que seja facil

Bom, sabemos que não vai ser fácil - senão o pessoal aproveitava-se para RMAr. Hoje em dia (e não era o caso antes), é muito fácil fazer overclocking e undervolting, e todo o tipo de afinações com software e bios, e obviamente os fabricantes têm de se precaver, e tens por isso sistemas de monitorização e de controle complexos que regulam isso.

Continuo a não entender porque é que essa discussão teima a existir, quando isto afecta apenas alguns fabricantes e alguns modelos quando correm o mesmo software (New World).
 
Última edição:
Exatamente, é como em tudo na vida.

O limite de velocidade no código da estrada é 120 Km/h.
Se ti carregares no acelerador, o automóvel permite que tu vais muito acima dos 120 Km/h.

Se apanhares uma multa, a culpa é tua que pisaste no acelerador, ou é da marca que não colocou um limitador de velocidade, impedindo assim que o mesmo andasse a mais de 120 Km/h?

Existe exemplos para todos os gostos e feitios.
Grande comparação sim senhor tem tudo haver, é por causa disso que muitos carros hoje em dia vêm com limitador, se o carro vir com limitador a 120khm se conseguires dar 200khm sem qualquer alteração e se o limitador não funcionar de quem é culpa? Do fabricante que meteu limitador que não fez efeito ou do contudor? Isto num carro de origem com limitador a 120khm
 
Não sei se é a analogia mais apropriada. Para mim, a mais óbvia é que quando aceleras o carro, este não chega a 400Km/h, certo? Existe ali um limite interno estabelecido pelo fabricante que para todos os efeitos está dimensionado para que o carro continue operacional.

Então leva o carro constantemente ao red line em 2ª ou 3ª, e verifica o que vai acabar por acontecer ;)
Sabes como é que a marca se ia defender? "Má utilização".

Continuo a não entender porque é que essa discussão teima a existir, quando isto afecta apenas alguns fabricantes e alguns modelos quando correm o mesmo software (New World).

Já dei a minha opinião mais acima e afirmei que a culpa é do fabricante, pois aconteceu uma situação que não estavam a prever.

O problema base desta situação acontece em todos, existe é quem tenha Gpu's com melhores VRM's, e como tal aguentam os picos de melhor forma, mas a realidade é que esses picos nem deveriam acontecer.


Grande comparação sim senhor tem tudo haver, é por causa disso que muitos carros hoje em dia vêm com limitador, se o carro vir com limitador a 120khm se conseguires dar 200khm sem qualquer alteração e se o limitador não funcionar de quem é culpa? Do fabricante que meteu limitador que não fez efeito ou do contudor? Isto num carro de origem com limitador a 120khm

Mas foi mesmo por isso que te dei o exemplo. Todas as graficas deixam o Power Limit ir acima dos 100%, sejam Nvidia ou Amd.
Se uma gráfica não deixar subir acima dos 100%, era muitos problemas que se poupavam, mas depois levavam na cabeça da comunidade.

Dai que te dei o exemplo que é como tudo na vida. Da mesma força que os Gpu's podem ir acima dos 100%, os automóveis também permitem quase todos andar bem acima da velocidade limite. E existem muitos mais exemplos similares.
 
Última edição:
Já dei a minha opinião mais acima e afirmei que a culpa é do fabricante, pois aconteceu uma situação que não estavam a prever.

O problema base desta situação acontece em todos, existe é quem tenha Gpu's com melhores VRM's, e como tal aguentam os picos de melhor forma, mas a realidade é que esses picos nem deveriam acontecer.

Não deve ser coincidência que numa altura em que pagamos uma quantidade absurda de dinheiro por um GPU, achamos que um jogo mal optimisado tem parte da culpa de um GPU ir abaixo, e que quem faz o jogo tem que fazer alguma coisa para não danificar os GPUs. Isto para mim só faz sentido se existe lá código que anda a subverter os mecanismos internos do GPU, o que não me parece que seja o caso porque seria algo estúpido de se fazer para além de não entender a motivação.

No momento em que existe um mecanismo que faz variar a potência de acordo com o trabalho (workload) dado, é preciso admitir que vai haver picos. Não só nos jogos, mas também em áreas como IA e HPC, onde também se utiliza - e onde se é desejável puxar os limites - dos GPUs. Pode ser que o jogo tenha workloads muito irregulares, mas azar - os fabricantes de hardware que tornem os seus GPUs mais resilientes. Afinal, como disseste, a culpa é do fabricante.
 
Última edição:
Já aqui o tinha dito mas volto a repetir: a maior parte da culpa é claramente da nvidia e acho que ninguém aqui disse o contrário.

Dito isto podem não estar a par mas os drivers de gpus têm sempre imensos bugs que podem provocar falha ou uma regressão de performance considerável. Aqui os devs reportam os bugs à nvidia/amd/Intel e é daí que surgem os drivers optimizados para jogo x ou y. No entanto há bugs que podem nunca ser corrigidos ou o tempo de correcção vai ser impraticável e nesses casos os devs procuram workarounds para evitar problemas.

Um exemplo bastante conhecido: os drivers quase todos têm a mania de optimizar o load de texturas para vram em direct x 11 e inferiores e em opengl. O cliente pode pedir o carregar uma extura mas se esta não é usada o driver atrasa o seu carregamento. Um workaround dos devs passa por renderizar um triângulo minúsculo com a textura para obrigar o carregamento da mesma para não acumular imensas texturaras por carregar e provocar stutters.

Com o new world está a passar-se algo parecido e é totalmente irresponsável da amazon simplesmente ignorar o problema como se eles não tivessem qualquer maneira de tentar gerir do lado deles uma forma de evitar o comportamento. A culpa é da nvidia mas a Amazon tem nas mãos o poder de salvaguardar o hardware dos seus clientes. Eles apenas precisam de fazer profiling do workload ao mesmo tempo que obtêm o consumo pela nvapi (algo simples de o fazer e digo-o de experiência própria) e assim identificar o que provoca overshoot de consumo. Portanto há aqui uma clara falta de vontade pela amazon e isso é legítimo criticar.

Finalmente queria só acrescentar que dizer que o code base é mau não faz muito sentido e é injusto para os devs pois os problemas de performance são antes derivados da natureza do cryengine em que tem uma forte componente single threaded para gerir as drawcalls com estado sincronizado (antes de cada primitiva tem de definir o estado de sampling, difuse color, etc). O star citizen sofre do mesmo mal e esses começaram a refactorização de DX11 para vulkan (estes podem dar-se a esse luxo pois o jogo nunca vai sair xD).
 
Não há aqui nas últimas páginas uma única pessoa a dizer que a responsabilidade não é do fabricante.

Não sei se viste o vídeo colocado atrás, para entender ao certo a aberração que é o código do New World referente ao que provoca nas gráficas. Tem a ver com a carga que o jogo coloca na gráfica, sem haver, aparentemente, qualquer razão para tal.

Chegam a dizer que para algo colocar tamanha carga no GPU seria algo super bem optimizado, que efectivamente usa 100% da quantidade absurda de transistors existentes na 3090. E jogo nenhum o faz, nem fará tão cedo. Mas usa apenas durante micro frações de segundo, concluindo-se que é um problema, e não algo suposto.

Sim, a amazon ou o estúdio só ficava bem na pintura se tentasse descobrir o que é que no seu pobre código provoca situações aberrantes destas, que como já foi indicado, não foram nunca previstas pois, adivinha, é um problema com o qual não se haviam deparado. Logo sim, nem que moralmente, parte da responsabilidade do problema está no código.

MAS SIM, a responsabilidade em solucionar o problema está EXCLUSIVAMENTE no fabricante.

Nada até agora provocava estes "micro picos" de corrente / power draw / usage, tão pequenos que a gráfica nem chega a detetar, e como tal, não ativa proteção nenhuma.

Gráfica A pode ter melhores componentes que a B, o que não significa que a gráfica B não esteja dentro dos parâmetros e não dure uma vida. Obviamente, este comportamento inesperado poderá mais facilmente danificar a gráfica B (o que não é garantido que o faça), mas também poderá vir a danificar a gráfica A (ainda que tenha menos probabilidades em o fazer).

Atenção, sou dessa opinião. Os fabricantes que tornem os seus GPUS mais "bullet proof". Por mim, era um descanso.
Mas 80% dos consumidores não estarão garantidamente dispostos a pagar o premium que isso acresce ao valor de uma gráfica. É que a nível de "testes" e afins teriam que começar a perder tempo a inventar cenários inexistentes, e a colocar então componentes de qualidade superior do que seria, em teoria, o suficiente.

Estou a ignorar o valor atual das gráficas, que é idiota, mas imaginar a Nvidia ter lançado 3080's a 900€ e 3090s a 1800€ de MSRP com a desculpa "mas temos as gráficas mais bullet proof que existem, e solucionámos problemas que não existiam". Deviam ter sido muito bem recebidas as gráficas.

Atenção, e reforço:

É óbvio que a batata quente está do lado do fabricante, mas também me parece um pouco injusta e redutora a opinião de que simplesmente foram incompetentes, sem qualquer prova disso, até ver.

Se não solucionarem o problema, a meu ver via firmware ou o raio, aí sim, parece-me problemático e inconsciente da sua parte, pois arriscam a percas monetárias.. No entanto, estão a fazer o que lhes compete, que é substituir as gráficas.

Mas garanto que os fabricantes de algum modo se irão precaver. Nem que seja com o lançamento de gráficas tão bloqueadas que não permitem que se mexa em absolutamente nada nas mesmas com afterburners ou o que seja.



De qualquer modo, acho que o maior interesse demonstrado por parte do pessoal aqui, é em tentar saber ao certo o que se passa e como poderão solucionar o problema.
 
Com o new world está a passar-se algo parecido e é totalmente irresponsável da amazon simplesmente ignorar o problema como se eles não tivessem qualquer maneira de tentar gerir do lado deles uma forma de evitar o comportamento. A culpa é da nvidia mas a Amazon tem nas mãos o poder de salvaguardar o hardware dos seus clientes. Eles apenas precisam de fazer profiling do workload ao mesmo tempo que obtêm o consumo pela nvapi (algo simples de o fazer e digo-o de experiência própria) e assim identificar o que provoca overshoot de consumo. Portanto há aqui uma clara falta de vontade pela amazon e isso é legítimo criticar.

Tu realmente acreditas que a Amazon está a ignorar o problema? É a narrativa sensacionalista que se vê em alguns artigos na net e videos de youtube, mas para mim isto é clickbait puro sem qualquer ponta de evidência. Se fosse algo tão simples, a lógica diria que já teria sido resolvido - afinal, temos patches de coisas triviais. Certamente, criar um patch que salvaguarde o hardware do seus clientes estaria no topo da lista. Para mim não é "a culpa do fabricante mas...", porque de facto, os drivers, o runtime e todos os componentes que fazem parte do hardware são do fabricante - têm de estar preparados para qualquer tipo de workload.

Para mim, a resposta para um mau workload é só duas: ou má performance ou um erro. Em circunstância nenhuma pode levar a destruição. E embora entenda que a Amazon podia fazer algo (começando por cancelar o jogo). se assumimos que a culpa é do fabricante, que sejam estes a descalçar a bota - as duas - nem que seja desativar a nível dos drivers esses picos e quaisquer outros abuso das gráficas (se realmente é um problema geral). A gente paga imenso dinheiro por este tipo de hardware, e a última coisa que queremos é que um softwarezeco mal intencionado ou mal construído possa acabar com ela.

Então leva o carro constantemente ao red line em 2ª ou 3ª, e verifica o que vai acabar por acontecer ;)
Sabes como é que a marca se ia defender? "Má utilização".

Uma analogia deliciosa. Seria giro se os fabricantes agora invalidassem a garantia por jogarmos certos jogos.... má utilização. :)
 
Última edição:
Independentemente da má otimização do New World, uma gráfica e o seu firmware não pode simplesmente ignorar os limites fisicos do circuito de power delivery. Ao limite uma pessoa má intencionada poderia escrever um pedaço de código simples e rebentar-vos com a gráfica, isto como óbvio é uma vulnerabilidade grande e uma falha de design. E devem de certeza existir mais aplicações onde a placa ultrapassa o power limit, pode é não ser com a mesma regularidade do New World, mas a longo prazo tem as suas consequências.
 
Também já o disse antes e concordo que a culpa é essencialmente dos fabricante das boards já que tem que ter construção adequada e mecanismos de protecção que evitem este tipo de problemas.

Contudo, e ao contrário do que já aqui disseram, os game developers, assim como qualquer outro developer, têm de ter conhecimentos sobre hardware e otimizar o software/jogo para que corra da melhor forma possível no hardware alvo. Claro que não é possível optimizar para que corra em qualquer coisa, caso contrário qualquer RAM + CPU + GPU chegavam perfeitamente. Se não têm conhecimentos suficientes, alguém dentro da equipa tem de ter e tem de ser optimizado antes de ser lançado no mercado.
Um destes exemplos mais comuns, da necessidade de perceber como um software afeta o desempenho do hardware, é utilização da
RAM.

A Amazon claramente também tem trabalho a fazer no jogo, não são só os fabricantes de GPUs ...
 
Nos dias de hoje, é preciso coragem para jogar esse jogo.
Da mesma forma que não meto o Furmark a correr no meu PC, tenho a certeza que depois de saber do facto esse jogo nem chega próximo do meu PC.

Para quem tem placas na garantia pode arriscar, e se apenas provocar um desgaste sem partir, com avaria a surgir depois da garantia expirada?

Vai ser o consumidor a pagar pelo erro de alguém, e nessa altura não importa se a culpa é do hardware ou software, porque ninguém vai devolver o dinheiro da placa avariada.

Se houver um boicote ao jogo alguma coisa acontece, ou morre ou é optimizado.

Boa sorte para quem continua a jogar.
 
Curiosamente o pico de players consecutivos foi superior a 900mil pessoas, portanto podemos dizer que é um jogo que já foi jogado por milhões de pessoas, não vejo esse problema epidémico de placas a morrerem por causa de um jogo.
 
Contudo e ao contrário do que já aqui disseram, os game developers, assim como qualquer outro developer, têm de ter conhecimentos sobre o hardware em que vai correr e otimiza-lo para que corra da melhor forma possível para o hardware alvo. Claro que não é possível optimizar para que corra em qualquer coisa, caso contrário qualquer RAM + CPU + GPU chegavam perfeitamente. Se não têm conhecimentos suficientes, alguém dentro da equipa tem de ter e tem de ser optimizado antes de ser lançado no mercado.
Um destes exemplos mais comuns, da necessidade de perceber como um software afeta o desempenho do hardware, é utilização da RAM.

A Amazon claramente também tem trabalho a fazer no jogo, não são só os fabricantes de GPUs ...

Concordo com tudo o que disseste. Apenas acho que a motivação dos game devs para fazerem jogos optimizados (e parece-me um dado adquirido que o New World é um jogo mal optimizado) é para que os jogadores possam usufruir o melhor possível do hardware que têm. Faz-me confusão - e sinto alguma apreensão - que sejam (parcialmente) responsabilizados por algo mais que isso, ou vamos ter agora os fabricantes a (parcialmente) abdicarem das suas responsabilidades de consertarem as gráficas por termos utilizado aplicação X ou Y.

Esse "A culpa é do fabricante mas..." pode-nos sair caro no futuro.
 
Back
Topo