Gráfica Nvidia Ampere 8nm (RTX 3000 series)


Novo vídeo do buildzoid onde ele apenas exemplifica o que explicou no vídeo anterior a correr o furmark. Vê-se que o pico de consumo tem overshoot acima do power limit mas q eventualmente fica limitado.

Mostra também como mantendo um vcore e clock baixo neste software o consumo é próximo de 100% tdp pois o workload claramente mantém mais partes do GPU activas (imaginem só até onde ia se não houvesse correcção de vcore e clock xD).

Depois ele mostra como o superposition consegue facilmente provocar picos bem acima do TDP máximo permitido. Este teste demonstra claramente que o controlo de consumo é feito por médias temporais e permite picos transientes tal como foi explicado no vídeo anterior.

No caso do new world a suspeita é que deve ter constantemente casos em que provoca picos de corrente transientes de curto tempo mas com elevada frequência de ocorrências. Isto pode levar à morte de placas com pontos falha mais evidentes que ficam expostos ao catalisador de desastre do comportamento do jogo.

Ele faz também um comparativo do algoritmo de boost de gpus ter uma implementação reactiva (só sobe ou desce o clock/vcore com base no que se acabou de passar) enquanto que CPUs com instruções AVX, por exemplo, é uma implementação preemptiva (mal detecta que vai executar uma instrução AVX baixa o clock). Ou seja, o GPU viola o limite de potência e só depois baixa o clock/vcore. No período em que viola o limite a VRM vai tentar ao máximo acompanhar e aqui podem acontecer várias coisas:
  • A VRM acompanha e o período de violação é tão curto que não há qualquer alteração de comportamento e volta tudo a ficar nominal.
  • A VRM acompanha e o período de violação é longo o suficiente que o software aplica a correcção de clock e vcore.
  • A VRM não acompanha e a tensão baixa tanto que activa o UVP (desliga vcore, ecrã preto e fans no máximo).
  • A VRM tenta acompanhar e há falha catastrófica e puff! fez-se o chocapic.
 
Resumindo e baralhando,

"atenção, é a minha opinião meramente especulativa"

há uma enorme possibilidade da razão ser, como digo desde o início, o péssimo código do New World que leva isto a acontecer em gráficas que estão mais que capazes e sem qualquer defeito, ou problema de arquitectura ou o raio. E não há preocupação por parte da Amazon em tentar entender o problema (devia trabalhar em conjunto com os fabricantes, obviamente).

Como já indicaram, o código do NW é uma completa barafunda. Um gajo tanto pode estar a jogar a 150fps, como de repente tem frame drops para 70 (sem haver aparentemente razão para tal).

É o que dá ser um motor de jogo baseado noutro motor de jogo, e um jogo que é uma valente manta de retalhos, que começou como A, durante o desenvolvimento passou para B, entretanto saiu como C.

Eu volto a dizer, com um undervolt em que por si só a gráfica não passa dos 300W, e ainda com um power limit acrescido de 90%, no New World é perfeitamente normal a minha 3090 andar nos 320/30W.

Again, meramente especulação.

Eu continuo a jogar, assumindo o risco. Mas limitando ao máx, dentro do razoável, a gráfica.

É o Hardware a falhar, por isso é perfeitamente normal que se aponte logo o dedo ao Hardware, até porque será o fabricante a resolver-me o problema.

Mas o NW é claramente responsável, e algo no seu código gera isto.

Again, e como disseste @muddymind . Não há conclusões nenhumas, pois não se conseguem dados suficientes, ou samples de gráficas suficientes para testar. Podem ser gráficas com defeito, pode ser o código do new world, podem ser gremlins, whatever.

A minha opinião é também apenas isso, uma opinião. Ainda que estivesse em modo 70/30 (Gráfica / New World), começo a inverter o racio consoante se vão apanhando algumas informações e conclusões de malta que está a tentar descobrir o que raio se passa.
 
Dourar a pilula não nos vai ajudar, nem vai melhorar a próxima geração de placas gráficas, se o próprio cliente faz vista grossa às falhas do produto atribuindo a responsabilidade de algo que deveria ser do fabricante da placa a razões externas.

Não há software capaz de danificar hardware se o hardware estiver bem desenhado. E não me venham novamente com as comparações ridiculas, como automoveis.
O que está em causa é um dispositivo eletrónico em que o fabricante tem o poder de colocar limitações rigidas que não podem ser ultrapassadas independentemente daquilo que o software quiser fazer.
 
Dourar a pilula não nos vai ajudar, nem vai melhorar a próxima geração de placas gráficas, se o próprio cliente faz vista grossa às falhas do produto atribuindo a responsabilidade de algo que deveria ser do fabricante da placa a razões externas.

Não há software capaz de danificar hardware se o hardware estiver bem desenhado. E não me venham novamente com as comparações ridiculas, como automoveis.
O que está em causa é um dispositivo eletrónico em que o fabricante tem o poder de colocar limitações rigidas que não podem ser ultrapassadas independentemente daquilo que o software quiser fazer.
Dizes bem se o hardware for bem desenhado se for mesmo bem desenhado nem com hardware mod se safam 😁
 
Dourar a pilula não nos vai ajudar, nem vai melhorar a próxima geração de placas gráficas, se o próprio cliente faz vista grossa às falhas do produto atribuindo a responsabilidade de algo que deveria ser do fabricante da placa a razões externas. Não há software capaz de danificar hardware se o hardware estiver bem desenhado.

Exacto. E não podia ser de outra forma. Caso contrário, o pessoal que desenvolve aplicações para os CPUs, GPUs ou FPGAs teria que agora entender o funcionamento a muito baixo nível destes dispositivos para evitar avarias. O código mal optimizado do NW devia ser visto como algo de bom, porque ajudou a detectar falhas em alguns GPUs. Certamente, merecia um ponto extra em qualquer review deste jogo. :D
 
Última edição:
Há uma teoria em geral de que uma peça de hardware tem a obrigação de aguentar toda a porrada que se lhe atira para cima, ponto final.

As gráficas aguentam porrada de furmark à bruta (aos dias de hoje), que é o software mais optimizado que existe para levar esta peça de hardware ao extremo. Mas, num uso longe do que qualquer outro software leva (muito longe do uso normal de um simples jogo). E não foi resolvido no hardware coisa nenhuma (fisicamente). O firmware/bios ou whatever da gráfica é que deteta o Furmark e já sabe como agir com o mesmo. Já foi explicado aqui há uns valentes posts atrás.

A minha 3090, pessoalmente, leva porrada como o caraças a renderizar, chegando a estar períodos de quase 3 dias consecutivos a 100%... A suar bem, e a mamar os 350W.

Surge 1 software mal optimizado que faz com que hajam determinados "picos" de corrente e uso, coisa que nunca aconteceu antes, e o fabricante é 100% culpado por não ter resolvido um problema inexistente até então, e que não tinha, alegadamente, como prever.

O vídeo colocado uns posts atrás explica super bem o que se passa, a nível de "uso na gráfica".

Again, óbvio que a Amazon não pode ser responsabilizada "ahh o teu jogo estragou-me a gráfica, paga".

Mas pode claramente ser indagada com um "ahh o código do teu jogo é um verdadeiro lixo e isso estragou-me a gráfica, agora o fabricante paga. Mas, e uma solução?".

Quem vai sempre arcar com os custos disto é o fabricante, óbvio. Se a minha gráfica avariar é óbvio que é com ele que vou lidar. Aqui o fabricante depois que lide com a Amazon se chegarem à conclusão haver bases para isso.

Pelo menos até que algum se lembre de " Joguem NW por vossa conta e risco, o jogo leva o hardware a ter comportamentos anormais, podendo estragar o mesmo. Gráficas avariadas a jogar NW não serão abrangidas pela garantia".

Ainda não se provou ser culpa de uma má arquitectura de hardware, uma vez que as gráficas estão fabricadas de acordo com as especificações da NVIDIA, e até indicação em contrário, mais que a 100% para o uso suposto de tudo o que existe até à data... Excepto o New World.

Como fabricante, eu lançaria um firmware que fizesse com o New World o que as gráficas fazem com o Furmark. E até capava a gráfica quando este software corresse se fosse preciso, pelo menos até que se chegue ao cerne da questão de qual o real problema. Se alguém apontasse o dedo porque estava a capar o jogo, levavam com "gráficas avariadas a jogar new world com o firmware antigo, não serão abrangidas pela garantia"

Há videos aqui colocados, de malta que está a tentar realmente descobrir o que acontece com o jogo. Comparações com o furmark que é o software mais "anormal" que existe, e ainda assim, um simples jogo que nunca deveria carregar uma gráfica do mesmo modo que este benchmark faz, consegue ultrapassar o mesmo e torrar gráficas.

Pessoalmente a EVGA ter levantado uma razão de "soldas defeituosas", parece-me a mim ter sido um pouco uma maneira de, assumindo o custo da troca das gráficas, arranjar uma solução credível quando na realidade não conseguiram ao certo descobrir o que levou (e está a levar) as gráficas a irem à vida.

Tanto que gráficas fabricadas sem este suposto problema, também já morreram..

Eu no fundo estou-me um pouco a lixar para quem tem a responsabilidade. A mim causa-me confusão sim é a passividade da Amazon em simplesmente descartar o problema, pois legalmente sabe que não tem qualquer chatice. Uma atitude correcta, a meu ver, seria sim tentar activamente em conjunto com os fabricantes descobrir uma solução, que acho passar sempre entre um mix de Firmware para a gráfica, e uma correcção de código (dentro do possível... Uma vez que o jogo é um atabalhoado de código reescrito, e que mudou o seu conceito algumas 3X ao longo do desenvolvimento)...

Isto lembra-me um pouco a questão das gráficas que vão à vida a minerar porque as memórias são levadas ao extremo.. Apenas num simples software...

Lembra-me da discussão "ah e se for à vida a minerar, na Europa pelo menos, o fabricante tem que trocar a gráfica e calar". Mas, que eu saiba, não era um problema de hardware, mas sim da utilização do mesmo num cenário para o qual o mesmo não foi criado. Claro que o fabricante é quem vai trocar a gráfica, ninguém diz o contrário, mas seria um problema gerado por software e não garantidamente falha de hardware por mau fabrico do mesmo.
 
Há uma teoria em geral de que uma peça de hardware tem a obrigação de aguentar toda a porrada que se lhe atira para cima, ponto final.

Não há teoria nenhuma. O fabricante é que define a "porrada" que o silicio pode levar ponto. Isto já é assim desde que sempre mas desde que os fabricantes começaram a incluir os boosts automáticos nos clocks que os limites são rigidos e bem definidos, só os consegues ultrapassar com modificação fisica muitas vezes, como é o caso dos shunt mods.

Engraçado que o New World só mate certos modelos.

Não sei qual é a dúvida disto. Malta que não tem qualquer ligação ao mundo tecnológico ainda admito que se deixe levar pela ignorância e caia no clickbait do "x Jogo mata gráficas". O que não compreendo é que haja pessoas que não são ignorantes na matéria, e continuam a insistir a defender o indefensável.

Não há gráficas a rebentarem a minerar se não tiverem um problema qualquer, mesmo com OC na memória, aliás a forma como o próprio OC funciona é limitado pelo fabricante da própria memória. Tens malta ai a minerar com placas de 3 e 5 anos, a trabalharem 24 sobre 7 e correm tudo praticamente como se fossem novas.
Quando uma gráfica ou outro componente eletrónico, morre porque correu determinada aplicação, é porque já eram duvidosos para começar. Tu não fazes ideia da quantidade de porrada que alguns dos gpus levam nos servidores e são coisas que duram anos em algumas circunstâncias décadas muitas vezes são substituidos apenas por obsolescência.

E neste caso nem estamos a falar de OC, estamos a falar de placas que morrem como vieram de origem, só porque correram uma aplicação que expôs algumas das suas falhas de design, falhas essas que seriam fatais a longo prazo. A diferença de correrem a aplicação que acelera a sua degradação é a placa morrer dentro do periodo de garantia ou pouco tempo depois de terminar.
 
Eu é que sinto que desde o meu primeiro post sobre a matéria não me devo estar explicar muito bem uma vez que eu não estou a defender ou a ilibar o fabricante.

De acordo que se uma peça de hardware morre por correr software Y é logo duvidoso à partida da qualidade ou fiabilidade da mesma. Mas há que ver que, e é onde tenho tentado chegar, tens 1 peça que pode durar uma vida, por estar dentro dos parâmetros, e um software que faz com que a mesma ultrapasse o suposto e expectável mata essa mesma peça. Claro que vou ao fabricante trocar a peça, uma vez que não há nada nos termos de uso que me vá responsabilizar.

Não deixa de ser responsabilidade do fabricante, mas se eu quero que tu corras o meu software, pois ganho dinheiro com isso, se calhar convinha tentar descobrir o que é que no meu software possa estar a levar a que essas aberrações aconteçam. Apenas isto.

Bem, zotacs, evgas, gigabytes e penso que asus também. Do que saiba, não tenho estado dentro do assunto relativamente a que gráficas em específico é que já foram confirmadas ter morrido.

Se os fabricantes de algum modo fabricaram as placas abaixo do standard da Nvidia? Não sei, ainda não se chegou a essa conclusão. Reforço o teu argumento quando digo que acho que não há nenhum relato de uma Founders Edition morta. Mas a percentagem de FE a correr o new world vs EVGA's deve ser infima.

Mas, independentemente de hardware defeituoso ou não, da parte do fabricante o grave é 1 software permitir picos de uso e corrente de uma fracção de segundo tão ínfima que o hardware não chega a detetar ao ponto de activar alguma protecção. E é aqui que acho que já deviam ter lançado firmwares a capar as gráficas no jogo em específico.

Again, estamos perante uma situação imprevista. E mais uma vez, as gráficas comportam-se de determinada maneira com o Furmark. Não seria mais fácil os fabricantes simplesmente melhorarem as gráficas de modo a que corram o programa à bruta durante o tempo que for sem morrerem?

Se calhar aqui o problema é que o rácio de gráficas que morreriam à mesma e teriam que trocar não compensaria, e é mais fácil atirar-me ao problema em específico, ao invés de uma prevenção geral e mais dispendiosa. Que é o que irá acontecer com o NW quase de certeza.

De qualquer modo, vou-me retirar do tema, pois penso estar a prolongar um suposto offtopic que não vai levar a lado algum.
 
Porque será que essas placas estarem a morrer e não afetam as RTX 30/20 LAPTOP ? e os portáteis estão a uma temperatura perto dos 80/90C alguns casos até mais :004:
 
Contínuo a não perceber porque alguém contínua a descartar a responsabilidade do fabricante da placa gráfica.

É simples. Se alguém daqui ao correr um jogo ou outro qualquer software, a sua gráfica na garantia fosse há vida iam reclamar com o produtor do software ou iam reclamar com a marca da gráfica?
Acho que está com isto está respondido de quem é a responsabilidade.

Só é pena é que pessoas que compraram estas gráficas hoje, daqui a uns anos arriscam-se a ter este problema com um qualquer software e ficam a ver navios.
 
Outra vez arroz...

@M4N!4K não entres nesse filme que a culpa é do jogo, independentemente do código que lá está implementado ser ou não o mais adequado.

Tens mais aplicações a ultrapassar o PL, o software "pede" aquilo que acha necessário independentemente de ser ou não descabido, cabe ao hardware em conjunto com a sua vbios decidir se entrega e está projetado para tal.

Isto é como ligar um motor na instalação elétrica, o motor vai "pedir" a potência necessária para o seu funcionamento, se a instalação não estiver dimensionada para tal potência e não estiver bem protegida lá vão os condutores, tomadas... A culpa não é do motor, neste caso seria do individuo que lá o ligou sem ver se era adequado.

O caso das gpus continuo a dizer arquitetura de hardware e vbios, logo está do lado do fabricante a batata quente.
 
Isto é como ligar um motor na instalação elétrica, o motor vai "pedir" a potência necessária para o seu funcionamento, se a instalação não estiver dimensionada para tal potência e não estiver bem protegida lá vão os condutores, tomadas... A culpa não é do motor, neste caso seria do individuo que lá o ligou sem ver se era adequado.

No caso de motores de automóveis por exemplo, a realidade é que por meio de software, podes alterar a potencia de um motor e rebentar com o mesmo.

A nível de Cpu's, é similar. Por muitas proteções que tenha, existe sempre casos de um overclock excessivo a rebentar ou encurtar em demasia a vida útil do mesmo.
 
@Ansatsu mas onde é que está a culpa? É de quem entrega ou de quem recebe? E esse caso ainda seria diferente pois estarias a causar a destruição no "recetor" e não no "emissor".

O meu comentário foi uma analogia de um simples motor/instalação sem programações.
 
No caso de motores de automóveis por exemplo, a realidade é que por meio de software, podes alterar a potencia de um motor e rebentar com o mesmo.

Penso que o termo mais apropriado neste caso é "firmware", é parte integrante do dispositivo, e obviamente ninguém é suposto tocar nesse código excepto o fabricante.

Outra vez arroz...

Se entendi bem, há uma certa confusão entre dois fenômenos: "danificar" (anormal) e "desgastar" (normal). Qualquer dispositivo programável por terceiros (fora das mãos do fabricante) tem de operar sempre segundo os seus parâmetros de operação, e não deixar em circunstância alguma sair desses parâmetros. A degradação é normal em qualquer produto, obviamente tem de durar um tempo de vida razoável, mas certamente não é de esperar que GPUs tão caros fiquem danificados ao correr um jogo.

E aqui o caso é ainda mais simples, como foi dito muitas vezes, só algumas placas de alguns fabricantes é que foram a vida.
 
Última edição:
Penso que o termo mais apropriado neste caso é "firmware", é parte integrante do dispositivo de hardware, e obviamente ninguém é suposto tocar nesse código excepto o fabricante.
E no caso dos Gpu's, sem mexer no firmware dos mesmos (vbios), consegues com um simples software como o msi afterburner, alterar a voltagem que injetas na mesma, potenciando ainda mais a destruição do mesmo.

É um software a alterar diretamente o hardware, enviando comandos para a vbios, em que a mesma aceita os novos parametros.
 
O problema está sempre no hardware como é obvio.

O que se passou aqui é que um jogo "sem querer", foi como se tivesse feito um exploit ao hardware. Os Gpu's fazem uma media da potencia utilizada, e o jogo conseguiu uma forma de enviar picos de load para o Gpu's, de tal forma pequenos mas elevados, que não é detetado pelas medias.

Provavelmente os fabricantes de gpu's terão de arranjar uma nova forma de detetar a energia em uso, que não seja por uma simples media. Nunca tal tinha acontecido com outros jogos, e por isso é que o método usado atualmente era suficiente.
 
E no caso dos Gpu's, sem mexer no firmware dos mesmos (vbios), consegues com um simples software como o msi afterburner, alterar a voltagem que injetas na mesma, potenciando ainda mais a destruição do mesmo. É um software a alterar diretamente o hardware, enviando comandos para a vbios, em que a mesma aceita os novos parametros.

Consegues mesmo destruir o teu GPU com o MSI afterburner?
 
Back
Topo