Intel Meteor Lake [2023]


Segundo a investigação do Wendell do Level1techs, aconselho a visualização do video para perceberem que até em boards sem overclocking com memórias JEDEC usadas em servidores de gaming isto está a acontecer.

E visto que isto está a acontecer até em cpus usados em boards w680 não é da quantidade de corrente nem das configurações de bios usadas por pré definição nas boards z790.

Algo de incrivelmente errado está a acontecer no QC destes chips.
 
Última edição:

50% dos CPUs têm pelo menos 1 erro no espaço de 1 semana, com boards/chipset para Datacenter, power profiles muito conservadores, RAM a velocidades muito baixas e em ambiente de Datacenter (Cooling, etc).....lol, isto não é mau. É medonho!!!
O melhor que eles têm a fazer é levar uma shotgun para o Datacenter para resolver definitivamente o problema. :D

Pela descrição, inclino-me para algo a nível do sistema de memória e degradação ao longo do tempo.

A Intel já devia ter feito alguma coisa, nem que fosse a nível de comunicação, para assegurar os clientes.
Parece que o Gamers Nexus também está a investigar o caso. Estou com curiosidade de saber o que se passa. Isto se conseguirem chegar à root cause do problema.
 
Sim, deve ser algo a nivel do sistema de memória. Mas realmente é estranho acontecer nessas boards com velocidades de ram baixas.

Eu consegui degradar o IMC do meu 13700kf ligeiramente. Antes passava y-cruncher a 4200mhz 1:1 com 1.32 vccsa durante horas sem stress. E eu usava 1.34v para ter a certeza e passado meses começou a degradar e agora precisa de 1.35v.
Acabei por reduzir para 4133 gear 1 com 1.28v.

Pelo que li estes chips começam a degradar com vccsa acima de 1.3v. E as boards aplicam até 1.35v com XMP...
Os meus cores/ring não degradaram nada, foi só o system agent e foi ligeiramente.

Estes cpus há uns meses também vinham com um "SA bug" que ficava instável com voltagens mais altas e DDR5. E alguns nem mais de 1.15v conseguiam aguentar sem problemas de estabilidade. Os chips novos parecem ter este problema resolvido.
 
Última edição:
Não diria memória mas sim mais ring/cache. Quando tens casos em que desligas cores e de repente a coisa volta a funcionar outra vez juntamente com erros de I/O, o problema tem de estar no sistema de comunicação dentro do próprio cpu e a cache L3 por arrasto porque está fisicamente ligada ao ring.

Não é por acaso que o Wendell teve testes que corriam praticamente só na cache e falhavam.

A teoria que corre é que as altas tensões que vemos no Vcore dos i9s e i7s está a provocar problemas no ring e não ajuda que essas tensões aconteçam mesmo em cargas single core.

Do ponto de vista lógico faz algum sentido. O ring é alimentado em parte pelo vcore. Em alguns destes cpus degradados não vai chegar baixar o vcore, provavelmente vão ter de baixar a frequência do uncore para atingirem estabilidade novamente. E em muitos destes cpus isso não vai sequer resolver, porque ao contrário da degradação por electromigração, quando o semicondutor degrada por tensão, fisicamente o gate do transistor é destruido, mexer com a frequência e tensão não resolve.

A Intel não consegue resolver esse tipo de degradação com micro código, precisam mesmo de substituir o cpu e já por isso andam calados que nem ratos.
 
Última edição:
Intel is selling defective 13-14th Gen CPUs

My team at Alderon Games, working on the multiplayer dinosaur survival game Path of Titans, has been encountering significant problems with Intel CPU stability. These issues, including crashes, instability, and memory corruption, are confined to the 13th and 14th generation processors. Despite all released microcode, BIOS, and firmware updates, the problem remains unresolved.

We have identified failures in five main areas:

End Customers: Thousands of crashes on Intel CPUs on 13th and 14th Gen CPUs in our crash reporting tools.
Official Dedicated Game Servers: Experiencing constant crashes, taking entire servers down.
Development Team: Developers using these CPUs face frequent instability while building and working on the game. It can also cause SSD and memory corruption.
Game Server Providers: Hosting community servers with persistent crashing issues.
Benchmarking Tools: Decompression and memory tests unrelated to Path of Titans also fail.

Over the last 3–4 months, we have observed that CPUs initially working well deteriorate over time, eventually failing. The failure rate we have observed from our own testing is nearly 100%, indicating it's only a matter of time before affected CPUs fail. This issue is gaining attention from news outlets and has been noted by Fortnite and RAD Game Tools, which powers decompression behind Unreal Engine.

Users are also receiving misleading error messages about running out of video driver memory, despite having sufficient memory.
Actions We Are Taking

To prevent further harm to our game, we are implementing the following measures:

Server Migration: We are swapping all our servers to AMD, which experience 100 times fewer crashes compared to Intel CPUs that were found to be defective.
Hosting Recommendations: We advise anyone hosting Path of Titans servers or selling game servers to avoid purchasing or using 13th and 14th gen Intel CPUs.
In-Game Notifications: We are adding a popup message in-game to inform users with these processors about the issue. Many users are currently unaware of why their game is crashing and what they can do about it.

https://alderongames.com/intel-crashes
 
Uma coisa que reparei no meu 13700k que não acontecia com o 12700k é que é mais sensível á pressão. Por exemplo com o ILM a minha board tem problemas com memory training a 4000+mhz com timings apertados e é preciso muito VDDQ TX (faz post sem problemas, mas o training é inconsistente). Com o thermalright frame o memory training é bem mais consistente a 4000+.
Mas também pode ser do socket da minha board em especifico quando combinado com cpu e cooler.

O 12700k estava muito mais limitado pelo IMC/system agent, max 3900mhz gear 1. Enquanto o 13700k faz 4200mhz.
E a minha board também está nos limites do que "gosta" com b-die dual rank. Single rank funciona bem melhor nesta board. Board deve dar 4400mhz dual rank max, mas a 4200mhz já se vê que está a ficar no limite.


Não me admirava nada que grande parte dos problemas nessas boards w680 seja ram. CPU bending/contacto combinado com ddr5 dual rank / 4 stick em boards com pcbs mais básicas e tudo em auto...
Asus w680 QVL max 6400mhz 2x16gb single rank. E este QVL é provavelmente em condições ideais.
 
Última edição:
Ram não explica os erros de I/O e se fosse só ram, não desligavas cores e o cpu voltava a ficar estavel. Pressão do mecanismo de retenção pode explicar alguns casos, mas não explica degradação.

Na realidade ninguém sabe. Mas a teoria de estar relacionado com o ring é o que faz sentido.
 
Última edição:
E na realidade também crasha em gráficas Radeon, mas já se sabe que quando acontece alguma instabilidade do sistema em pcs com Radeon o utilizador tem tendência a culpar a driver da AMD devido ao estigma criado que hoje em dia não tem grande razão de ser.
 
Malta com memória instavel seja qual for a plataforma já é um clássico. Há quem nem um update de BIOS faça desde que comprou a board.

Mas não é representativo como a amostra como o Wendell apresentou e mesmo essa é limitada. O IMC também está ligado ao ring portanto erros com memória também fazem parte. O IMC é o mesmo da 12th gen, nada mudou nesse particular a nivel de arquitetura, no entanto os problemas aparecem nos i9s e i7s de 13th/14th gen.
E podem assumir que é por estarem a usar ram mais rápida que os de 12th gen, mas não bate certo com aquilo que o Wendell encontrou. São boards de gaming servers e muitas delas usam memória ECC e perfil JEDEC. É possivel ativar XMP mas nesse tipo de uso a estabilidade é preferivel a velocidade de ram que em muitos casos não vai fazer diferença nesse tipo de uso.
 
Não diria memória mas sim mais ring/cache.
Só para esclarecer. Eu refiro "sistema de memória" no meu post e o meu entendimento de sistema de memória é Caches + RAM + Controlador de memória.
A teoria que corre é que as altas tensões que vemos no Vcore dos i9s e i7s está a provocar problemas no ring e não ajuda que essas tensões aconteçam mesmo em cargas single core.
Não parece que o problema se restrinja a i9 e i7. Não sei se é naquela conversa com o Level1 ou na conversa com o Ian Cutress que o Wendell refere que poucos dias antes teve acesso a 50 sistemas que usam a versão T (Versões com TDP de 35 Watts) em Datacenter e acontece o mesmo.
A Intel não consegue resolver esse tipo de degradação com micro código, precisam mesmo de substituir o cpu e já por isso andam calados que nem ratos.
Dá a sensação que não conseguem resolver com microcode, mas acho que ainda não é de afastar totalmente essa possibilidade.
 
O meu 13700kf para já sem problemas. E os jogos que mais joguei ultimamente foi o The Finals. Que é dos jogos UE5 mais cpu bound e sensível a instabilidade que conheço. Pois para além de ser UE5 e pesado tem anti cheat, logo erros fazem o anti cheat crashar imediatamente jogo.

Tive dois ou três crashes em 400h mais foi depois de atualizar a bios e andar a experimentar umas coisas. Com o perfil daily que tenho 0 problemas. Ligeiro undervolt(ACLL reduzido), 253PL1/PL2, 307A ICCMAX e ram a 4133/4200c16 gear 1. Y-cruncher stable

Mas se a Intel fizer um recall vou-me aproveitar. Upgrade de borla, de um novo batch com o problema resolvido e um IMC para 4300-4400mhz...
 
Última edição:
Só para esclarecer. Eu refiro "sistema de memória" no meu post e o meu entendimento de sistema de memória é Caches + RAM + Controlador de memória.

Não parece que o problema se restrinja a i9 e i7. Não sei se é naquela conversa com o Level1 ou na conversa com o Ian Cutress que o Wendell refere que poucos dias antes teve acesso a 50 sistemas que usam a versão T (Versões com TDP de 35 Watts) em Datacenter e acontece o mesmo.

Dá a sensação que não conseguem resolver com microcode, mas acho que ainda não é de afastar totalmente essa possibilidade.

Sim tens relatos de problemas de chips em laptop também. Na realidade não dá para ter a certeza da extensão do problema e dá para especular sobre a causa, mas só os engenheiros da Intel têm dados suficientes para saber com precisão a comunicação da Intel é que deixa muito a desejar.
 
Video do Gamer Nexus, com o que eles sabem. Não têm uma conclusão, mas têm várias pistas.
Nenhuma delas me parece muito boa, mas se for o problema de oxidação, acho que terá que haver um recall.

 
Video do Gamer Nexus, com o que eles sabem. Não têm uma conclusão, mas têm várias pistas.
Nenhuma delas me parece muito boa, mas se for o problema de oxidação, acho que terá que haver um recall.

Caso seja verdade Intel tem que ser chamada e haver recall e isto se quiser ficar com boa imagem .
 
Back
Topo