às vezes é preciso alongar o pipeline de execução para conseguir velocidades maiores.
Esse é um dos principais motivos que o pascal consegue atingir velocidades superiores ao polaris.
Mas claro, depois o IPC sofre.
A questão será sempre uma de compromissos e tentar obter a melhor relação entre cada factor.
Ao ver o resultado desta Vega, fico a pensar que a AMD ainda não conseguiu resolver o problema do seu scheduler.
Creio que a Vega ainda trabalhe com wavegroups de 64. E quando recebe wavefronts menores, várias unidades de execução ficam paradas.
Não adianta encher um GPU de shader units se depois uma boa parte delas vão ficar sem trabalho, apenas a gastar energia.
Pior ainda, o sheduler dinamico do GCN é bastante complexo e gasta muito espaço e muita energia.
O scheduler da nVidia desde o kepler é muito mais simples, gasta pouca energia e pouco espaço.
Não é muito avançado, mas a nVidia conseguiu milagres com o uso de command lists em DX11.
Algo que a AMD não consegue fazer com o seu sheduler dinâmico.
O tile based rendering é uma excelente medida, caso a AMD tenha realmente implementado esta forma de renderização.
Mas isto não resolve o problema do sheduler da AMD. Não adianta ser mais eficiente a colocar pixeis, texeis e poligonos, se o bottleneck está logo no inicio do pipeline de execução.