Bem, não posso dizer q tenha percebido a coisa a 100%, mas tenho uma ideia genérica. Vou dar o meu melhor:
Quer no MultiSampling como no SuperSampling utiliza-se um método estático. São "corrigidas" as posições dos Pixels estaticamente em cada frame.
No temporal isto é feito em vários frames seguidos. Do género, 2xAA (multisampling) no frame 1, 2xAA (supersampling) no frame 2. Isto acaba por induzir um factor AA superior, com melhor qualidade. Em teoria, e não longe da verdade, um AA Temporal de 4x é equivalente em qualidade ao AA 4x normal (multisamling) e com a performance hit do AA 2x (multi tb).
Não percebi muito bem o que muda entre frames. Se é mesmo o método de sampling se há também mudanças na geometria dos pixels. É que misturar inglês técnico, com giria inglesa e duvidas e questões pelo meio não é pera doce apra filtrar o que interessa.
Resumidamente, e é esta versão que vou usar para mim mesmo, é um AA realizado em varios frames em vez de um e que regra geral tem menos metade de impacto na performance para a mesma qualidade.
Nota: Devido à necessidade de usar o vsync on deverá haver perca de frames, mas isto dá pano para mangas.
Nota-se também, que em movimento se nota mais os jaggies, dado que os pixeis estão a mudar de posição em cada frame. Por esta razão é imperativo ter-se altos frames e refresh rates, para que haja mais correcções de samples mesmo em movimento.
EDIT: ONTOPIC: Mais uma razão para os fanATIcs ficarem contentes. à partida isto não é suportado pelas nVidia. Eventualmente teria de se jogar com a posição dos pixeis para "simular" este efeito, porque as nVidia carecem de fully programmable samples pattern (ou coisa q o valha)