[SMP] MPI_Sendrecv

Noeljunior

I fold therefore I AM
Boas

Pois, tenho um cliente SMP a foldar, de volta e meia dá este erro:
Código:
[11:49:50s] Completed 650000 out of 5000000 steps (13 percent)
[cli_13]: aborting job:
Fatal error in MPI_Sendrecv: Error message texts are not available
depois disto fecho e abro a consola e volta tudo ao normal. Mas como é obvio se acontecer às 3h da manhã só às 7h volta a trabalhar... e assim já não dá para manter os 2000 pontos q consegui fazer num dia lol

Cumps
 
Vijay Pande disse:
One issue with the SMP client is that the client uses MPI to handle multiple processors and MPI uses the network system (albeit on the local loopback device). If the network is tweaked during a run, this can cause problems for the loopback device, causing problems with MPI, causing Gromacs to fail.

What *should* (in principle) then happen is that the client should restart from a check point. Are you finding this to be the case? It could be that the core can't identify this situation well and the client sees a major problem and restarts, not knowing something better to do.

We are looking into this and in particular whether we can detect this well enough such that the client restarts from a checkpoint (best case scenario). For now, please don't change the network settings while FAH/SMP is running (you can always stop the FAH client, change the settings, and then restart the client later).
Aqui.
 
vim aqui ao kubuntu para deixar o log:

[21:34:27] + Attempting to send results
[21:34:27] - Reading file work/wuresults_05.dat from core
[21:34:27] (Read 7460647 bytes from disk)
[21:34:27] Connecting to http://171.64.65.56:8080/
[21:34:28] Posted data.
[21:34:28] Initial: 0000; - Successful: assigned to (0.0.0.0).
[21:34:28] + News From Folding@Home: Welcome to Folding@Home
[21:34:28] Work Unit has an invalid address.
[21:34:28] - Error: Attempt #1 to get work failed, and no other work to do.
Waiting before retry.

já quase que dava para ter outra wu acabada ao tempo que ando há volta disto.. é que n envia nem recebe.. :|

#edit#

o problema pelos vistos é dos servidores de stanford (acho que o problema é só mesmo com o pessoal que utiliza a consola SMP).

» http://forum.folding-community.org/ftopic17660.html
 
Última edição:
Isto também acontece na versão normal do FAH, quando ele entre num estado "Out-of-WU's"...ou seja...se ele continuar a tentar ligar ao mesmo servidor,(e não receber alguma WU de outro utilizador, para criar uma nova WU para ser processada e enviada para ti) entre as várias tentativas...geralmente muda de servidor se estiver disponível.

Tenho a certeza, que ajuda muito criar ou re-criar, uma nova pasta para SMP. Tenho oito cliente normais neste pc da net...engraçado que existem 4, que se ligam a servidores diferentes(ao mesmo cada um deles, 4 servidores)... e tenho sempre as mesmas WU's. Enquanto que os outros 4, ligam-se todos ao mesmo servidor.

Ocasionalmente, parece existir também uma selecção de WU's para certos IP's...como se passa ainda actualmente com as p212x ou anteriormente com as p2106 ou 2107... que recebemos sempre as mesmas....e existia e existe gente ao mesmo tempo...utilizando as mesmas flags, que só recebia p149x...

Não sei explicar porque razão acontece isto...É de dar a volta à cabeça...? lol

É perder um pouquinho de tempo...e exprimentar. De vez em quando resulta.

Boa sorte:)
 
Oh :( lá vai ter que ir mais um bocado de vCore. Espero que seja daqui, já que ser das memórias nao dava mesmo jeito nenhum... BTW, vou deixar mais esta noite, se continuar no mesmo vou ver o que se passar.

Cumps e metam-se lá a falar do resto lol
 
Back
Topo