Erros no Folding e soluções

Dazkarieh

To fold or to FOLD?
Ora então aqui fica uma lista de erros usuais no Folding@Home. É explicada a causa e colocada a resolução (se conhecida). Esta lista irá sendo actualizada com novos erros e problemas que ocorram, logo se não encontrarem aqui a resposta para um problema, coloquem-no que tudo faremos para tentar encontrar solução. Espero também que vão dando soluções para o que colocar aqui.

Erros:
• EARLY_UNIT_END
• FILE_IO_ERROR
• CLIENT_DIED
• UNKNOWN_ERROR
• Client-Core Communications Error
• BAD_FRAME_CHECKSUM
• SPECIAL_EXIT


EARLY_UNIT_END:
É possivelmente o mais comum de todos os erros, e deve-se a uma destas possibilidades: ou uma WU deficiente ou um sistema instável.

Se isto acontece uma vez isoladamente, muito provavelmente deve-se a uma WU deficiente. Não é um problema e não se devem preocupar com isso. Usualmente acontece quando átomos na WU atingem posições impossíveis e então o processo não pode continuar.

Múltiplos deste problema é um sinal de problemas no vosso PC. Demasiado Overclock ou problemas de aquecimento geram este erro. É aconselhável parar o F@H se este ocorrer mais do que uma vez por semana. Façam testes de saturação ao CPU (usem o stressCPU) e memórias (CPU, FSB e memórias têm de estar estáveis), verifiquem temperaturas e configurações do sistema.
EARLY_UNIT_END é na maior parte das vezes causado pelo PC do utilizador, e decerto que deve levar a um exame ao sistema.

Este erro pode ser acompanhado por uma mensagem (LINCS WARNING) que dá mais detalhes técnicos sobre o que aconteceu.

Nota: Vejam a descrição sobre "-forceasm" que causam SPECIAL_EXIT em alguns PC baseados em AMD. Se estão a correr o folding num AMD Athlon XP com core Barton ou Thoroghbred, devem remover a opção "-forceasm" que os vossos problemas devem desaparecer.


FILE_IO_ERROR
É um erro que acontece quando operações de disco correm mal. É um erro muito comum. Acontece muito desde o Gromacs Core 1.46. Normalmente acontece quando temos um erro de hardware, algo como “Write 0010, read back 0011". Se este erro ocorrer, certifique-se de que o disco está em bom estado: corra o ScanDisk, CHKDSK ou fsck. Certifique-se ainda de que o bus IDE está activo, que os cabos IDE estão em bom estado e se o disco não está mesmo a deixar de funcionar.

Também ocorre se duas Consolas a trabalhar na mesma WU, ou seja, se por acidente começa um cliente duas vezes, em vez de dois clientes uma vez.
Outro exemplo deste erro prende-se com a utilização da flag "-SMP" em WU's que não são deste tipo.


CLIENT_DIED:
Isto acontece quando, simplesmente, o cliente é encerrado indevidamente, quer pelo utilizador quer por erros. O core continua a correr, mas visto que não encontra o cliente, é encerrado. Este problema também está relacionado com demasiado Overclock ou pelos timings das memórias estarem demasiado agressivos.


UNKNOWN_ERROR:
Um agora raro erro do Gromacs que usualmente acontece quando uma WU corrompida está a ser usada. Actualmente já não é comum e em caso de ocorrer deverão informar-nos, colocando o respectivo fragmento do FahLog. Também deverá efectuar testes ao hardware.


Client-Core Communications Error:
Existem vários e deferentes tipos deste erro.

ERROR 0xX é basicamente outra forma do UNKNOWN_ERROR. Pode ser encontrado em Linux se tem problemas na versão Glibc. Também pode ser causado por excesso de Overclock Se não for devido a nenhum destes casos, coloque o FahLog para uma análise mais precisa..
No caso particular do ERROR 0x1, este ocorre muitas vezes se o Core é “morto” enquanto o cliente o processa,ou seja, se por exemplo desligam o cliente pelo task manager.

ERROR 0x________ (no espaço em branco são 8 digitos em hexadecimal), é geralmente um erro geral do Windows.
No caso particular do ERROR 0xC0000005 significa que foi violado o acesso à memória. Este é um código-erro standard do Windows para qualquer programa que tente aceder a memória que não controla. Também pode ser um raro erro de Hardware e não é motivo de preocupação. Versões desactualizadas de cliente ou cores podem também ser a causa. Para exclerecimento, coloque o FahLog que geralmente encontra-se a causa.


BAD_FRAME_CHECKSUM:
No seu FahLog aparecerá algo do género:

[hh:mm:ss] Header on frame 220 differs from expected header
[hh:mm:ss] Got: A028B-5C-3E84B02E-EA1B7D4: 0220
[hh:mm:ss] Expected: A028B-5C-3E84B02E-EA1B7D4: 0219
Note que as duas linhas de hexadecimal são iguais. Este erro ocorre com unidades Tinker. Uma das causas conhecidas é quando dois ou mais clientes são colocados na mesma directoria. Muitas vezes, por muito estranho que pareça, este erro ocorre como EARLY_UNIT_END mas apenas é detectado no final da WU processada. BAD_FRAME_CHECKSUM, semelhante ao FILE_IO_ERROR do Gromacs, também pode significar um erro de Hardware que ocorre quando existe uma discrepância entre o que foi lido e o que era esperado: algo como escrever 101010 e ler 110110. Mais uma vez, só é detectado quando a unidade é terminada.

SPECIAL_EXIT:
Este erro significa que algo desconhecido ocorreu “dentro” do core Gromacs. A única causa conhecida é quando “-forceasm” é aplicado a um sistema AMD que não está totalmente estável. CPUs com problemas conhecidos são o Thoroughbred B, Barton e o Opteron. Neste caso, estará associado a um EARLY_UNIT_END (ver em cima). Remova o “-forceasm” que resolverá o problema. Estes erros são cada vez menos comuns.

Se não está a usar a flag “-forceasm”, deverá colocar o log pois poderá ser um problema sério.



E pronto... recomendações gerais: mantenham o sistema estável, usem sempre a versão mais recente do Folding e não se metam em aventuras:)
Irei actualizando este post com erros que surjam. Recomendações também venham elas.

Keep Folding :x2:
 
Última edição pelo moderador:
Já tinha visto este post mas esqueci-me de responder :o

Belissimo trabalho Dazkarieh ;)

Não te esqueças de adicionar depois aquele erro " LINCS WARNING " que acontece quando, na simulação, vários atómos tentam ocupar o mesmo espaço. Na realidade isso não pode acontecer, por isso a simulação é terminada.
Os resultados são transmitidos e os créditos parciais são atribuídos.

Cumps :)
 
aqui vai o meu erro

[09:00:23] Quit 101 - Fatal error:
[09:00:23] Step 1336272, time 2672.54 (ps) LINCS WARNING
[09:00:23] relative constraint deviation after LINCS:
[09:00:23] max 0.001484 (between atoms 464 and 466) rms 0.000085
[09:00:23]
[09:00:23] Simulation instability has been encountered. The run has entered a
[09:00:23] state from which no further progress can be made.
[09:00:23] This may be the correct result of the simulation, however if you
[09:00:23] often see other project units terminating early like this
[09:00:23] too, you may wish to check the stability of your computer (issues
[09:00:23] such as high temperature, overclocking, etc.).
[09:00:23] Going to send back what have done.
[09:00:23] logfile size: 57085
[09:00:23] - Writing 57768 bytes of core data to disk...
[09:00:23] ... Done.
[09:00:23]
[09:00:23] Folding@home Core Shutdown: EARLY_UNIT_END
[09:00:27] CoreStatus = 72 (114)
[09:00:27] Sending work to server
 
Vaselina disse:
aqui vai o meu erro

[09:00:23] Quit 101 - Fatal error:
[09:00:23] Step 1336272, time 2672.54 (ps) LINCS WARNING
[09:00:23] relative constraint deviation after LINCS:
[09:00:23] max 0.001484 (between atoms 464 and 466) rms 0.000085
[09:00:23]
[09:00:23] Simulation instability has been encountered. The run has entered a
[09:00:23] state from which no further progress can be made.
[09:00:23] This may be the correct result of the simulation, however if you
[09:00:23] often see other project units terminating early like this
[09:00:23] too, you may wish to check the stability of your computer (issues
[09:00:23] such as high temperature, overclocking, etc.).
[09:00:23] Going to send back what have done.
[09:00:23] logfile size: 57085
[09:00:23] - Writing 57768 bytes of core data to disk...
[09:00:23] ... Done.
[09:00:23]
[09:00:23] Folding@home Core Shutdown: EARLY_UNIT_END
[09:00:27] CoreStatus = 72 (114)
[09:00:27] Sending work to server

Aqui está o problema:

Dekker disse:
Não te esqueças de adicionar depois aquele erro " LINCS WARNING " que acontece quando, na simulação, vários atómos tentam ocupar o mesmo espaço. Na realidade isso não pode acontecer, por isso a simulação é terminada.
Os resultados são transmitidos e os créditos parciais são atribuídos.

Se for um erro isolado, não te preocupes ;)

Keep Folding :cool:
 
Instalei o PeerGuardian à dias, e notei, quando acabei a WU, que o FahMon não conseguia estabelecer ligação com o servidor, nem conseguia aceder às stats. Estive a ver, e era o PeerGuardian que estava a bloquear a "Stanford University Network". Depois de permitir o acesso ao IP do servidor da Stanford no PeerGuardian, já passei a aceder sem problemas.
Se tiverem o PeerGuardian, vejam as permissões.


Cumprimentos
 
Mais uma contribuição para a thread dos erros.

A definição do erro BAD_FRAME_CHECKSUM precisa de revisão :rolleyes:

[09:45:42] Completed 120 out of 2120 steps (5)
[09:53:24] Completed 128 out of 2128 steps (6)
[09:53:24] Writing local files
[10:08:54] Timered checkpoint triggered.
[10:17:41] Completed 151 out of 2151 steps (7)
[10:17:41] Writing local files
[10:17:44] CoreStatus = 63 (99)
[10:17:44] + Error starting Folding@Home core.
[10:17:49]
[10:17:49] + Processing work unit
[10:17:49] Core required: FahCore_96.exe
[10:17:49] Core found.
[10:17:49] Working on Unit 03 [June 26 10:17:49]
[10:17:49] + Working ...
[10:17:49] - Calling 'FahCore_96.exe -dir work/ -suffix 03 -priority 96 -checkpoint 15 -forceasm -verbose -lifeline 4032 -version 502'

[10:17:49]
[10:17:49] *------------------------------*
[10:17:49] Folding@Home QMD Core
[10:17:49] Version 1.04 (Apr 7, 2005)
[10:17:49]
[10:17:49] Preparing to commence simulation
[10:17:49] - Ensuring status. Please wait.
[10:18:49] - Assembly optimizations manually forced on.
[10:18:49] - Not checking prior termination.
[10:18:50] - Expanded 260936 -> 826075 (decompressed 316.5 percent)
[10:18:50]
[10:18:50] Project: 1910 (Run 7, Clone 110, Gen 17)
[10:18:50]
[10:18:50] Writing local files
[10:18:50] Extra SSE2 boost OK.
[10:18:50] Entering QMD...
[10:19:38] System: p1910_ALA-depeptide
[10:19:38]
[10:19:38] Performing initial WF calculations
[10:19:38] - Number of total steps will change until convergence
[10:19:38] Verifying checksum
[10:19:38]
[10:19:38] Folding@home Core Shutdown: BAD_FRAME_CHECKSUM
[10:19:41] CoreStatus = 70 (112)
[10:19:41] + The core could not validate the current work unit for processing.
[10:19:41] Deleting current work unit & continuing...
[10:19:59] Trying to send all finished work units
[10:19:59] + No unsent completed units remaining.
[10:19:59] - Preparing to get new work unit...

Era uma QMD por isso não é um erro isolado das Tinker, nem apareceu nada de 'Header on frame xxx differs from expected header'.

Achei estranho ele ter terminado o core de repente sem dizer nada, tipo:
[10:17:41] Completed 151 out of 2151 steps (7)
[10:17:41] Writing local files
[10:17:44] CoreStatus = 63 (99)
[10:17:44] + Error starting Folding@Home core.
Não estava a fazer nada de mais no computador :confused:
Acontece a toda a gente, e agora foi a mim.. o que vale é que a WU ia no inicio senão..

Agradecia se alguém pusesse este link na thread " O Folding começa aqui " que está em sticky :)
 
Vou citar-me :D

DekkeR disse:
Não te esqueças de adicionar depois aquele erro " LINCS WARNING " que acontece quando, na simulação, vários atómos tentam ocupar o mesmo espaço. Na realidade isso não pode acontecer, por isso a simulação é terminada.
Os resultados são transmitidos e os créditos parciais são atribuídos.

Não é suposto ser um erro frequente, mas pode acontecer de vez em quando ;)
 
Está sempre nisto. Ajudem sff :|

.CumpZ

A Mim também!

"# Mac OS X Edition ############################################################
###############################################################################

Folding@Home Client Version 5.02

http://folding.stanford.edu

###############################################################################
###############################################################################

Launch directory: /Users/nunelas/Library/Folding@home
Executable: ./fah5


[15:32:32] - Ask before connecting: No
[15:32:32] - User name: Anonymous (Team 35271)
[15:32:32] - User ID: 4FDCDB3933C64B18
[15:32:32] - Machine ID: 1
[15:32:32]
[15:32:32] Loaded queue successfully.
[15:32:32] + Benchmarking ...
[15:32:35]
[15:32:35] + Processing work unit
[15:32:35] Core required: FahCore_82.exe
[15:32:35] Core not found.
[15:32:35] - Core is not present or corrupted.
[15:32:36] - Attempting to download new core...
[15:32:36] + Downloading new core: FahCore_82.exe
[15:32:36] - Error: HTTP GET returned error code 404
[15:32:36] + Error: Could not download core
[15:32:36] + Core download error (#2), waiting before retry..."

E continua... Já experimentei no modo gráfico e é a mesma coisa!
 
Parece-me que estás a usar um cliente antigo que é capaz de não conseguir utilizar esses cores.
Acho que os clientes 5.02 já estão ultrapassados.
Muda o cliente e vê se te acontece o mesmo.
 
Back
Topo