Encontrar diferenças em ficheiros de texto

jpfmp

Power Member
Boa tarde gente da techzone.

Gostava que me ajudassem aqui numa coisinha se alguem se lembrar.

tenho dois ficheiros de texto, um completo, numa língua, e outro incompleto noutra língua.

Exemplo:

ficheiro completo: ficheiro incompleto:
registo a registo a
registo b registo c
registo c registo d
registo d registo f
registo e
registo f

Ou seja, vão faltando registos pontualmente e sem qualquer tipo de ordem.
São à volta de 7000
Qual é que acham que é a melhor forma automática de encontrar os registos em falta no ficheiro de texto incompleto?

Estou a precisar urgentemente de ajuda.
Obrigado a todos

P.S.- nao sei se é nesta zona do forum que deva colocar isto.
 
Se os registos tiverem um padrão, podes fazê-lo. Imagina:

registo a registo a
registo b registo c
registo c registo d
registo d registo f
registo e
registo f

Podes encarar isto como duas colunas, mas não estão correctamente delimitadas. Se houver um padrão podes fazer coisas interessantes, por exemplo, no padrão que definiste, podes meter no Word e fazer find/replace usando wildcards.

Find: (registo{1}??)
Replace: \1;

e ficaria:

registo a; registo a;
registo b; registo c;
registo c; registo d;
registo d; registo f;

registo e;
registo f;


Já tem um aspecto semelhante a um CSV, e podes importar para Excel que te coloca os valores por linha vs. colunas.
Podes depois fazer um filtro em excel pelos empty values e tens uma percepção dos valores que não têm matching.

Podes tb fazer um programa pequeno para tratar disso, mas n sei se é isso que prentendes.
 
Pois, o problema é que nao ha padroes

O problema é que onde eu pus registo sao coisas sempre diferentes, não ha padroes.

por exemplo (fictício):

Ficheiro completo Ficheiro Inc

label x.dois = usuario label x.dois = utilizador
label f.m.fg = actualizacion label g.as = palavra-passe
label g.as = palavra-passe

Neste exmplo falta a linha do meio ao ficheiro inc, imagina isto em que o ficheiro incpmpleto tem 7000 registos e o completo 15000 e sem saber quais sao os que faltam e onde faltam.

Obrigado pela tua ideia ;)
 
Back
Topo