Istek zastupničkog certifikata
Prilikom isteka zastupničkog certifikata Condor-G će postaviti posao u stanje H, ali će se posao nastaviti normalno izvoditi na klasteru.
Riješenje: obnoviti certifikat i vratiti posao u inicijalno stanje naredbom:
$ condor_release <ID>
Globus error 129: the standard output/error size is different
Posao je u stanju Hold (H) i poruka je: Globus error 129: the standard output/error size is different.
1. scenario
Mogući uzrok je navođenje iste datoteke kao output i error u opisu posla ili navođenje iste output ili error datoteke kod više poslova. Ukoliko ovo nije slučaj prijeći na 2. scenario.
Akcije: Prilagoditi opis posla tako da ne dođe do preklapanja korištenjem varijabli $(Cluster) i $(Process). Primjer:
Output=output/out.$(Cluster).$(Process) Error=output/err.$(Cluster).$(Process)
2. scenario
Greška se pojavljuje kada su izlazne datoteke vece od 2 GB.
Akcije: Ručno dohvatiti izlazne datoteke, standardni izlaz i grešku naredbama:
remote-scratch-get ID_POSLA remote-scratch-get ID_POSLA stdout remote-scratch-get ID_POSLA stderr
i obrisati posao:
condor_rm ID_POSLA
Dohvat rezultata prilikom završetka posla s nevažećim zastupničkim certifikatom
Po završetku posla na klasteru, posao će u okviru servisa Globus Gatekepper preći u stanje FAILED, ali će svi podaci ostati na pristupnom računalu.
Riješenje:
Podatke je moguće dohvatiti na sljedeći način:
1. dohvatiti Globusov ID posla:
$ condor_q -l <ID> ... GridJobId = "gt2 ce.irb.cro-ngi.hr/jobmanager-sge https://ce.irb.cro-ngi.hr:20001/712/1207437096/"
2. spojiti se na odgovarajuće pristupno računalo pomoću UberFTP:
$ uberftp ce.fesb.cro-ngi.hr
3. svi bitni podaci od posla (npr. standardni izlaz i error) se nalaze u direktoriju:
uberftp> ~/.globus/job/ce.irb.cro-ngi.hr/712.1207437096
Datoteke koje se nalaze u direktoriju su sljedeće:
- remote_io_url - adresa koju posao kontaktira po završetku posla
- scheduler_pbs_job_script - PBS skripta koja je podnešena
- scheduler_pbs_submit_stderr - greške koje prijavi naredba podnošenja posla
- stderr - standardna greška
- stdout - standardni izlaz
- x509_up - zastupnički certifikat
4. u datoteci scheduler_pbs_job_script pronaći ime scratch direktorija koji je postavljen kao radni direktorij posla na klasteru:
uberftp> cat scheduler_pbs_job_script ... export LD_LIBRARY_PATH; #Change to directory requested by user cd /home/username//gram_scratch_Uxles2ZewC
5. provjeriti sadržaj scratch direktorija
uberftp> cd /home/username//gram_scratch_Uxles2ZewC uberftp> ls ... uberftp> mget *
6. obrisati posao u Condor-G kako bi se obrisali sve datoteke na pristupnom računalu
$ condor_rm <ID>
Navođenje iste datoteke u transfer_input_files i transfer_output_files
Ako se u Condor-G skripti navede postojeća datoteka u listi datoteka za prijenos transfer_input_files i transfer_output_files, Condor-G će:
- izbrisati datoteku na UI čvoru
- stvoriti praznu datoteku i
- obaviti prijenos prazne datoteke na CE čvor.
Primjer:
transfer_input_files test transfer_output_files test
Rješenje:
Ovo je podrazumijevani način rada sustava Condor-G. Jedini način na koji je moguće istu datoteku poslati i vratiti s CE čvora je da se definira novo ime datoteke prilikom prijenosa na UI čvor. Novo ime se definira s parametrom
transfer_output_remaps = "init_name=new_name; ..."
Ukoliko se navede ovaj parametar, Condor-G neće izbrisati postojeću datoteku i obaviti će prijenos ispravne datoteke. Sadržaj datoteke po završetku posla Condor-G će spremiti u datoteku new_name.
Primjer:
transfer_input_files test transfer_output_files test transfer_output_remaps = "test = test.2"
Problem prijenosa izlaznih datoteka
Ako po završetku posla barem jedna datoteka ne postoji, posao se stavlja u stanje hold s opisom:
Globus error 155: the job manager could not stage out a file
U ovom slučaju, standardni izlaz, greška i sve ostale izlazne datoteke će biti obrisane. Ova situacija je najčešće uzrokovana zbog greške u izvođenju aplikacije.
Rješenje:
Na početku skripte stvoriti sve izlazne datoteke naredbom touch.
touch izlaz1 izlaz2 izlaz3