CD-HIT je široko korišten program za klasteriranje bioloških sekvenci kako bi se smanjila redundantnost sekvenci i poboljšala izvedba drugih analiza sekvenci. CD-HIT je izvorno razvijen za klasteriranje proteinskih sekvenci za stvaranje referentnih baza podataka sa smanjenom redundancijom (Li, et al., 2001.), a zatim je proširen za podršku klasteriranju nukleotidnih sekvenci i usporedbu dva skupa podataka (Li i Godzik, 2006.). Web poslužitelj CD-HIT implementiran je 2009. godine, što korisnicima omogućuje grupiranje ili usporedbu sekvenci bez upotrebe CD-HIT-a iz naredbenog retka. Poslužitelj nudi interaktivno sučelje i dodatne alate za vizualizaciju. |
Verzija | Modul | Supek | Padobran |
---|---|---|---|
4.8.1 | scientific/cd-hit/4.8.1 |
Primjer je napravljen po uzoru:
#!/bin/bash #PBS -N cd-hit-test #PBS -l select=1:ncpus=12 #PBS -q cpu_180 cd $PBS_O_WORKDIR module load scientific/cd-hit/4.8.1 cd-hit.sh cd-hit -i test.fa -o db100 -c 1.00 -n 5 -M 2000 -T $NCPUS |