Page tree
Skip to end of metadata
Go to start of metadata
  • PDF datoteka treba imati upisane ispravne metapodake poput autora i naslova jer  tražilice i baze podataka te podatke nerijetko koriste za indeksiranje. Metapodaci su u PDF čitaču Adobe Reader vidljivi kroz izbornik: File > Properties. U programu za obradu teksta Microsoft Word se metapodaci uređuju pomoću opcije Properties.
  • PDF datoteka ne smije imati uključenu enkripciju jer to značajno ograničava mogućnost budućih migracija na druge formate ili verzije PDF-a. Iz tog razloga i neke baze (npr. WoS) nisu sklone preuzimanju i korištenju PDF datoteka koje imaju uključenu bilo kakvu enkripciju. U PDF čitaču Adobe Reader postavke sigurnosti vidljive su kroz izbornik: File > Properties > Security. Vrijednost opcije Security Method mora biti postavljena na No Security.

  • PDF datoteku je potrebno kreirati koristeći PDF/A inačicu PDF formata. PDF/A inačica namijenjena je za dugoročno čuvanje elektroničkih dokumenata. Specificirana je standardom ISO 19005 i osigurava samodostatnost dokumenta na način da sve vanjske resurse potrebne za reprodukciju dokumenta (npr. fontove) uključi u PDF datoteku kako bi se dokument mogao reproducirati bez obzira na promjene tehnologije i neovisno o platformi. PDF/A ujedno isključuje mogućnost enkripcije te pokretanja programskih skripti i izvršnih datoteka.

Spremanje PDF/A-1 pomoću programa za obradu teksta Microsoft Word 2007.

U većini slučajeva je za kreiranje PDF/A dovoljna verzija PDF/A-1 koja je podržana u programu za obradu teksta Microsoft Word, ali ovisno o verziji PDF/A postoje i neka ograničenja, npr. PDF/A-1 ne dozvoljavaju transparentne slike, pa je ponekad potrebno koristiti više verzije PDF/A (PDF/A-2 ili PDF/A-3) kako bi dokument bio ispravno prikazan.

  • PDF datoteka treba sadržavati tekst rada kako bi se sadržaj mogao indeskirati, pretraživati, kopirati i rudariti. Kod kreiranja PDF datoteka iz born digital formata (npr. doc) uglavnom se tekst dobro prenosi u PDF, ali prisutnost i kvalitetu teksta treba pripaziti kad PDF datoteke nastaju digitalizacijom odnosno skeniranjem tiskanih radova (Smjernice za digitalizaciju tekstualnih sadržaja nalaze se u nastavku ovog teksta). Sadrži li PDF datoteka tekst rada i kakva je kvaliteta tog teksta možete provjeriti tako da pokušate označiti dio teksta u PDF pregledniku i kopirate ga u program za obradu teksta.

Smjernice za digitalizaciju tekstualnih sadržaja

Prilikom skeniranja tekstualnih sadržaja potrebno uključiti opciju OCR (Optical Character Recognition) ako ju alat za skeniranje ima ili je za OCR potrebno koristiti neki specijalizirani alat (npr. ABBY FineReader, Tesseract OCR Engine,…).

Proizvođači OCR softvera i literatura obično preporučaju da se pri digitalizaciji skenira s rezolucijom od 300 dpi za fontove veličine 10 točaka i više, a od 400-600 dpi s rezolucijom za fontove veličine 9 točaka i manje.

Zbog arhivske svrhe i pravne valjanosti dokumenta, tekst prepoznat u postupku OCR-a potrebno je spremiti u sloju ispod slike teksta kako bi se sačuvao izvorni izgled dokumenta i istovremeno dobila mogućnost označavanja teksta.