Tezaurus
Tezaurus je vrsta terminološkog rječnika koji sadrži sustavno uređene nazive određenog znanstvenog područja i osnova je svake znanstvene discipline. Da bi bio uporabljiv, među nazivima moraju postojati određeni paradigmatski odnosi te odnosi ekvivalencije. Te vrste odnosa kod dokumenata podržanih računalom uređuju se izradom tezaurusa. Danas je tezaurus nezaobilazno pomagalo za označivanje i pronalaženje informacija. Iako uključuje sinonime, antonime i homonime sadržaj tezaurusa se ne smije smatrati kao popis istih. Formiran je tako da ocrtava točnu razliku između sličnih riječi i da pomaže u odabiru prave riječi.
Tezaurusi pripadaju jednim od tri glavna tipa dokumentacijskih jezika. Tezaurusi su nehijerarhijski dokumentacijski jezici kojima se koristimo prije svega za nekonvencionalnu obradu dokumenata. Pomoću indeksnih oznaka, tj. pomoću ključnih riječi ili deskriptora iz teazurusa nastojimo jednoznačno odrediti sadržaj nekog dokumenta. Te iste ključne riječi, odnosno deskriptori primjenjuju se ne samo za indeksiranje nego i za pretraživanje dokumenata u nekoj [neaktivna poveznica].Pomoću hijerarhijski sustava možemo odrediti ponajprije sadržaj dokumenta, njegovo mjesto u nekom klasifikacijskom sustavu sustavu. A pomoću tezaurusa određujemo dijelove sadržaja nekog dokumenta. Sastoje se od deskriptora (normiranih ključnih riječi) i nedeskriptora (zabranjenih termina, npr. sinonima[neaktivna poveznica], uz koje obično stoji uputnica na preferirani termin). U tezaurusima se najčešće određuju odnosi između termina ekvivalencije (sinonimije), hijerarhije (generički, partitivni itd.) i srodnosti.
Riječ tesaurus (rječnik sinonimnih, asocijativnih pojmova) izvedenica je iz latinskog jezika iz 16. stoljeća i novolatinske riječi thesaurus koja je nastala od grčke riječi θησαυρός, thesauros - skladište, riznica, blago, dragocjenost. Izraz tezaurus je upotrebljavan u različitom značenju o čemu svjedoči brojna literatura, što znači da se s razvojem tezaurusa proširivalo i njegovo značenje:a) jezično blago, zbirka jezičnog blaga, b) bilo kakav rječnik, enciklopedija, leksikografski priručnik, c) nediskriminirani popis semantički povezanih riječi, d) sinonimijski rječnik, e) abecedno usustavljen rječnik sinonima i antonima, f) specijalizirani vokabular pojedinog područja znanja, na primjer medicine ili glazbe.
Povijest tezaurusa seže u daleku prošlost,naime, prvi su klinopisni rječnici bili konceptualno/tematski organizirani glosari[neaktivna poveznica], a pojavili su se 2500 godina pr. Kr. u pisarskim školama (stara Mezopotamija). Didaktička vrijednost konceptualnog ustroja i njegova praktična primjena u učenju, poglavito stranih jezika, očuvala se do danas. Međutim, dok su rani sastavljači vjerovali da tezaurusi pomažu u boljem snalaženju u svijetu, današnji sastavljači smatraju da tezaurusi pomažu u boljem snalaženju u jeziku, odnosno u efikasnijoj uporabi njegova leksičkog blaga.
Od srednjeg vijeka taj se izraz koristi u prenesenom značenju za rječnike, a kasnije za enciklopedije (u smislu jezičnog blaga). Izraz tezaurus bliži današnjoj uporabi u dokumentalistici 1852. godine upotrijebio je engleski liječnik Peter Roget u svome djelu "Thesaurus – rječnik sinonima engleskog jezika". Ono što mu s današnjim tezaurusima zajedničko jest to što odgovara na pitanja „Kako naći neki izraz?“. Razlika je pak u tome što je to rječnik sinonima pa nastoji obuhvatiti bogatstvo jezika za omogućavanje raznolikosti izražavanja, dok dokumentacijski tezaurus nastoji ograničiti raznovrsnost prirodnog jezika jer za isti ili sličan pojam uvijek treba koristiti istu oznaku.
U povijesti tezaurusa presudan je bio sustav UNITERM (Mortimer Taube, 1951.) koji je pomogao razvoju tezaurusa u smislu informacijskog pretraživanja. Na međunarodnoj konferenciji o općim principima izgradnje tezaurusa u Varšavi (1970.), postaje priznat leksički instrument u pretraživanju informacija, kao rječnik termina s preciziranim vezama pojmova. UNISIST je izradio "Smjernice za oblikovanje i razvoj znanstvenih i tehničkih tezaurusa" (Guidelines for the establishment and development od scientific and tehnical thesauri for information retrieval) koje su uključene u međunarodne standarde.
Definicija tezaurusa nije samo jedna već ih ima nekoliko i svaka o njih na neki način odražava gledište autora kao i namjenu tezaurusa. U svom izlaganju na konferenciji u Varšavi Thomas Aitchison rekao je da je to abecedni popis pojmova – deskriptora koji pruža informaciju o strukturalnim osobinama i odnosima pojmova.
Njemačko društvo za dokumentaciju tezaurus definira kao zbirku riječi prirodnog jezika (općeg i stručnog) s prikazom njihovih pojmovnih odnosa.
Leksikon knjižničarstva kaže da je tezaurus rječnik ključnih riječi koje su izražene jezikom za indeksiranje. Njegova izrada namijenjena je određenoj struci, tehničkom području i slično. Mora sadržavati: deskriptore koji se koriste u jeziku odabranog sustava i njegove veze, riječi sporednog značenja i potrebna pojašnjenja; abecedno kazalo deskriptora i ključnih riječi koje u danom sustavu postoje za riječi sporednog značenja; pregled razreda u koje su sabrani svi deskriptori određenog jezika; pravila za prevođenje ključnih riječi prirodnoga jezika u deskriptorski jezik.
Prema standardu ISO 2788-1986(E) iz Smjernica, to je sredstvo za terminološku kontrolu, koja se koristi pri prevođenju prirodnog jezika dokumenta, ključnih riječi i govora korisnika u uži, “sustavni jezik” (dokumentacijski/informacijski jezik). Nazivi deskriptorskog jezika omogućuju detaljno indeksiranje dokumenata i traženje informacija pomoću tih naziva. Mora sadržavati sve deskriptore koje koristi određeni sustav i iskazati njihovu pojmovnu srodnost. Moraju se iskazati i ključne riječi unutar sustava, koje su riječi sporednog značenja u odnosu na prihvaćene deskriptore.
Tezaurus može biti: jednojezični (deskriptori/nedeskriptori iz danog prirodnog jezika); višejezični (deskriptori/nedeskriptori iz više prirodnih jezika); izvorni (ishodište za izradu novih tezaurusa); ciljani (razvijen iz izvornog tezaurusa); mikrotezaurus (dio većeg tezaurusa; makrotezaurus (pokriva široko područje znanja); specijalni tezaurus (omeđen na uže područje znanja); tematski (deskriptori se razvrstavaju po temama, područjima, disciplinama interesa); fasetni (pojmovi su apstraktnije, ali temeljitije zastupljeni; fasete (skupine pojmova iste prirode koje imaju po jednu zajedničku karakteristiku) omogućuju podjelu rječnika u semantička polja; s vodećim izrazima (samo jedan izraz za pojam dovoljan je za indeksiranje; bez vodećih izraza (svi izrazi su deskriptori).
Vrijednost tezaurusa leži u vezama među terminima koje se utvrđuju prema unaprijed određenoj shemi, a ona određuje odnos među pojmovima radi veće preciznosti. Postoje dvije skupine veza: paradigmatske (ekvivalencija - pristup deskriptorima preko pojmova u prirodnom jeziku; hijerarhija – generičke veze koje zastupaju razred pojmova i partitivne veze koje prikazuju odnos pojma i njegova dijela; asocijacija – analogija značenja među pojmovima) i sintagmatske (navode veze među deskriptorima s obzirom na kontekst, ujedinjuju sintaktičke i semantičke veze). U završnoj fazi izradbe tezaurusa provodi se praktična provjera koja pokazuje njegovu funkcionalnost, a održavanje se provodi periodičkom provjerom učestalosti uporabe deskriptora. Ključno za rad tezaurusa je usvajanje općeprihvaćenog klasifikacijskog sustava kao osnove.
Odnosi u tezaurusu moraju biti jasno definirani i kodirani, a u označavanju međusobnih odnosa kodovima u općoj su uporabi ovi simboli: BT (nadređeni širi pojam), NT (podređeni uži pojam), BTG (nadređeni generički pojam), BTP (nadređeni partitivni pojam), NTG (podređeni generički pojam), NTP (podređeni partitivni pojam), RT (srodni pojam), USE/uporabi (uputa za sinonim ili kvazisinonim; sinonim-sinonim), UF/uporabi za (sinonim, kvazisinonim, deskriptor-sinonim), UFC (za kombinaciju pojmova).
Tezaurus izrađen na sistematskom ili formalnom načelu sastavlja se metodom analize i sistematike, ovisno o tipu područja literature. Pri analitičkoj metodi analiziraju se elementi koji sadržajno pokrivaju područje tezaurusa, a tijekom izrade tezaurusa stalno se uključuju novi dokumenti. Izvori termina su eksperimentalno indeksiranje dokumenata, pitanja korisnika i stručnjaka. Korištenjem sistematske (globalne, sintetičke) metode klasificira se sadržaj područja, a tezaurus nastaje na podlozi iskustva stručnjaka za pojedino područje. Izrazi se traže u sekundarnim publikacijama (katalozi, priručnici i udžbenici, stručni rječnici, klasifikacijske sheme). U prikupljanju termina može se poći od analitičke metode koja se zatim dopunjava globalnom metodom ili od sintetičke metode pri kojoj se iz sekundarnih izvora izdvajaju termini koji čine okvir tezaurusa, a analitičkom se metodom prilagođavaju stvarnom sadržaju. Svaki pojam treba biti zastupljen jednim deskriptorom ili skupinom deskriptora koji odgovara danom u tezaurusu i po mogućnosti im odrediti sadržaj. Temeljni zahtjev pri izradi tezaurusa je postizanje jednoznačnosti pri čemu pomažu homonimi i kvalifikatori koji preciziraju značenje složenog deskriptora, zatim objašnjenja i napomene o uporabi, definicija koja precizira sadržaj. Do stvaranja lažnih veza i dokumenata nerelevantnih za upit dolazi zbog paradigmatske povezanosti jednostavnih deskriptora, tj. lažne koordinacije. Ona se otklanja korištenjem indikatora uloge (simboli za smanjivanje opsega označenog) i indikatora smjera (povezivanje u smislene cjeline). Strukturu deskriptora tvore njegov širi izraz, uži i srodni izrazi te sinonimi u obliku imenice/glagolske imenice. Strukturu tezaurusa čini oblik svakog pojma u tezaurusu u međusobnim vezama, a upute u tezaurusu prikazuju veze među pojmovima. Obavezni dijelovi tezaurusa su uvod, abecedno kazalo pojmova i sistematsko kazalo deskriptora. Termini u tezaurusu mogu se kombinirati u prethodno povezane deskriptore (prekoordinacija) ili se izrazi mogu staviti u odnose naknadno u postupku označivanja ili pretraživanja (poslijekoordinacija).
Tezaurus ne definira točnu riječ, taj posao je ostavljen rječniku. Razlika između rječnika i tezaurusa najčešće se tumači kao razlika između abecednog i konceptualnoga pristupa. Korisnik rječnika tragat će za značenjem riječi, s druge pak strane, korisnik tezaurusa poći će od ideje, pojma, koncepta, tragajući za riječima, odnosno za najboljom riječi koja će taj pojam izraziti na najprikladniji način. Rječnik daje značenja riječima, a tezaurus nudi riječi za značenja. Ako je pojam dvosmislen, može biti dodano šire objašnjenje, kako bi se osigurala točnost, te zbog uputa za interpretaciju određenog pojma.
Uobičajena uporaba jest da su tezaurus i kazalo u tiskanom obliku. Pod uobičajenom se uporabom podrazumijeva da su njegovi korisnici i osobe koje indeksiraju i osobe koje pretražuju. Osoba koja indeksira pregledava tezaurus kako bi utvrdila odgovarajuće termine za pojmove koje treba indeksirati, dok osoba koja pretražuje koristi isti tezaurus kako bi utvrdila odgovarajuće termine koje treba koristiti za traženje pojmova koji je zanimaju.
Ako su i tezaurus i zbirka građe koju označava u digitalnom obliku, tada su moguća dva načina uporabe tezaurusa: indeksni tezaurus i tezaurus za pretraživanje.
Indeksni se tezaurus koristi kada rukovatelji sustavom pretpostavljaju da njihovi korisnici neće htjeti koristiti tezaurus u pripremi pretraživanja, nego će to istraživanje željeti provesti putem slobodno odabranih termina za pretraživanje. Svrha je indeksnog tezaurusa obogatiti zapise u bazi podataka tako da svaki termin koji osoba koja pretražuje izabere, treba biti prisutan u pretraživanju (dodavanje svih sinonima i užih pojmova). Tezaurus za pretraživanje koristi se na suprotan način, kao pomoć pri pretraživanju baze podataka kojoj se ne dodaju termini i tezaurusa. Ovaj se tezaurus koristi u svrhu kako bi poboljšao izraze za pretraživanje uključene u sustav: sinonime, uže pojmove; širi i srodni pojmovi mogu biti dodani početnim terminima koje predlaže korisnik/osoba koja pretražuje. To može biti podržano automatski (termini se dodaju uza znanje korisnika) ili interaktivno (korisnik odmah odabire koje od mogućih termina treba još dodati). Ti novi načini uporabe tezaurusa umnogome proširuju njegove mogućnosti u digitalnom okruženju.
Danas je veliko zanimanje za metatezauruse – to su pomagala koja dopuštaju konverziju termina između pojedinih tezaurusa. Jedan od najrazrađenijih je primjera Jedinstveni medicinski jezični sustav (Unified Medical Language System – UMLS) Nacionalne medicinske knjižnice (National Library of Medicine – NLM). Sadrži metatezaurus koji uključuje i druge rječnike iz različitih polja medicine.
Strukturu tezaurusa tvori konfiguracija svakog naziva i razvrstavanje različitih naziva u odnosu jednih prema drugima. Ukrštene uputnice u tezaurusu čine jasnom prirodu odnosa koji međusobno povezuju nazive unutar mreže pojmova. Vrijednost tezaurusa kao dokumentacijskog jezika manje je određena izborom naziva, a više izborom pojmovnih odnosa. Tezaurus ima složenu strukturu ako se koristi hijerarhijskim odnosima i odnosom pridruženosti, a jednostavnu ako popis naziva sadrži samo odnose istoznačnosti među pojmovima.
Tezaurus ne definira točnu riječ, taj posao je ostavljen rječniku. Razlika između rječnika i tezaurusa najčešće se tumači kao razlika između abecednog i konceptualnoga pristupa. Korisnik rječnika tragat će za značenjem riječi, s druge pak strane, korisnik tezaurusa poći će od ideje, pojma,koncepta, tragajući za riječima, odnosno za najboljom riječi koja će taj pojam izraziti na najprikladniji način. Rječnik daje značenja riječima, a tezaurus nudi riječi za značenja. Ako je pojam dvosmislen, može biti dodano šire objašnjenje, kako bi se osigurala točnost, te zbog uputa za interpretaciju određenog pojma.
Postoji također i sistematski tezaurus čiji je glavni dio sistematski građen. U glavnom dijelu koji ujedno daje o potpune informacije za svaki Deskriptor ili pojam moraju se nalaziti informacije o predočavanju pojmova, dopunske informacije i informacije o odnosima između pojmova.
- • stvara reda među terminologijom, objedinjuje sinonime
- • olakšava pretraživanje bibliografskih baza podataka
- • nekih termina nema u tezaurusu, neki su zastarjeli, neki su promijenjeni - nova područja istraživanja u kojima sva terminologija nije još usuglašena, promjene u staroj terminologiji zbog novih saznanja o fenomenima.
- Bawden D. (1950). Tezaurusi: nova postignuća. Vjesnik bibliotekara Hrvatske. 44(2001), 1/4; str. 182-187.
- Horvat, A. Tezaurus termina iz književnosti i znanosti o književnosti : magistarski rad. Zagreb : A. Horvat, 1981.
- Leščić, J. Klasifikacija i predmetno označivanje : priručnik za stručne ispite. Zagreb : Naklada Nediljko Dominović, 2007.
- Lešić J. (1950). O tezaurusu: načela, izradba struktura: pregled. Vjesnik bibliotekara Hrvatske. 44 (2001), 1/4; str. 172 - 181
- Nikolić-Hoyt A. Konceptualna leksikografija : prema tezaurusu hrvatskoga jezika. Zagreb : Hrvatska sveučilišna naklada, 2004.
- Urbanija, J. ; Leščić, J. Metodologija izrade tezaurusa. Zagreb : Naklada Nediljko Dominović, 2004.
- Vladimir Anić,Hrvatski enciklopedijski rječnik, Novi Liber, Zagreb, 2003.
- Miroslav Tuđman, Damir Boras, Zdravko Dovedan, Uvod u informacijske znanosti, Školska knjiga, Zagreb, 1992., pp. 230. (Drugo izdanje 1993)
- AGROVOC Thesaurus, ([1])
- Eurovoc Thesaurus, ([2] Arhivirana inačica izvorne stranice od 8. srpnja 2010. (Wayback Machine))
- Controlled Terms and Thesauri (video tutorial) ([3] Arhivirana inačica izvorne stranice od 10. lipnja 2010. (Wayback Machine))
- Popis ostalih online tezaurusa ([4] Arhivirana inačica izvorne stranice od 9. listopada 2014. (Wayback Machine))
- Searching ERIC using the Thesaurus ([5])
- Thesaurus ([6])