Mine sisu juurde

Puudepank

Allikas: Vikipeedia
Lause süntaks fraasipuuna (vasakul) ja sõltuvuspuuna (paremal)

Puudepank on keelekorpus, mis koosneb süntaktiliselt märgendatud lausetest.[viide?]

Puudepangas olevad süntaksipuud esitavad lause süntaktilist struktuuri fraasipuuna, sõltuvuspuuna või ka omavahel kombineeritult. Fraasistruktuuridena esinevate puude märgendus koosneb moodustajate ja fraaside märkimisest, samas kui sõltuvusstruktuuride juures on märgenduseks sõnavormide omavahelised süntaktilised suhted – hübriidvariantides on esindatud mõlemad märgendused.[1]

Huvi keelte süntaktilise struktuuri vastu tekkis 1950. aastatel pärast Noam Chomsky teose „Syntactic Structures“ (1957) ilmumist.

1959. aastal ilmus Lucien Tesnière'i teos „Eléments de syntaxe structurale“ ning lähtuvalt selles teoses esitletust nimetatakse teda sõltuvussüntaktilise lähenemise üheks alusepanijaks. Tesnière oli üks esimesi teadlasi, kes näitas lauses sõnadevahelisi sõltuvusi ning asetas tegusõna lauses kesksele kohale, samuti esitas ta lauseid puulaadse diagrammina ehk süntaksipuuna[2].

Sõltuvussüntaksi uurimisparadigmale alusepanijate hulgas on ka vene-kanada keeleteadlane Igor Aleksandrovič Mel'čuk, kes on uurinud nii morfoloogilisi, süntaktilisi kui ka semantilisi sõltuvussuhteid ning peab neist olulisimaks just süntaktiliste sõltuvuste uurimist, kuna see hõlmab tihti ka muid nimetatud suhteid.[3]

Puudepankadel on arvestatav traditsioon kirjeldava keeleteaduse valdkonnas ning puudepanku hakati esialgu looma selleks, et oleks võimalus empiiriliselt uurida keele süntaksit. Suurema hooga hakati puudepanku arendama 1990. aastatel ning viimastel aastakümnetel on suurenenud huvi kasutada puudepanku ka loomuliku keele töötlemisel[4]. Samuti kasutatakse puudepanku arvutilingvistika valdkonnas erinevate rakenduste arendamiseks ja uurimistööks.

Tänapäeval kasutatakse puudepanku palju just süntaktiliste parserite ja masinõppel põhinevate parserite treenimiseks ja testimiseks.

Puudepankades on tänapäeval enamasti kasutusel erinevad sõltuvusgrammatika variandid ning Head-driven Phrase Structure Grammar (HPSG) – viimane kujutab nii puustruktuuri kui ka tippude tunnusstruktuure[5].

Tuntud puudepanku:

Sõltuvussüntaktiline puudepank

[muuda | muuda lähteteksti]
Karjalakeelne lause, kus on nähtaval nii tipp, kaar ja juur

Sõltuvussüntaktiliselt märgendatud korpuses ehk puudepangas esitatakse lausestruktuur kahe sõnavormi vahelise ebasümmeetrilise suhtena. Sellise lähenemise puhul ei moodustata vahesõlmi, st fraase ja moodustajaid, vaid sõltuvussuhted on rangelt sõnadevahelised.[1]

Sõltuvusüntaktilise märgenduse juures kasutatakse mõisteid "tipp", "kaar" ja "juur" ning "ülemus" ja "alluv"[viide?]. Tipp on lauses kasutatud sõnavorm. Kaar on kahte tippu ühendav märgend, mis väljendab sõnadevahelist ebasümmeetrilist suhet, tehes ühe sõna ülemuseks ja teise alluvaks. Juur või ka juurtipp on lauses kõrgeim ülemus, st tal endal ülemus puudub – tavaliselt on lause kõrgeimaks ülemuseks tegusõna.[3]

  1. 1,0 1,1 Muischnek, Kadri; Müürisep, Kaili (2016). "Eesti keele sõltuvuspuude pank ja selle keeleteoreetilised lähted". Emakeele Seltsi aastaraamat: 122–145.
  2. Tesnière, Lucien (2015). Elements of structural syntax [Elements of structural syntax.]. Amsterdam/Philadelphia: John Benjamins Publishing.
  3. 3,0 3,1 Mel'čuk, Igor (1988). Dependency syntax: theory and practice. Albany: State University of New York Press.
  4. Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina (2016). "Estonian dependency treebank: from constraint grammar tagset to universal dependencies". LREC.
  5. Müller, Stefan; Abeillé, Anne; Borsley, Robert; Koenig, Jean-Pierre (2021). HeadDriven Phrase Structure Grammar: The handbook. Language Science Press.
  6. "Penn Treebank".
  7. "Prague Treebank".
  8. "Verbmobil".
  9. "TiGer treebank".
  10. "LinGO-CSLI". Originaali arhiivikoopia seisuga 13. november 2023. Vaadatud 13. novembril 2023.
  11. "Universal Depencencies".[alaline kõdulink]