Skoči do osrednje vsebine

Jezikovne tehnologije in viri za digitalno opremljenost slovenščine v 21. stoletju


Center za jezikovne vire in tehnologijo (CJVT) skrbi za sistematičen in dolgoročen razvoj tehnologij, virov in orodji za slovenski jezik, s katerim zagotavlja ustrezno jezikovno opremljenost slovenščine v 21. stoletju. Prostori centra so na Fakulteti za računalništvo in informatiko, k delu centra pa vsebinsko prispeva tudi pet članic: Fakulteta za družbene vede, Filozofska fakulteta, Fakulteta za elektrotehniko, Pedagoška fakulteta in Fakulteta za upravo na Univerzi v Ljubljani. 

CJVT vzdržuje besedilne korpuse, podatkovne baze, spletne portale in vmesnike ter jezikovnotehnološka orodja za slovenski jezik. Med njimi tudi Korpus pisne standardne slovenščine Gigafida, ki obsega 38.310 besedil, 59.861.870 stavkov in 1.134.593.933 besed, zajetih med letoma 1991 in 2018. Zbirka besedil je ključna za raziskave jezika, jezikovni opis (slovarje, slovnice), pripravo učnih gradiv in razvoj raznovrstnih jezikovnih tehnologij ter strojnih postopkov za obdelavo slovenskega jezika. Vsebuje časopise, revije, določena spletna besedila, leposlovje, stvarno literaturo, šolske učbenike in podobna besedila. 

Anketa, ki je bila del raziskave Logar idr. (opravljena v letu 2023), je pokazala, da se korpus Gigafida 2.0 največ uporablja za jezikoslovno in širše raziskovanje jezika, pri čemer so uporabniki z njim zadovoljni. Pojav drugih novejših jezikovnih virov večinoma ni zmanjšal potrebe po korpusnem poizvedovanju, izrecno pa so anketiranci poudarili to, da je treba korpus redno posodabljati z novimi besedili.

Več o raziskavi si lahko preberete na povezavi.

 

Foto: cjvt.si 

cjvt-viriNazaj na seznam vseh obvestilObjavljeno: 06. marec 2024 | v kategoriji: Projekti