Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība

LATE

Notikumi

20.25.06.2022.

LU MII pētnieki piedalās LREC konferencē Marseļā

No 20. līdz 25. jūnijam Marseļā notiek LREC 2022 (13th Conference on Language Resources and Evaluation) lielākā valodas tehnoloģiju resursiem veltītā konference. LU Matemātikas un informātikas institūts tajā piedalās ar trim stenda referātiem.

21. jūnijā plānota prezentācija par latviešu valodas apguvēju korpusu LaVA, kurā apkopotas Latvijas augstskolās studējošo valodas apguvēju rakstītās esejas (apjoms – 190 tūkst. vārdlietojumu). Analizējot korpusa tekstos atzīmētās valodas apguvēju kļūdas, izveidota pašpārbaudes uzdevumu kopa.

22. jūnijā stenda referātā tiks prezentēti Tezaurs.lv tiešsaistes vārdnīcas papildinājumi ar vārdu nozīmju sinonīmiem un citām semantiskām saitēm, veidojot Latviešu valodas leksisko tīklu (Latvian WordNet).

Jāņos paredzēts stenda referāts par Nacionālajā korpusu kolekcijā korpuss.lv iekļautajiem teksta un runas korpusiem, to gramatisko marķējumu un par vienoto meklēšanu vairāk nekā 20 dažādos korpusos (kopējais apjoms vairāk nekā 1,3 miljardi tekstvienību).

18.01.2022

LATE projekta atklāšanas sanāksme

18. janvārī notika LATE projekta atklāšanas sanāksme, kurā piedalījās projekta vadības grupas pārstāvji no visām partnerinstitūcijām:
LU MII: Ilze Auziņa, Baiba Saulīte, Normunds Grūzītis, Inguna Skadiņa, Vita Matule
LU LVI: Edmunds Trumpa, Agris Timuška, Sanda Rapa, Marita Silkāne
LU HZF: Andra Kalnača, Ilze Lokmane
LU LFMI: Sanita Reinsone
LiepU: Dina Bethere, Airita Lindberga

12.01.2022
LU MII un CLARIN Latvija organizēts praktiskais seminārs par korpuss.lv platformā pieejamajiem korpusiem un meklēšanu tajos. Semināra vadītājas: Ilze Auziņa un Baiba Saulīte. 
https://www.clarin.lv/lv/clarin-latvija-seminari/63-praktiskais-seminars-par-par-korpuss-lv-vietne-pieejamajiem-korpusiem

Informācija par projektu

Projekts "Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība" tiek īstenots Valsts pētījumu programmas "Letonika latviskas un eiropeiskas sabiedrības attīstībai" ietvaros.

Projekta Nr.: VPP-LETONIKA-2021/1-0006

Projekta īstenošana: 20.12.2021.–19.12.2024.

Projekta finansējums: 1 068 000 EUR

Projekta finansētājs: LR Izglītības un zinātnes ministrijas Latvijas Zinātnes padome

Projekta partneri: Latvijas Universitātes Matemātikas un informātikas institūts (vadošais partneris), Latvijas Universitāte (Latvijas Universitātes Latviešu valodas institūts un Latvijas Universitātes Humanitāro zinātņu fakultāte), Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Liepājas Universitāte

Kontaktinformācija: late@lumii.lv

Projekta vadītāja: Ilze Auziņa

Kopsavilkums
Projekta “Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība” (LATE) mērķis ir veikt mūsdienu latviešu valodas fonētiskās, gramatiskās, leksiskās sistēmas, kā arī latviešu zīmju valodas izpēti, izmantojot datos balstītas metodes un attīstot ilgtspējīgus latviešu valodas resursus un rīkus.

Lai sasniegtu izvirzīto mērķi, tiks attīstīta digitālā infrastruktūra valodas pētniecībai un tiks izveidoti jauni un papildināti esošie valodas resursi: latviešu valodas runas korpuss, latviešu zīmju valodas paraugkorpuss, leksiskā datubāze Tēzaurs.lv un “Mūsdienu latviešu valodas vārdnīca”.  Veicot datos balstītus latviešu valodas pētījumus, tiks pilnveidots gramatiski marķētais latviešu valodas korpuss un fonētiski fonoloģiskās sistēmas apraksts. Projekta laikā izveidotie un pilnveidotie resursi tiks iekļauti vienotajā latviešu valodas digitālās pētniecības infrastruktūrā CLARIN-LV un izmantoti runas transkribēšanas, pēcrediģēšanas un subtitrēšanas platformas LATE izstrādē.

Projekta uzdevumi: (a) digitālās infrastruktūras attīstīšana valodas pētniecībai: latviešu valodas leksisko, fonētisko un akustisko resursu izveide digitālā, mašīnlasāmā tiešsaistes datu formā, tai skaitā transkribētu runas korpusu izstrāde, nodrošinot to integrāciju Eiropas valodas resursu repozitorijos; (b) latviešu valodas skaņu sistēmas akustiskie un auditīvie (uztveres) pētījumi; (c) latviešu valodas gramatikas vienību un to variantu semantiski pragmatiski pētījumi; (d) latviešu nedzirdīgo zīmju valodas pētniecība; (e) runas atpazīšanas un balss sintēzes tehnoloģijas; (f) valodas tehnoloģiju risinājumi cilvēkiem ar īpašām vajadzībām (piemēram, automātiskā subtitrēšana, balss komandas).

Projekta virzieni uzdevumu īstenošanai:
WP1 Latviešu valodas pētījumu digitālā infrastruktūra
WP2 Datos balstīta latviešu valodas fonētiskās sistēmas izpēte
WP3 Datos balstīti latviešu valodas gramatikas pētījumi
WP4 Datos balstīti latviešu zīmju valodas pētījumi
WP5 Latviešu valodas runas tehnoloģiju izstrāde

Projekta pētnieciskā grupa: projekta īstenošanā ir iesaistīti 10 galvenie izpildītāji un 33 izpildītāji, t. sk. 14 studējošie.