Latviešu valodas sintaktiski marķētais korpuss (LVTB) tiek viedots no 2010. gada. Korpuss marķēts manuāli, teikumu struktūras modelējot atbilstoši SemTi-Kamola hibrīdajam gramatikas modelim. Korpusu plānots publicēt divos veidos – oriģinālo marķējumu un automātiski veidotu atvasinājumu Universal Dependencies (UD) formātā – atbilstoši UD laidienu grafikam.
Latvian Treebank (LVTB) is in development since 2010. Corpus is annotated manually according to SemTi-Kamols hybrid dependency-constituency grammar model. We plan to release corpuss in two formalisms – both in original SemTi-Kamols-annotated data and automatically derived Universal Dependency (UD) annotations. We plan to do releases twice a year according to UD version schedule.
Vaicājami dati / Data to query:
Marķējuma apraksts / Annotation documentation:
Vaicājumu valodas PML-TQ apraksts / Querry language documentation: EN (ÚFAL)
Iepriekšējās versijas pieejamas šeit. / Version history is available here.