Sveicināti!
Latviešu valodas sintaktiski marķētais korpuss (LVTB) tiek viedots no
2010. gada. Korpuss marķēts manuāli, teikumu struktūras modelējot
atbilstoši LVTB hibrīdajam gramatikas modelim. Korpuss tiek regulāri
publicēts divos veidos: oriģinālajā marķējumā un kā UD_Latvian-LVTB
(UDLV-LVTB) – automātiski atvasināts
Universal Dependencies
(UD) korpuss, daļa no attiecīgās UD versijas. Jaunas korpusa versijas
tiek izlaistas divreiz gadā, atbilstoši UD versiju grafikam –
maija un novembra vidū.
Welcome!
Latvian Treebank (LVTB) is in development since 2010. Corpus is
annotated manually according to LVTB hybrid dependency-constituency
grammar model. Corpuss is released regularly in two forms: with the
original hybrid annotations and as UD_Latvian-LVTB (UDLV-LVTB)—an
automatically derived
Universal Dependencies
(UD) corpus, part of the corresponding UD version. New versions are
relesed twice a year in accodance with UD version
schedule—mid-May and mid-November.
Jaunākā versija: / Current Version:
LVTB & UD_Latvian-LVTB v2.18
Marķējuma apraksts / annotation documentation:
- Virsotnes raksturojošie lauki, atkarību lomas, frāžu tipi / node properties, dependency roles, phrase types → LV&EN
- Morfoloģiskie tagi / morphological tags → LV&EN
- Frāžu tagi / phrase-style constructions' tags → LV&EN
- Sintaktiskās marķēšanas vadlīnijas / syntactic annotation guidelines → LV
- Tokenizēšanas un morfoloģiskās marķēšanas vadlīnijas / tokenization and morphological annotation guidelines → LV
- Apraksts LVTB pārveidojumam uz UD_Latvian-LVTB / LVTB to UD_Latvian-LVTB conversion description → LV,
t.sk. lomu atbilsmes diagramma / including role correspondence chart → LV
- Vienkāršotā dokumentācija tikai latviski: sintaktiskās lomas
un frāzes veida konstrukciju tipi
Paraugdati / Sample dummy data →
LVTB,
UD.
Vaicājumu valodas PML-TQ apraksts / querry language documentation:
- Specifikācija / specification →
EN (ÚFAL)
- Pamācība / tutorial → LV
Iepriekšējās versijas pieejamas šeit. / Version history is available here.
Atbalsts/Acknowledgements
- Valsts pētījumu programma (VPP) "Letonika latviskas un eiropeiskas sabiedrības attīstībai" VPP-IZM-LETONIKA-2025/1-0004 (2025-2028)
- Valsts pētījumu programma (VPP) "Letonika latviskas un eiropeiskas sabiedrības attīstībai" VPP-LETONIKA-2021/1-0006 (2021-2024)
- Valsts pētījumu programma (VPP) "Humanitāro zinātņu digitālie resursi: integrācija un attīstība" VPP-IZM-DH-2020/1-0001 (2020-2022)
- Valsts pētījumu programma (VPP) "Latviešu valoda" VPP-IZM-2018/2-0002 (2018-2021)
- European Regional Development Fund (ERDF) grant agreement "From Abstract Meaning Representation to Natural Language Sentence and Coherent Text Generation" No. 1.1.1.2/VIAA/1/16/188 (2017-2021)
- European Regional Development Fund (ERDF) grant agreement "Full Stack of Language Resources for Natural Language Understanding and Generation in Latvian" No. 1.1.1.1/16/A/219 (2016-2019)
- Valsts pētījumu programma (VPP) "Nacionālā identitāte" Nr. 3 (2010-2014)