LV TreeBank

Sveicināti!

Latviešu valodas sintaktiski marķētais korpuss (LVTB) tiek viedots no 2010. gada. Korpuss marķēts manuāli, teikumu struktūras modelējot atbilstoši LVTB hibrīdajam gramatikas modelim. Korpuss tiek regulāri publicēts divos veidos: oriģinālajā marķējumā un kā UD_Latvian-LVTB (UDLV-LVTB) – automātiski atvasināts Universal Dependencies (UD) korpuss, daļa no attiecīgās UD versijas. Jaunas korpusa versijas tiek izlaistas divreiz gadā, atbilstoši UD versiju grafikam – maija un novembra vidū.

Welcome!

Latvian Treebank (LVTB) is in development since 2010. Corpus is annotated manually according to LVTB hybrid dependency-constituency grammar model. Corpuss is released regularly in two forms: with the original hybrid annotations and as UD_Latvian-LVTB (UDLV-LVTB)—an automatically derived Universal Dependencies (UD) corpus, part of the corresponding UD version. New versions are relesed twice a year in accodance with UD version schedule—mid-May and mid-November.

Jaunākā versija: / Current Version:
LVTB & UD_Latvian-LVTB v2.18

19580 teikumi / sentences	LVTB gramatikas modelī / in LVTB grammar model	UD gramatikas modelī / in UD grammar model
Vaicājami dati / data to query	LINDAT/CLARIAH-CZ	LINDAT/CLARIAH-CZ
Lejuplādes / downloads	CLARIN-LV	LINDAT/CLARIAH-CZ

Marķējuma apraksts / annotation documentation:

Virsotnes raksturojošie lauki, atkarību lomas, frāžu tipi / node properties, dependency roles, phrase types → LV&EN
Morfoloģiskie tagi / morphological tags → LV&EN
Frāžu tagi / phrase-style constructions' tags → LV&EN
Sintaktiskās marķēšanas vadlīnijas / syntactic annotation guidelines → LV
Tokenizēšanas un morfoloģiskās marķēšanas vadlīnijas / tokenization and morphological annotation guidelines → LV
Apraksts LVTB pārveidojumam uz UD_Latvian-LVTB / LVTB to UD_Latvian-LVTB conversion description → LV,
t.sk. lomu atbilsmes diagramma / including role correspondence chart → LV
Vienkāršotā dokumentācija tikai latviski: sintaktiskās lomas un frāzes veida konstrukciju tipi

Paraugdati / Sample dummy data → LVTB, UD.

Vaicājumu valodas PML-TQ apraksts / querry language documentation:

Specifikācija / specification → EN (ÚFAL)
Pamācība / tutorial → LV

Iepriekšējās versijas pieejamas šeit. / Version history is available here.

Atbalsts/Acknowledgements

Valsts pētījumu programma (VPP) "Letonika latviskas un eiropeiskas sabiedrības attīstībai" VPP-IZM-LETONIKA-2025/1-0004 (2025-2028)
Valsts pētījumu programma (VPP) "Letonika latviskas un eiropeiskas sabiedrības attīstībai" VPP-LETONIKA-2021/1-0006 (2021-2024)
Valsts pētījumu programma (VPP) "Humanitāro zinātņu digitālie resursi: integrācija un attīstība" VPP-IZM-DH-2020/1-0001 (2020-2022)
Valsts pētījumu programma (VPP) "Latviešu valoda" VPP-IZM-2018/2-0002 (2018-2021)
European Regional Development Fund (ERDF) grant agreement "From Abstract Meaning Representation to Natural Language Sentence and Coherent Text Generation" No. 1.1.1.2/VIAA/1/16/188 (2017-2021)
European Regional Development Fund (ERDF) grant agreement "Full Stack of Language Resources for Natural Language Understanding and Generation in Latvian" No. 1.1.1.1/16/A/219 (2016-2019)
Valsts pētījumu programma (VPP) "Nacionālā identitāte" Nr. 3 (2010-2014)

Sveicināti!

Welcome!

Jaunākā versija: / Current Version: LVTB & UD_Latvian-LVTB v2.18

Atbalsts/Acknowledgements

Jaunākā versija: / Current Version:
LVTB & UD_Latvian-LVTB v2.18