LV TreeBank

Sveicināti!

Latviešu valodas sintaktiski marķētais korpuss (LVTB) tiek viedots no 2010. gada. Korpuss marķēts manuāli, teikumu struktūras modelējot atbilstoši LVTB hibrīdajam gramatikas modelim. Korpusu plānots publicēt divos veidos – oriģinālo marķējumu un automātiski veidotu atvasinājumu Universal Dependencies (UD) formātā – atbilstoši UD laidienu grafikam.

Welcome!

Latvian Treebank (LVTB) is in development since 2010. Corpus is annotated manually according to LVTB hybrid dependency-constituency grammar model. We plan to release corpuss in two formalisms – both in original hybridmodel-annotated data and automatically derived Universal Dependency (UD) annotations. We plan to do releases twice a year according to UD version schedule.

Jaunākā versija: / Current Version:
LVTB & UD_Latvian-LVTB v2.16

19531 teikumi / sentences	LVTB gramatikas modelī / in LVTB grammar model	UD gramatikas modelī / in UD grammar model
Vaicājami dati / data to query	LINDAT/CLARIAH-CZ	LINDAT/CLARIAH-CZ
Lejuplādes / downloads	CLARIN-LV	LINDAT/CLARIAH-CZ

Marķējuma apraksts / annotation documentation:

Virsotnes raksturojošie lauki, atkarību lomas, frāžu tipi / node properties, dependency roles, phrase types – LV&EN
Morfoloģiskie tagi / morphological tags – LV&EN
Frāžu tagi / phrase-style constructions' tags – LV&EN
Sintaktiskās marķēšanas vadlīnijas / syntactic annotation guidelines – LV
Tokenizēšanas un morfoloģiskās marķēšanas vadlīnijas / tokenization and morphological annotation guidelines – LV
Apraksts LVTB pārveidojumam uz UD_Latvian-LVTB / LVTB to UD_Latvian-LVTB conversion description – LV,
t.sk. lomu atbilsmes diagramma / including role correspondence chart – LV
Vienkāršotā dokumentācija tikai latviski: sintaktiskās lomas un frāzes veida konstrukciju tipi

Paraugdati / Sample dummy data: LVTB, UD.

Vaicājumu valodas PML-TQ apraksts / querry language documentation:

Specifikācija / specification – EN (ÚFAL)
Pamācība / tutorial – LV

Iepriekšējās versijas pieejamas šeit. / Version history is available here.

Atbalsts/Acknowledgements

Valsts pētījumu programma (VPP) "Letonika latviskas un eiropeiskas sabiedrības attīstībai" VPP-LETONIKA-2021/1-0006 (2021-2024)
Valsts pētījumu programma (VPP) "Humanitāro zinātņu digitālie resursi: integrācija un attīstība" VPP-IZM-DH-2020/1-0001 (2020-2022)
Valsts pētījumu programma (VPP) "Latviešu valoda" VPP-IZM-2018/2-0002 (2018-2021)
European Regional Development Fund (ERDF) grant agreement "From Abstract Meaning Representation to Natural Language Sentence and Coherent Text Generation" No. 1.1.1.2/VIAA/1/16/188 (2017-2021)
European Regional Development Fund (ERDF) grant agreement "Full Stack of Language Resources for Natural Language Understanding and Generation in Latvian" No. 1.1.1.1/16/A/219 (2016-2019)
Valsts pētījumu programma (VPP) "Nacionālā identitāte" Nr. 3 (2010-2014)

Sveicināti!

Welcome!

Jaunākā versija: / Current Version: LVTB & UD_Latvian-LVTB v2.16

Atbalsts/Acknowledgements

Jaunākā versija: / Current Version:
LVTB & UD_Latvian-LVTB v2.16