Sveicināti!
Latviešu valodas sintaktiski marķētais korpuss (LVTB) tiek viedots no
2010. gada. Korpuss marķēts manuāli, teikumu struktūras modelējot
atbilstoši LVTB hibrīdajam gramatikas modelim. Korpusu plānots
publicēt divos veidos – oriģinālo marķējumu un automātiski veidotu
atvasinājumu
Universal Dependencies
(UD) formātā – atbilstoši UD laidienu grafikam.
Welcome!
Latvian Treebank (LVTB) is in development since 2010. Corpus is
annotated manually according to LVTB hybrid
dependency-constituency grammar model. We plan to release corpuss in
two formalisms – both in original hybridmodel-annotated data and
automatically derived
Universal Dependency (UD)
annotations. We plan to do releases twice a year according to UD version
schedule.
Jaunākā versija: / Current Version:
LVTB & UD_Latvian-LVTB v2.15
19367 teikumi / sentences |
LVTB gramatikas modelī / in LVTB grammar model |
UD gramatikas modelī / in UD grammar model |
Vaicājami dati / data to query |
LINDAT CLARIN-CZ |
LINDAT CLARIN-CZ |
Lejuplādes / downloads |
CLARIN-LV |
LINDAT CLARIN-CZ |
Marķējuma apraksts / annotation documentation:
- Virsotnes raksturojošie lauki, atkarību lomas, frāžu tipi / node properties, dependency roles, phrase types – LV&EN
- Morfoloģiskie tagi / morphological tags – LV&EN
- Frāžu tagi / phrase-style constructions' tags – LV&EN
- Sintaktiskās marķēšanas vadlīnijas / syntactic annotation guidelines – LV
- Tokenizēšanas un morfoloģiskās marķēšanas vadlīnijas / tokenization and morphological annotation guidelines – LV
- Apraksts LVTB pārveidojumam uz UD_Latvian-LVTB / LVTB to UD_Latvian-LVTB conversion description – LV,
t.sk. lomu atbilsmes diagramma / including role correspondence chart – LV
- Vienkāršotā dokumentācija tikai latviski: sintaktiskās lomas
un frāzes veida konstrukciju tipi
Paraugdati / Sample dummy data: LVTB, UD.
Vaicājumu valodas PML-TQ apraksts / querry language documentation:
- Specifikācija / specification – EN (ÚFAL)
- Pamācība / tutorial – LV
Iepriekšējās versijas pieejamas šeit. / Version history is available here.
Atbalsts/Acknowledgements
- Valsts pētījumu programma (VPP) "Letonika latviskas un eiropeiskas sabiedrības attīstībai" VPP-LETONIKA-2021/1-0006 (2021-2024)
- Valsts pētījumu programma (VPP) "Humanitāro zinātņu digitālie resursi: integrācija un attīstība" VPP-IZM-DH-2020/1-0001 (2020-2022)
- Valsts pētījumu programma (VPP) "Latviešu valoda" VPP-IZM-2018/2-0002 (2018-2021)
- European Regional Development Fund (ERDF) grant agreement "From Abstract Meaning Representation to Natural Language Sentence and Coherent Text Generation" No. 1.1.1.2/VIAA/1/16/188 (2017-2021)
- European Regional Development Fund (ERDF) grant agreement "Full Stack of Language Resources for Natural Language Understanding and Generation in Latvian" No. 1.1.1.1/16/A/219 (2016-2019)
- Valsts pētījumu programma (VPP) "Nacionālā identitāte" Nr. 3 (2010-2014)