Sākums Katalogs Pasākumi Organizācijas Izstrādātāji

Ielādē...

Bieži uzdotie jautājumi Kontakti Privātuma politika Lietošanas noteikumi

Pieteikties jaunumiemE-pastsPiesakoties jaunumu saņemšanai, piekrītu savu norādīto datu apstrādei, saskaņā ar privātuma politiku.

Katalogs/LatvAI-Corpus — Latviešu valodas tekstu datu kopa AI apmācībai

DatasetDatasetExplorerLV / EN

LatvAI-Corpus — Latviešu valodas tekstu datu kopa AI apmācībai

LatvAI-Corpus ir vislielākā publiski pieejamā latviešu valodas tekstu datu kopa AI un ML modelūu apmācībai. Satur 2.4 milj. tekstu fragmentu no ziņu portāliem,

datasetlatviešu-valodacorpusnlpopen-datahuggingface

👁 9

Skatīt demo

Sazināties

StatussPublished

AutorsBetija Muižniece

OrganizācijaRTU AI Lab

Versijav2.1.0

Publicēts2026. gada 6. maijs

Apraksts

LatvAI-Corpus ir atvērts akadēmiskais datasets, kuru var izmantot NLP modelūu apmācībai latviešu valodā. Tas satur:

2.4 milj. tekstu fragmentu
18 kategorijas (ziņas, juridiskais, mācību, kultūras u.c.)
Anotācijas: nosakaņojums, NER, POS tāgi

Datu avoti

Latvijas Nacionālā bibliotēka (ar atļauju)
Publiskie valdības dokumenti (MK, Saeima)
Ziņu portāli (LSM, TVNET) ar licenci
Wikipedia latviešu versija

Formaāti

JSON · CSV · Parquet · HuggingFace Dataset format

Izmantojums

Valodas modelūu apmācība
Sentimenta analīzes pētījumi
NER un teksta klasifikācija
Mācību materīālu ģenerēšana

Licence

CC-BY 4.0 — braīva lietošana ar atsauci.

datasetlatviešu-valodacorpusnlpopen-datahuggingface

Tehnoloģiju steks

PythonPandasHuggingFace DatasetsspaCy

Pielietojuma gadījumi

NLP apmācība
Sentimenta analīze
Teksta klasifikācija

Ierobežojumi

Dati savakāti no publiskiem avotiem ar autortiesbu atļaujām. Nav ieklāuti pers. dati.