Nelja miljardi sõna avantüür: Kas eesti keel jääb AI-maailmas ellu?
Kujutage ette raamatukogu. Mitte sellist tavalist, kus on paarsada tuhat raamatut, vaid sellist, mis on nii suur, et selle läbilugemiseks kuluks mitu inimpõlve. Nüüd kujutage ette, et keegi võtab kogu selle teadmiste ja lugude varamu – neli miljardit sõna – ja annab selle üle hiiglaslikule, nähtamatule olendile, kes õpib ja areneb enneolematu kiirusega. See kõlab nagu ulme, eks? Aga see on täpselt see, mis juhtus 2025. aasta veebruaris, kui Eesti andis sotsiaalmeediahiiu Meta kasutusse ligi neli miljardit eestikeelset sõna. See oli samm, mis pani paljud kulmu kergitama ja küsima: kas see on geniaalne strateegia eesti keele digitaalse tuleviku kindlustamiseks või riskime sellega, et meie väike, armas keel lahustub globaalses kultuuriruumis? Tuleme sellele küsimusele vastuseid otsima.
Miks me seda tegime? Ellujäämisinstinkt digitaalses džunglis
Eesti on väike riik, aga meie keel on meie identiteedi nurgakivi. Põhiseadus ütleb selgelt, et eesti keele kestmine on riigi kohustus. Digitaalajastul tähendab see aga midagi enamat kui vaid koolides eesti keele õpetamist või raamatute väljaandmist. See tähendab, et meie keel peab olema elujõuline ka digitaalses maailmas – otsingumootorites, virtuaalsetes assistentides, tõlkeprogrammides ja loomulikult tehisintellekti (AI) keelemudelites. Kui AI ei räägi eesti keelt, siis on oht, et meie keel jääb digitaalselt pimedasse nurka, kus seda enam ei märgata ega kasutata.
Justiits- ja digiminister Liisa Pakosta sõnul oli see samm hädavajalik. Tema ja ministeeriumi seisukoht on, et eesti keele kestmiseks peame andma tehisaru hiidudele tasuta sisu. Miks tasuta? Sest meie huvi on, et nad neid eesti keele sõnu ja lauseid kasutaksid ning eesti keele oma rakendustesse installeeriksid. See nõuab neilt arendustööd ja meie panus on andmete pakkumine. See ei ole müük, vaid strateegiline investeering keele tulevikku. Eesti Keele Instituudi (EKI) poolt loodud keelekorpus on avalik andmestik, mis ongi loodud selleks, et seda saaksid digiplatvormid kasutada. Eesmärk on tagada, et Eesti inimene saaks digiplatvorme kasutades eesti keelt kasutada ja et talle sealt vastu räägitav eesti keel oleks korrektne ja ilus [1].
Nelja miljardi sõna tagamaad: Kust see hiiglaslik andmehulk tuli?

See neli miljardit sõna ei tekkinud tühjast kohast. See on aastakümnete pikkuse töö tulemus, kogutud erinevatest allikatest – raamatutest, ajalehtedest, veebilehtedelt, foorumitest ja muudest digitaalsetest tekstidest. See on meie keele digitaalne peegelpilt, mis sisaldab endas nii ametlikku keelt kui ka argivestlust, nii kirjandust kui ka uudiseid. Ja just siin peitubki üks selle avantüüri kõige tundlikumaid kohti. Suur osa sellest korpusest pärineb Eesti meediaettevõtetelt, nagu ERR ja Postimees. Need on ettevõtted, kes on oma sisu loomisesse investeerinud aega, raha ja intellektuaalset kapitali.
Meediaettevõtete esindajad on väljendanud muret, et nende loodud sisu antakse tasuta üle triljoni dollari väärtusega ettevõttele, kes kasutab seda oma toodete arendamiseks. Tekib küsimus, kas see on aus? Kas see ei õõnesta meediaettevõtete ärimudeleid, kui AI hakkab pakkuma vastuseid, mis on treenitud nende sisul, ilma et nad selle eest mingit tasu saaksid? Pakosta vastus sellele on, et tegemist on kahe erineva asjaga. Üks on spetsiaalselt digiplatvormide jaoks loodud keelekorpus, teine on meediaettevõtete avalikult kättesaadav sisu. Viimase puhul on ministeerium teinud ettepaneku arutada tingimusi, mille alusel vanemat meediasisu saaks AI platvormidele pakkuda, kaitstes samal ajal äriettevõtete huve [1].
Digitaalne ellujäämine või kultuuriline lahustumine?
See ongi see suur küsimus, mis selle “avantüüri” taga peitub. Ühest küljest on selge, et kui eesti keel ei ole AI-s esindatud, siis on selle tulevik digitaalses maailmas tume. Meie lapsed ja lapselapsed suhtlevad üha enam AI-ga ja kui see AI ei räägi nendega eesti keeles, siis hakkab meie emakeel paratamatult taanduma. Seega on andmete jagamine justkui päästerõngas, mis hoiab eesti keelt digitaalse ookeani pinnal.
Teisest küljest on oht, et andmete andmine suurtele globaalsetele tehnoloogiafirmadele toob kaasa keele ja kultuuri lahustumise. Kas AI, mis on treenitud miljarditel sõnadel erinevatest keeltest ja kultuuridest, suudab tõeliselt mõista ja edasi anda eesti keele ja kultuuri nüansse? Kas see ei “lamenda” meie keelt, muutes selle globaalseks ühiskeeleks, mis kaotab oma eripära? See on mure, mis kummitab paljusid väikseid keeli. Kuidas tagada, et AI ei muutuks keeleliseks “sulatusahjuks”, vaid pigem “kultuuriliseks peegliks”, mis peegeldab iga keele unikaalsust?
Lisaks on küsimus kontrollis. Kui andmed on kord juba globaalsete hiidude käes, siis kaotab Eesti kontrolli selle üle, kuidas neid andmeid kasutatakse või kuidas loodud mudelid eesti keelt ja kultuuri esindavad. Kas me saame kindlad olla, et Meta ja teised suured ettevõtted tegutsevad alati eesti keele parimates huvides? See on usalduse küsimus, mis on iga sellise “avantüür’i” puhul keskne.

Liitu Eesti AI kogukonnaga (BETA), ja aita ülesse ehitada kogukond ning platvorm kus Eesti inimesed saaksid õppida, kuidas tehisintellekti nutikalt ja turvaliselt enda kasuks tööle panna ning kasutada AI tööriistu ilma, et peaksid maksma kalleid kuutasusid mitmetele erinevatele platvormidele!
Suhtle jututubades teiste Eesti AI huvilistega, küsi nõu / anna nõu, avasta uusimaid AI tööriistu, praktilisi tehisaru juhendeid ning palju muud!
NB! Esimesele 1000 liitujale eluagne tasuta sissepääs!
Mis on lahendus? Koostöö, regulatsioon ja teadlikkus
See olukord ei ole mustvalge ja lihtsaid vastuseid pole. Tõenäoliselt peitub lahendus mitme teguri kombinatsioonis:
- Aktiivne koostöö: Eesti peab jätkama aktiivset koostööd suurte tehnoloogiafirmadega, et tagada eesti keele esindatus AI-s. See tähendab pidevat dialoogi, andmete jagamist ja tagasiside andmist.
- Regulatsioon ja eetika: Vaja on selgeid regulatsioone ja eetilisi raamistikke, mis kaitseksid väikeste keelte ja kultuuride huve AI arenduses. See hõlmab intellektuaalomandi kaitset, andmete kasutamise läbipaistvust ja vastutustundlikku AI arendust.
- Oma keeletehnoloogia arendamine: Eesti ei saa loota ainult suurtele firmadele. Peame jätkama oma keeletehnoloogia arendamist, et luua eestikeelseid AI lahendusi, mis on kohandatud meie vajadustele ja kultuurile. See annab meile suurema kontrolli ja sõltumatuse.
- Teadlikkus ja haridus: Inimesed peavad olema teadlikud AI mõjust keelele ja kultuurile. Peame õpetama oma lastele, kuidas AI-ga suhelda ja kuidas kriitiliselt hinnata AI loodud sisu. Keele elujõulisus sõltub lõppkokkuvõttes selle kasutajatest.
Kokkuvõtteks: Kas see avantüür tasub ennast ära?
Nelja miljardi sõna avantüür on suur risk, aga ka suur võimalus. See on nagu väike paat, mis seilab hiiglaslikul digitaalsel ookeanil. Kas see paat upub või jõuab turvaliselt sihtkohta, sõltub sellest, kuidas me seda juhime. Eesti keele digitaalne tulevik ei ole ette määratud. See on meie kätes. See nõuab julgeid otsuseid, pidevat kohanemist ja valmisolekut õppida nii oma vigadest kui ka õnnestumistest. Ainult nii saame tagada, et eesti keel ei jääks AI-maailmas ellu mitte ainult numbrites, vaid ka vaimus ja kultuuris.
Viited
[1] Pakosta: eesti keele kestmiseks peame andma tehisaru hiidudele tasuta sisu. ERR. Kättesaadav: https://www.err.ee/1609596992/pakosta-eesti-keele-kestmiseks-peame-andma-tehisaru-hiidudele-tasuta-sisu
