Venäläinen GigaChat-niminen tekoälyjärjestelmä on oppinut yli 30 Venäjän kansojen kieltä.
— Tähän lukuun kuuluvat tataari, baškiiri, tšuvassi, udmurtti, jakuutti, burjaatti, osseetti, tšetšeeni ja muita kieliä, GigaChat-tekoälyjärjestelmän laatijana oleva pankki raportoi tiedotteessaan.
Muut kielet mukaan lukien järjestelmän uudistuksen jälkeen tekoäly voi suorittaa tehtäviä yli 40
kielellä.
— Haluamme tehdä GigaChatista massamarkkinatuotteen, jota jokainen maamme asukas voisi käyttää. Venäjällä puhutaan yli 270 kieltä ja murretta. Tehtävänämme on tehdä niin, että mahdollisimman moni ihminen voisi käyttää tekoälyjärjestelmäämme omalla äidinkielellään, tekoälyjärjestelmän kehityksestä vastaava Anton Frolov kommentoi pankin lehdistöpalvelulle.
Erikielistä aineistoa tekoälyn kouluttamista varten kerättiin eri lähteistä.
— Jokaisen kielen koulutuspaketti sisälsi satoja tuhansia tai jopa miljoonia tekstejä. Joukkoon kuului oppilaitosten ja kirjastojen tarjoamia tekstejä, mediakumppaneiden tarjoamia uutismateriaaleja ja juttuja sekä tieteellisiä tekstejä, kerrotaan tiedotteessa.
GigaChatin hallitsemien vähemmistökielten joukossa on muun muassa karjalan kieli. Tätä juttua kirjoittaessani kysyin tekoälyltä, mitä karjalan kielen murretta se osaa.
— Voin vastata vienankarjalaksi, livviksi ja lyydiksi, tekoäly vastasi. Karjalan kielen eri murteiden saatavuus tekoälyjärjestelmässä on mielen kielen parissa työskenteleville asiantuntijoille.
— On ilahduttavaa, että GigaChat on oppinut karjalan kielen kolme murretta. En ole vielä käyttänyt tätä järjestelmää. Jos tekoäly kääntää laadukkaasti tekstejä, olen valmis käyttämään sitä työssäni, Karjalan tutkimuskeskuksen kielen, kirjallisuuden ja historian instituutin tutkija Aleksandra Rodionova kommentoi.
Karjalankielisen Oma Mua -lehden päätoimittaja Natalja Sinitskaja on samaa mieltä.
— Olemme valmiita käyttämään kaikki ohjelmat, jotka nopeuttaisivat työtämme mutta etusijalla on tekstien laatu ja virheettömyys, Sinitskaja huomauttaa.
Parhaillaan Venäjän kansojen kielillä toimiva tekoäly on kaytössä vain tekstimuodossa.
— Voin vastata karjalaksi kysymyksiin, kääntää tekstejä toisesta kielestä karjalaksi ja karjalasta toiseen kieleen. Lisäksi voin kirjoittaa tekstejä itse ja auttaa karjalan oppimisessa selittämällä kieliopillisia sääntöjä ja kertomalla karjalanmurteiden eroista, GigaChat lupaa.
Pyysin tekoälyä kääntämään venäjän kielestä vienankarjalaksi, livviksi ja lyydiksi lauseen ”Kissa istuu katolla”. Järjestelmän antama tulos näyttää seuraavalta: vienankarjalaksi se olisi ”Kissa iššuo katokalla”, livvinkarjalaksi ”Kissu istuu katoksella” ja lyydiksi ”Kissä istuo katoksel”.
Eri murteiden parissa työskentelevät asiantuntijat analysoivat käännöksiä ja sanoivat, että kaikki käännökset sisältävät virheitä.
— Livvinkarjalan murteella oikea käännös olisi ”Kaži istuu levol”, Natalja Sinitskaja sanoo.
— Vienankarjalaksi oikea vaihtoehto on ”Kišša istuu katolla”, Oma Mua -lehden toimitussihteeri Marija Remšujeva kommentoi.
Tutkija Aleksandra Rodionovan mukaan lyydiksi lauseen on oltava ”Kaži ištuu katuksel”.
— Mielestäni virheet tapahtuvat pääasiassa sen takia, että ohjelman koulutus vaatii enemmän aineistoa karjalan kielellä, tutkija arvelee.
Käännöksessä olevista virheistä voi ilmoittaa GigaChatille. Kommentit välitetään projektin tiimille käännöksen laadun parantamiseksi.
GigaChat-tekoälyjärjestelmä ei ole ainoa karjalan kielen digitalisoinnin esimerkki. Suunnitelmissa on lisätä livvinkarjalaa Yandex Kääntäjä -verkkokääntäjään. Vuonna 2024 alkanut projekti nyt jatkuu.
— Huhtikuun tilastojen mukaan Yandex-järjestelmän tiimille on lähetetty 55 000 rinnakkaista lausetta karjalaksi ja venäjäksi. Vielä 65 000 livvinkarjalaista lausetta on lähetetty ilman venäjännöstä, Karjalan kansallisuus- ja aluepolitiikan ministeriön edustaja Jelena Migunova kertoo.
Projektin aikana on arvioitu käännöksen laatua. Analysoitiin 300 sattumalta valittua lausetta.
— Venäjä-karjala-kieliparissa käännöksen tuloksen keskiarvo on 7 pistettä 10 mahdollisesta ja karjala-venäjä-kieliparissa on 8,4 pistettä. Analyysin tulokset osoittavat, että käännös venäjäksi on riittävän laadukas. Venäjä-karjala-parissa käännöksen laatua on parannettava kieliopin ja tyyliopin kannalta, Migunova huomauttaa.
Aineistoa verkkokäännöstä varten kerätään eri lähteistä.
— Työssä käytetään livvinkarjalaista kaunokirjallisuutta, juttuja Oma Mua -lehdestä ja Oma Media -portaalista, Ruwiki-verkkotietosanakirjasta, VepKar- kielikorpuksesta ja LiPaS-verkkosanakirjasta, Migunova luettelee.
Hankkeessa on mukana Karjalan oikeinkirjoituslautakunnan jäseniä, Karjalan tutkimuskeskuksen kielen, kirjallisuuden ja historian instituutin asiantuntijoita, karjalaisten ja vepsäläisten kansalaisjärjestöjä sekä vapaaehtoisia.
Arvioiden mukaan projekti päättyy 1. joulukuuta 2026.