Osa I: Lost in data – Tekoälyn kielitaito
Osa II: Lost in translation – Tekoäly, käännöstyöt ja vieraskielisen tekstin tuottaminen. Julkaistaan 6.9.2023.
Osa III: Lost in language acquisition – Tekoäly ja vieraiden kielten oppiminen.Julkaistaan 7.9.2023.
Osa IV: Lost language teacher – Tekoäly, tulevaisuus ja kielitaito. Julkaistaan 8.9.2023.
Tässä neljän blogitekstin Tekoäly ja kieli -kokonaisuuden ensimmäisessä osassa pohdin tekoälylle syötettyä tekstimuotoista dataa ja tekoälyn kielitaitoa. Tekoäly, kuten ChatGPT tai Bard, on suuri kielimalli (LLM). Millaiseksi kielen malliksi siitä on meille?
Kun kysyn tekoälyiltä, mistä niille syötetty data on peräisin, ChatGPT ja Googlen Bard vastaavat melko samalla tavalla: Data on peräisin monista eri lähteistä, mm. verkkosivustoilta, sanomalehdistä, kirjoista ja tieteellisistä julkaisuista. Bard mainitsee lisäksi koodin. ChatGPT huomauttaa, että on tärkeää huomata, että vaikka sen data perustuu laajaan aineistoon, se ei voi tarkasti tunnistaa yksittäisiä lähteitä tiettyjen tietojen tai vastausten osalta. Bard puolestaan muistuttaa olevansa vielä kehitteillä, vaikka osaakin jo suorittaa monenlaisia tehtäviä.
Tietoa siitä, missä suhteessa ChatGPT:lle ja Bardille on syötetty englanninkielistä versus suomenkielistä dataa, ei liene saatavilla. ChatGPT kertoo kysyttäessä, että se on pääasiassa koulutettu englanninkieliseen dataan ja että vaikka se voi tarjota vastauksia monenlaisiin aiheisiin suomeksi, sen kielitaito ja vastausten laatu saattavat olla vahvempia englanniksi. Bard ei myöskään pysty antamaan prosenttilukuja siitä, kuinka paljon suomenkielistä ja englanninkielistä dataa siihen on syötetty: ”Voin sanoa, että suomi on yksi niistä kielistä, joita puhun.”
Näille suurille kielimalleille syötetty data sisältää sekä natiivien englanninkielisten että englantia vieraana kielenä käyttävien tuottamia tekstejä. Sekä ChatGPT:n että Bardin mukaan tämä monipuolisuus tekstimateriaalissa auttaa sitä ymmärtämään erilaisia ilmaisuja, rakenteita ja käyttötapoja, joita käytetään englannin kielessä eri taustoista tulevien ihmisten keskuudessa. Bard muistuttaa jälleen olevansa edelleen kehitteillä.
Sekä ChatGPT että Bard kertovat, että ne käyttävät joskus sanoja tai ilmauksia, joita natiivi englannin kielinen puhuja ei välttämättä pitäisi luonnollisina. Bard muistuttaa olevansa kielimalli eikä natiivi puhuja.
Jonkin aikaa näiden kahden tekoälyn kanssa jutusteltuani totean Bardin miellyttävän minua enemmän, koska se tuo usein esille sen, että se ei ole täydellinen ja kehittyy jatkuvasti. Bard myös löytää lähipiiriini liittyvää tietoa näppärämmin: kun kysyn ChatGPT:ltä, mikä on Littoisten Pirtapiiat, saan vastaukseksi, että kyseessä on kansantanssiseura. Pari päivää myöhemmin esittäessäni sille saman kysymyksen, se kertoo kyseessä olevan naiskuoro. Kun kysyn, eikö se ollutkaan kansantanssiseura, se kertoo tiedon olevan vanhentunut. Bard osaa kuitenkin kertoa, että Littoisten Pirtapiiat on partiolippukunta ja ”loistava paikka oppia uusia asioita, tehdä uusia ystäviä ja viettää aikaa luonnossa”.
Jään pohtimaan, mikä näiden kahden kielimallin ero on. Kysyn sitä Bardilta:
”Bard on Googlen luoma suuri kielimalli (LLM), kun taas ChatGPT on OpenAI:n luoma LLM. Bard on koulutettu teksti- ja koodidatajoukon avulla, kun taas ChatGPT on koulutettu tekstidatajoukon avulla. Tämän vuoksi Bard pystyy ymmärtämään ja tuottamaan koodia, kun taas ChatGPT ei. — Kaiken kaikkiaan Bard ja ChatGPT ovat molemmat tehokkaita kielimalleja, mutta niillä on erilaiset vahvuudet ja heikkoudet. Bard on parempi tiedon tarjoamisessa, kun taas ChatGPT on parempi luovien tekstimuotojen tuottamisessa.”
Vaikka tekoälyt ovat suuria kielimalleja, niistä ei välttämättä ole meille kielen malleiksi, ainakaan vielä. Blogikokonaisuuteni toisessa osassa käyn läpi, millaista apua tekoäly tarjoaa lehtoreille ja opiskelijoille (ja muillekin) vieraskielistä tekstiä tuotettaessa tai käännöstöitä tehdessä, ja toisaalta millaisia kapuloita se saattaa mm. edellä mainituista syistä heittää kansainvälisen viestinnän rattaisiin.