Tekoäly ja kieli – neljän blogitekstin kokonaisuus – Osa I: Lost in data – Tekoälyn kielitaito

  • Kirjoittaja: Eeva Pekanheimo, FM (englannin kielen kääntäminen ja tulkkaus, pohjoismainen filologia), Humanistinen ammattikorkeakoulu, 05.9.2023

Osa I: Lost in data – Tekoälyn kielitaito
Osa II: Lost in translation – Tekoäly, käännöstyöt ja vieraskielisen tekstin tuottaminen. Julkaistaan 6.9.2023.
Osa III: Lost in language acquisition – Tekoäly ja vieraiden kielten oppiminen.Julkaistaan 7.9.2023.
Osa IV: Lost language teacher – Tekoäly, tulevaisuus ja kielitaito. Julkaistaan 8.9.2023.

 

Osa I: Lost in data – Tekoälyn kielitaito

Tässä neljän blogitekstin Tekoäly ja kieli -kokonaisuuden ensimmäisessä osassa pohdin tekoälylle syötettyä tekstimuotoista dataa ja tekoälyn kielitaitoa. Tekoäly, kuten ChatGPT tai Bard, on suuri kielimalli (LLM). Millaiseksi kielen malliksi siitä on meille?


Tekoälylle syötetty data ja tekoälyn kielitaito

Kun kysyn tekoälyiltä, mistä niille syötetty data on peräisin, ChatGPT ja Googlen Bard vastaavat melko samalla tavalla: Data on peräisin monista eri lähteistä, mm. verkkosivustoilta, sanomalehdistä, kirjoista ja tieteellisistä julkaisuista. Bard mainitsee lisäksi koodin. ChatGPT huomauttaa, että on tärkeää huomata, että vaikka sen data perustuu laajaan aineistoon, se ei voi tarkasti tunnistaa yksittäisiä lähteitä tiettyjen tietojen tai vastausten osalta. Bard puolestaan muistuttaa olevansa vielä kehitteillä, vaikka osaakin jo suorittaa monenlaisia tehtäviä.

Tietoa siitä, missä suhteessa ChatGPT:lle ja Bardille on syötetty englanninkielistä versus suomenkielistä dataa, ei liene saatavilla. ChatGPT kertoo kysyttäessä, että se on pääasiassa koulutettu englanninkieliseen dataan ja että vaikka se voi tarjota vastauksia monenlaisiin aiheisiin suomeksi, sen kielitaito ja vastausten laatu saattavat olla vahvempia englanniksi. Bard ei myöskään pysty antamaan prosenttilukuja siitä, kuinka paljon suomenkielistä ja englanninkielistä dataa siihen on syötetty: ”Voin sanoa, että suomi on yksi niistä kielistä, joita puhun.”

Mustavalkoinen, punasilmäinen robotti istuu yksin pyöreän ruokapöydän ääressä edessä ja pitää kiinni ruokakulhosta, joka on täynnä kierrepasta-tomaatti-pesto-salaatin näköistä ruokaa. Pöydälle on aseteltu myös kolme valkoista monistenippua, joissa on mustalla käsittämättömät otsikot.
Tekoälyn luoma kuva promptilla ”AI at a dining table, being fed with data in different languages”.

Tekoäly on kielimalli – ei natiivi puhuja

Näille suurille kielimalleille syötetty data sisältää sekä natiivien englanninkielisten että englantia vieraana kielenä käyttävien tuottamia tekstejä. Sekä ChatGPT:n että Bardin mukaan tämä monipuolisuus tekstimateriaalissa auttaa sitä ymmärtämään erilaisia ilmaisuja, rakenteita ja käyttötapoja, joita käytetään englannin kielessä eri taustoista tulevien ihmisten keskuudessa. Bard muistuttaa jälleen olevansa edelleen kehitteillä.

Sekä ChatGPT että Bard kertovat, että ne käyttävät joskus sanoja tai ilmauksia, joita natiivi englannin kielinen puhuja ei välttämättä pitäisi luonnollisina. Bard muistuttaa olevansa kielimalli eikä natiivi puhuja.

Kaksi meemiä vierekkäin. Vasemmanpuoleissa keskellä arviolta noin vuoden ikäinen, päättäväisen näköinen lapsi käsi voimaantuneesti nyrkissä. Lapsen yläpuolella teksti ”Talked to a native speaker” ja alapuolella ”Understood everything”. Oikeanpuoleissa meemissä neljä hieman toisistaan erilaista lähikuvaa Julia Robertsin hämmentyneistä ja epäileväisistä kasvoista reunustettuna valkoisin matemaattisin, monimutkaisen näköisin matemaattisin funktioin ja geometrisin kuvioin. Kuvien yläpuolella teksti: ”When a native speaker uses on obscure local expression. Their international audience:
Sosiaalisesta mediasta poimittuja meemejä: Englanti on virallinen kieli kymmenissä eri maissa. Esimerkiksi Nigeriassa puhutaan englantia eri tavalla kuin Skotlannissa, ja kieli pitää jokaisessa maassa sisällään paikallisia erikoisuuksia. Englanti on myös globaali lingua franca. Vieraana kielenä englantia puhuvien kieli on yksinkertaisempaa ja meille usein helpommin ymmärrettävää kuin natiivin tuottama englanti.

 

Luovuutta vai tietoa?

Jonkin aikaa näiden kahden tekoälyn kanssa jutusteltuani totean Bardin miellyttävän minua enemmän, koska se tuo usein esille sen, että se ei ole täydellinen ja kehittyy jatkuvasti. Bard myös löytää lähipiiriini liittyvää tietoa näppärämmin: kun kysyn ChatGPT:ltä, mikä on Littoisten Pirtapiiat, saan vastaukseksi, että kyseessä on kansantanssiseura. Pari päivää myöhemmin esittäessäni sille saman kysymyksen, se kertoo kyseessä olevan naiskuoro. Kun kysyn, eikö se ollutkaan kansantanssiseura, se kertoo tiedon olevan vanhentunut. Bard osaa kuitenkin kertoa, että Littoisten Pirtapiiat on partiolippukunta ja ”loistava paikka oppia uusia asioita, tehdä uusia ystäviä ja viettää aikaa luonnossa”.

Jään pohtimaan, mikä näiden kahden kielimallin ero on. Kysyn sitä Bardilta:
”Bard on Googlen luoma suuri kielimalli (LLM), kun taas ChatGPT on OpenAI:n luoma LLM. Bard on koulutettu teksti- ja koodidatajoukon avulla, kun taas ChatGPT on koulutettu tekstidatajoukon avulla. Tämän vuoksi Bard pystyy ymmärtämään ja tuottamaan koodia, kun taas ChatGPT ei. — Kaiken kaikkiaan Bard ja ChatGPT ovat molemmat tehokkaita kielimalleja, mutta niillä on erilaiset vahvuudet ja heikkoudet. Bard on parempi tiedon tarjoamisessa, kun taas ChatGPT on parempi luovien tekstimuotojen tuottamisessa.”

Lopuksi

Vaikka tekoälyt ovat suuria kielimalleja, niistä ei välttämättä ole meille kielen malleiksi, ainakaan vielä. Blogikokonaisuuteni toisessa osassa käyn läpi, millaista apua tekoäly tarjoaa lehtoreille ja opiskelijoille (ja muillekin) vieraskielistä tekstiä tuotettaessa tai käännöstöitä tehdessä, ja toisaalta millaisia kapuloita se saattaa mm. edellä mainituista syistä heittää kansainvälisen viestinnän rattaisiin.