Tekoäly ja kieli – neljän blogitekstin kokonaisuus: Osa II: Lost in translation – Tekoäly, käännöstyöt ja vieraskielisen tekstin tuottaminen

  • Kirjoittaja: Eeva Pekanheimo, FM (englannin kielen kääntäminen ja tulkkaus, pohjoismainen filologia), Humanistinen ammattikorkeakoulu, 06.9.2023

Osa I: Lost in data – Tekoälyn kielitaito. Julkaistu 5.9.2023.
Osa II: Lost in translation – Tekoäly, käännöstyöt ja vieraskielisen tekstin tuottaminen. Julkaistaan 6.9.2023.
Osa III: Lost in language acquisition – Tekoäly ja vieraiden kielten oppiminen.Julkaistaan 5.9.2023.
Osa IV: Lost language teacher – Tekoäly, tulevaisuus ja kielitaito. Julkaistaan 7.9.2023.

 

Osa II: Lost in translation – Tekoäly, käännöstyöt ja vieraskielisen tekstin tuottaminen

Tässä neljän blogitekstin Tekoäly ja kieli -kokonaisuuden toisessa osassa pohdin, millaista apua tekoäly tarjoaa vieraskielistä tekstiä tuotettaessa tai käännöstöitä tehdessä, ja toisaalta millaisia kapuloita se saattaa heittää viestinnän rattaisiin.

Keltainen kyltti, jossa mustat painatukset. Vasemmassa ylänurkassa pyörätuoli- ja lastenvaunusymbolit. Otsikon alla oikealle osoittava nuoli. Kaikki tekstit tikkukirjaimin. Otsikko: ”Ulkotarha – Outer Space”. Teksti: ”Kulku ulkotarhalle lastenrattailla tai pyörätuolilla tien kautta – Access to the outer space with baby carriage or wheelchair is via the road”.
Hilpeyttä herättävä kaksikielinen opastaulu Korkeasaaren eläintarhassa. Kuva: Eeva Pekanheimo

Tekoäly apuna käännöstyössä ja vieraskielisten tekstien tuottamisessa

Minulta kysytään usein, mikä olisi hyvä netistä löytyvä käännöstyökalu. Pidän DeepListä. Se on saksalaisen koneoppimisyrityksen kehittämä käännöskone, joka on kohtuullisen tarkka. Sen toiminta perustuu koneoppimiseen, erityisesti syväoppimiseen. Syväoppiminen on keinoälyn haara, joka käyttää neuroverkkoja oppimiseen. Neuroverkko taas on tietokonemalli, joka on suunniteltu jäljittelemään aivojen toimintaa. DeepLin neuroverkko on koulutettu valtavalla määrällä tekstidataa, joka sisältää tekstiä eri kielillä. DeepLin kääntäjää voidaan käyttää tekstin, asiakirjojen ja verkkosivujen kääntämiseen. Aivan viime aikoina DeepL on kuitenkin supistanut sitä määrää, minkä sillä voi ilmaiseksi kääntää.

Vaikka DeepL on hyvä ja suosittu käännösohjelma, ei siihenkään voi sokeasti luottaa. Itse käytän sitä käännöstyössä yleensä vain yksittäisten lauseiden kanssa, kun olen jumissa ja tarvitsen ideoita tai synonyymejä. Jos kopioisin koko käännettävän tekstin suoraan DeepLiin, kadottaisin punaisen langan. Ilmiö on ehkä hieman sama kuin jos katsoisin elokuvan ennen kuin luen romaanin – en enää näkisi käännettävää tekstiä omalla tavallani enkä ehkä motivoituisi syvällisesti ymmärtämään lähdetekstiä. Kuten ChatGPT ja ja Googlen teköäly Bard, myös DeepL tuottaa aika ajoin näennäisen hyviä (muttei kuitenkaan oikeita) käännösvastineita. Lisäksi lauseiden viittaussuhteet heittävät silloin tällöin häränpyllyä, ja pidemmissä kokonaisuuksissa se jättää asioita välistä yllättävänkin usein.

Muutama ikävähkö DeepL-esimerkki:
1) Humakin valmennuspedagogiikan ja uuden OPSin tasot ovat oppija, taitaja ja kehittäjä. DeepL:n ensimmäinen ehdotus näiden käännökseksi olisi learner, learner ja developer. Learner kelpaa, taitaja – siinäpä vasta pulma, vaikka sillekin ratkaisu löytyi, tosin tällä kertaa ei tekoälyltä, vaan parviälyltä. Niin, ja developer. Se kun on siitä hieman huono, että se tarkoittaa paitsi kehittäjää, myös kehittyjää. Sanapari ”late developer” lienee useimmille tuttu. Miten sinä ilmaisisit englanniksi opintojaksojemme kolme tasoa? Parviälyn kehittämät englanninkieliset vastineet valmennuspedagogiikan kaikille viidelle tasolle kuin myös opintojaksojen sisältöjen ja tavoitteiden englanninkieliset käännökset löytyvät uudesta OPS-selaimesta.
2) Lauseen ”Työskentelen Kelalla tulkkivälittäjänä” DeepL kääntää ”I work as an interpreter for Kela”. Sen lisäksi, että toimenkuva meni pieleen, oikea ihminen tietää, milloin kuulija on sen tarpeessa, että käsitettä ”Kela” tulisi avata.
3) ”Opiskelijat kokevat puheelle tulkkauksen vaikeaksi.” DeepL: ”Students find it difficult to interpret speech.” Merkitys meni päälaelleen. No, kokeillaan selventää asiaa DeepLille syöttämällä sille lause ”Opiskelijat kokevat viittomakielen tulkkauksen puheelle vaikeaksi.” DeepL: ”Students find it difficult to interpret sign language speech.” Oi voi, ojasta allikkoon – tai naulasta haulikkoon, kuten suomenruotsalainen kollegani joskus ilahduttavasti lipsautti.
4) Kokeillaan vielä yhtä käännöslausetta DeepLille: ”Oletko suomenruotsalainen?”
DeepL: Are you Finnish-Swedish? Oikeasti suomenruotsalainen on englanniksi Finland-Swedish – usko tai älä!

Ongelmana erityisalojen sanasto

Käytinpä kääntämiseen ChatGPT:tä, Bardia tai DeepLiä, törmään samaan ongelmaan kuin ilman käännöskoneita kääntäessäni: erityisalojen sanastoon. Kirjoitin runsas vuosi sitten blogitekstin Pakkoenglantia AMK-lehtoreille ja -opiskelijoille – How to get lost in translation. Nostin tekstissä esille jokusen Humakille keskeisen termin, joiden englanninkieliset vastineet saattavat yllättää. Näitä ovat mm. [sopimattomat vastineet yliviivattu] 1) työelämäworking life – world of work / workplace-alkuiset ilmaukset
2) yhteisöllinencommunalcommunity / community-based/-centred/-oriented / collaborative
3) toiminnallinen oppiminen
functional learningaction-/activity based learning (ABL)

Ko. blogitekstissä pohdin, mistä tällaiset hyvin virallisissakin teksteissä viljellyt ”valekäännökset” juontavat juurensa. Nyt, tekoälyn tultua, voin todeta, että niiden oksat kurkottavat myös tekoälylle syötettyyn dataan. Kun kysyn miltä tahansa näistä kolmesta mainitusta tekoälyn edustajasta, mitä ovat toiminnalliset menetelmät englanniksi, saan vastauksesti functional methods. Tekoäly – kuten kieltä oppiva ihminenkin – tekee yleistyksiä: toiminnallinen kääntyy usein sanalla functional monilla muilla aloilla kuten lääketieteessä, arkkitehtuurissa ja insinööritieteissä.


Kohti tekoälyn ja hakukoneen liittoa

Vaatii perehtyneisyyttä kieleen ja kääntämiseen, jotta ymmärtää, että sanat harvemmin kääntyvät yksi yhteen ja että kielen kääntäminen ei ole pelkkien sanojen tai edes pelkkien lauseiden kääntämistä. Vaatii myös perehtyneisyyttä itse asiaan, substanssiin, sillä toisellakin kielellä, jotta älyää, että tekoälyn tietokoneen näytöllä tarjoama käännös ei ehkä olekaan hyvä tai oikea. Kun kysyn ChatGPT:ltä, mitä ropostyyri on englanniksi, se kertoo sen viittaavaan pitkiin runomuotoisiin sankarikertomuksiin, ”epic poetry”. Bard taas kertoo sen viittaavan humoristiseen, robottiaiheeseen yhteiskuntakriittiseen kirjallisuuteen, ”robot satire”. DeepL antaa sille parikin eri käännösvaihtoehtoa: ropostyr ja romailer. Perinteinen Google-haku ei saa ainoatakaan hakutulosta, eikä ihme, sillä keksin koko sanan päästäni.

Kaipaisin kovasti tekoälyn ja hakukoneen yhdistelmää – ja sitä kohti ollaankin menossa, sanoi Helsingin yliopiston tietojenkäsittelytieteen dosentti Patrik Floreen kouluttaessaan meitä ruotsinopettajia viime kesänä yhdistyksemme kesäpäivillä. Toistaiseksi pelkkä tekoäly ei kuitenkaan ymmärrä sanomisiaan – se on suu ilman aivoja, kuten tietojenkäsittelytieteilijä Yejin Choi on todennut. Tekoäly yhdistelee sanoja sujuvasti ja älykkään tuntuisesti, mutta pohjimmiltaan suu ilman aivoja tuottaa älytöntä sanahelinää, emmekä voi pelkästään sen tuottamaan tekstiin pohjautuen tietää, mikä on totta tai mikä käännös on hyvä.

Riittävän hyvä käännös

DeepL-ohjelmassa on myös loistava englannin kielen oikolukija. Se tekee hyviä ehdotuksia valmiiseen englanninkieliseen tekstiin ja näyttää muutosten paikat. Käytännössä, kun haluan viimeisen päälle olevan käännöstekstin, luen lähtötekstin (ehkä useaan kertaan) ja simultaanitulkkailen sitä samalla mielessäni, käytän tekoälyä pattitilanteissa ideoita tuomaan ja korjailen tekoälyn tuottamasta käännöksestä erikoisalan terminologian kuntoon, mikä saattaa välillä vaatia melkoista salapoliisityötä: aika usein on konsultoitava natiivia kielenkäyttäjää tai kääntäjäkollegoita. Lopuksi käytän DeepLin erinomaista englannin kielen oikolukua. Koko ajan olen piinallisen epätietoinen siitä, että en ole natiivi minäkään.

Miksi pyrkiä moiseen täydellisyyteen? Eikö vähempikin riitä? Varmasti kyllä. Ymmärretyksi tulee pienemminkin ponnistuksin, ja yllämainituilla yliviivatuilla sanoilla merkitykset välittynevät. Isäni oli betoniasiantuntija, joka viimeisinä työvuosinaan vastasi rakenteilla olleen Olkiluodon ydinvoimalan betonirakenteista. Hän oli harvinaisuus: vieraita kieliä taitamaton yksikielinen ihminen, jonka oli täysin mahdotonta käsittää, että lauseet eivät käänny sana sanalta. Kerran hän kantoi englanninkieliset ja ranskankieliset betonirakenteisiin liittyvät tekstit minulle ja pyysi kääntämään. Passitin hänet käyttämään kieltä taitavia alan asiantuntijoita. Mikäli tuolloin olisi ollut mahdollisuus käyttää tekoälyä käännöksiin, hän varmasti olisi sitä käyttänyt. Mahtaisivatko tekstit olla nykyisen tekoälyn kääntäminä riittävän hyviä? Entä lopputulos, ydinvoimalan betonirakenteet? Edelleen luottaisin asiaa ymmärtävään ihmiskääntäjään enemmän kuin koneeseen, kun kyseessä ovat ydinvoimalan rakenteet tai vaikkapa lääketieteen kommervenkit. Meidän humanistien teksteillä ei kaiketi niin ole väliä. – Tekoäly taitaa muuten ironiankin, mutta toisin kuin me ihmiset, se on ironinen vain pyydettäessä.
Prompt: Ole ironinen.
ChatGPT: Tietysti, olen mahtava iroanian taitaja. Voin käyttää ironiaa aivan täydellisesti!

Seitsemän eri muotoista ja eri väristä kangasmerkkiä, joissa seuraavat tekstit: riippuu kontekstista; välimerkinrakastelija, kuningas on kauhea rage (kuva vihaisesta kuninkaasta valtaistuimella), kääntöpiiri (pohjakuvana maapallo), en ole kävelevä sanakirja, yhdys sana vihre [sic], kielen kääntäjä (kuvassa epätoivoinen mieshahmo, jonka pitkä kieli on solmussa).
Turun yliopiston kääntäjäopiskelijoiden ainejärjestön haalarimerkkejä. Kuva: http://kaantopiiri.net/info.php

Sana- ja lausetasolta nekstille levelille

Tekoäly tarvitsee vielä monia tukevia erikielisiä data-aterioita ennen kuin sen käännöksiin voi luottaa, etenkin silloin, kun kyse on erityisalojen teksteistä. Toisaalta tieto ja sen myötä uudet sanat ja vanhojen sanojen uudet merkitykset lisääntyvät koko ajan.

Kun tekoälyä pyytää vain kääntämään, se kääntää. Jos kuitenkin toivoo tekoälyn muokkaavan suomalaisen, englanniksi käännetyn tekstin rakenteen anglo-amerikkalaiselle kulttuurille ominaiseksi, on oltava perillä siitä, miten suomalainen ja anglo-amerikkalainen kulttuuri ja teksti eroavat toisistaan. Muun muassa tätä käsittelen blogikokonaisuuteni kolmannessa osassa, jossa pohdin tekoälyn roolia vieraiden kielten oppimisessa ja opettamisessa.