Miten video tekstitetään saavutettavasti puheentunnistusohjelman avulla? Kokemuksia Sanelius Web -ohjelman käytöstä

  • Kirjoittaja: Niina Naumanen, tulkkiopiskelija, saavutettavuusasiantuntija, tulkkaus ja kommunikaation ohjaus, Humanistinen ammattikorkeakoulu, 19.1.2022

Videoiden tekstittämisessä voi hyödyntää puheentunnistusohjelmaa. Aikaisemmassa blogissani kirjoitin puheentunnistuksesta sekä tekstitystyökaluista ja nimesin muutamia tekstitystyökaluja, joita olen tekstittämisen ohella kokeillut (Naumanen 2021). Moni on kysynyt minulta, mitä puheentunnistusohjelmaa olen käyttänyt videoiden tekstittämisen ohella.

Puheentunnistustyökalu nopeuttaa tekstittämistä

En suostuisi enää tekstittämään videoita ilman puheentunnistusohjelmaa, sillä se auttaa ja nopeuttaa työtäni. Käytän työssäni Sanelius Web -puheentunnistustyökalua. On ollut hienoa nähdä, kuinka ohjelma on kehittynyt niiden kuuden kuukauden aikana, jona olen ohjelmaa käyttänyt.

Sanelius luo puheesta raakatekstin, jonka se tallentaa automaattisesti tekstitystiedostoksi esimerkiksi SRT- ja WebVTT -muotoon. Tämän jälkeen raakatekstit viimeistellään tekstitykseksi eri tekstitystyökaluja käyttäen. Tekstitystyökalut, joita itse olen käyttänyt, ovat YouTube Studio, HabbyScribe ja Subtitle Edit.

Aiemmassa blogissani kerroin, kuinka puheentunnustuksen luomaa raakatekstiä joudutaan muokkaamaan tekstitystyökaluissa itse, lisäten muun muassa isoja alkukirjaimia ja välimerkkejä (Naumanen 2021). Saneliukseen tuli syksyllä 2021 päivitys, joka tunnistaa erisnimiä ja automaattisesti lisää näihin erisnimiin isot alkukirjaimet.

Kuvitus kuvassa ovat vaaleanpunaista taustaa vasten valkoiset toimistotyövälineet. Kuvassa on kuulokkeet, näppäimistö, hiiri, sekä muistivihko ja kynä. Nämä ovat kaikki tärkeitä välineitä videoita tekstittäessä.
Tärkeitä työvälineitä videon tekstittämisessä tietokoneen ja erilaisten puheentunnistus- ja tekstitystyökalujen lisäksi ovat hyvä näppäimistö, kuulokkeet ja muistivihko. Kuva: Pixabay.com.

Repliikit pilkotaan selkeisiin ja ymmärrettäviin kokonaisuuksiin

Kun tekstityksen virkkeitä jaetaan useampiin repliikkeihin, tulisi repliikkien olla selkeitä ja ymmärrettäviä kokonaisuuksia. Virke pyritään muotoilemana niin, että sen voi jakaa lauserajalta. Repliikki alkaa isolla alkukirjaimella ja loppuu pisteeseen. (Vitikainen & al. 2020.) Näin repliikit ovat helpompi ja mukavampi lukea, kun lauseet eivät katkeile.

Toisena kätevänä uudistuksena Saneliukseen tuli ominaisuus, joka helpottaa repliikkien rivittämistä lauserajojen mukaan ja ajastaa ne oikeaan kohtaan videolle sopiviksi repliikeiksi. Käytännössä muokataan ensin itse tekstiin vain välimerkit, isot kirjaimet sekä korjataan puheentunnistusohjelman tekemät virheet. Tämän jälkeen ladataan korjattu raakateksti Saneliukseen ja saadaan raakatekstiin uudet ajastukset ilman, että niitä tarvitsee itse muokata. Ominaisuus rivittää tekstit myös automaattisesti kahdelle riville alan suositusten mukaan.

Saavutettavuus edellyttää äänimaailman kuvailua tekstityksessä

Kuuleva ihminen saa paljon tietoa puheesta. Henkilö voi puhua eri äänenpainoilla ja äänensävyillä korostaen tunnetilaansa, käyttää slangia tai olla kotoisin vaikkapa eri maasta, jolloin puheessa on aksentti. Ääni voi antaa tietoa myös henkilön iästä tai jopa terveyden tilasta voimme saada tietoa. Ääni voi olla käheä tai henkilö voi yskiä paljon. Henkilö, joka on tekstitysten varassa voi jäädä näistä tiedoista paitsi, jos näitä piirteitä ei ole tekstityksessä. Henkilö ei silloin saa samaa informaatiota puhujasta kuin kuuleva. (Tiittula & Voutilainen 2016, 30.) Saavutettavuusdirektiivin määrittelemän saavutettavuuden näkökulmasta on tärkeää, ettei tekstitetä vain kuuluvaa puhetta vaan välitetään muitakin kuuloaistilla havaittuja asioita äänimaailmasta.

Oletko ollut tilanteessa, että tulet huoneeseen ja muut nauravat muttet tiedä mille? Joskus videolla voi kuulua vaikkapa hauska ääni. Jos sitä ei kerrota tekstityksessä, ei niiden varassa oleva ihminen saa selvää siitä, mistä on kyse. Tällöin hän ei saa riittävästi informaatiota tekstityksestä ja voi jäädä ihmettelemään, mitä tapahtui. Videolla kuuluva ääni on tästä syystä hyvä ilmoittaa sen tapahtumahetkellä. Näin tekstitystä tarvitseva henkilö pääsee hauskaan tilanteeseen mukaan muiden kanssa yhtä aikaa.

Käyttämäni puheentunnistusohjelmat eivät ilmoita videolla kuuluvaa musiikkia ja naurua raaketekstissä sanoina ”musiikkia” tai ”naurua”. Joskus musiikin tai naurun laatukin saattaa olla merkitsevä informaation kannalta. Tällöin sitä voi kuvailla esimerkiksi ”dramaattista musiikkia”, ”sarkastinen naurahdus”.

Tekstityksiin lisätään mukaan kuvailua äänimaailmasta, jotta tekstityksen lukija saisi saman informaation kuin kuulija. Joskus auttaa, kun pyrkii asettumaan tekstityksiä lukevan henkilön asemaan, ja pohtimaan, mitä itse tahtoisin videon äänimaailmasta tietää, koska kaikki tärkeät äänet on tekstitettävä.

Kiitos Humanistisen ammattikorkeakoulun viestintäpäällikkö Jarmo Röksälle. Hän oli mukana blogin kirjoittamisprosessissa.

Lähteet

Naumanen, Niina 2021. Videon tekstitys – Tekstitystyökalut ja puheentunnistus. Viitattu. 18.1.2022. https://www.humak.fi/blogit/videon-tekstitys-tekstitystyokalut-ja-puheentunnistus/

Tiittula, Liisa & Voutilainen, Eero 2016. Puhe, kirjoitus ja puheen muuttaminen kirjoitukseksi. Puhe ja kirjoitus – kielen eri olomutoja. Toim. Tiittula Liisa & Nuolijärvi, Pirkko. Puheesta tekstiksi. Puheen kirjallisen esittämisen alueita, keinoja ja rajoja. Helsinki: Suomalaisen Kirjallisuuden Seura.

Vitikainen, Kaisa & Lehikoinen, Kirsi & Holopainen, Tiina & Ristola, Tomi & Pöntys, Minna & Kauppila, Janne & Stenbäck, Maria & Korhonen, Riitta & Metsola, Kati & Lehto, Lotta & Häkkinen, Tiina & Benigni, Aura & Gorshelnik, Hanna & Antinjuntti, Kristiina 2020. Ohjelmatekstitysten laatusuositukset. Viitattu 16.12.2021 https://kieliasiantuntijat.fi/wp/wp-content/uploads/2021/01/Ohjelmatekstitysten_laatusuositukset_web-versio.pdf