Viittomakielen korpus on kuin suuri esimerkkilausepankki, jonka avulla voi tutkailla viittomien merkitystä
Korpuksia voi käyttää apuna viittoman semantiikan hahmottamisessa ja sopivan viittoman valitsemisessa. Korpus on laaja, koneluettava kieliaineisto.
Kirjoitin aiemmassa blogissani viittomakielen sanakirjan käytöstä viittomakielen opiskelussa. Totesin, että opiskelijoiden on vaikea havaita merkitykseltään läheisten viittomien merkityseroja ja valita niistä kontekstiin parhaiten sopiva viittoma. Tässä blogissa tarkastellaan, miten korpuksia voi käyttää apuna viittoman semantiikan hahmottamisessa ja sopivan viittoman valitsemisessa.
Suomen kielen, suomalaisen viittomakielen ja suomenruotsalaisen viittomakielen korpuksia
Suomessa on vuodesta 2013 rakennettu viittomakielten korpuksia. Korpus on laaja, koneluettava kieliaineisto. Suomessa on kaksi suomalaisen viittomakielen korpusta: Kuurojen Liiton julkaisema Kipo-korpus ja Jyväskylän yliopiston viittomakielen keskuksen julkaisema Suomalaisen viittomakielen korpus. Lisäksi lokakuussa 2024 julkaistiin suomenruotsalaisen viittomakielen korpus.
Nämä kaikki on tallennettuna ja saatavilla Kielipankissa, jossa on myös suomen kielen korpuksia. Suomen kielen korpuksia voi tarkastella Korp-palvelussa.
Kaikki viittomakielten korpukset on annotoitu. Annotointi tarkoittaa kieliaineiston koodaamista systemaattisesti siten, että siitä voi tehdä hakuja. Kielipankissa oli aiemmin palvelu, jossa myös viittomakielen korpuksia sai tarkastella selaimen kautta, mutta tällä hetkellä tällaista mahdollisuutta ei ole. Viittomakielen aineistot on tallennettava käyttäjän omalle koneelle ja tarkasteltava niitä vapaasti ladattavalla Elan-ohjelmalla.
Ensimmäinen Suomessa julkaistu viittomakielen korpus on Kuurojen Liitossa Suomalaisten viittomakielten korpus- ja kansalaissanakirjahankkeessa tehty Kipo-korpus, joka valmistui vuonna 2015. Se sisältää vuonna 2010 julkaistun Suomen viittomakielten kielipoliittisen ohjelman viittomakielisen version. Videolla yksi henkilö kerrallaan viittoo kameralle. Aineisto on avoimesti saatavilla.
Jyväskylän yliopiston viittomakielen keskuksen tekemä Suomalaisen viittomakielen korpus julkaistiin vuonna 2019. Tämä korpus sisältää studio-olosuhteissa kerättyä aineistoa. Videoilla kaksi viittomakielistä henkilöä kertoo toisilleen tarinoita ja keskustelee eri aiheista. Korpus käsittää kaksi osaa: kaikille avoimen kerronta-aineiston ja käyttöluvan vaativan keskusteluaineiston.
ID-glossi viittoman nimenä
Puhutuista kielistä, kuten suomesta, on olemassa useita eri tekstilajeja sisältäviä korpuksia. Koodauksen ansiosta suomen kielen korpuksista voi tehdä hakuja sanan perusmuodon kautta, vaikka sanat onkin tekstissä taivutettu. Lisäksi korpuksista, joihin on koodattu kaikki kieliopilliset morfeemit, voi hakea tiettyä kieliopillista muotoa, esimerkiksi vaikka kaikki partitiivimuodot tai possessiivisuffiksit. Näin pitkälle ei ole vielä viittomakielten korpuksissa päästy, vaikka eri tutkijat ovatkin omia tutkimuksiaan varten tehneet aineistoihin monenlaisia merkintöjä.
Julkaistuissa viittomakielten korpuksissa on perusannotointi, joka käsittää viittomien erottelun ja ID-glossauksen sekä käännöksen kirjoitetulle kielelle. Suomalaisen viittomakielen korpuksissa käännös on suomeksi, suomenruotsalaisen viittomakielen korpuksessa ruotsiksi.
ID-glossi on ikään kuin viittoman nimi tai koodi: sen avulla suurestakin aineistosta on helposti löydettävissä kaikki saman lekseemin esiintymät. Kipo-korpuksessa ja Jyväskylän yliopiston korpuksissa ID-glossaus on tehty hieman eri tavoin. Keskitynkin tässä blogissa Kipo-korpukseen. Siinä kukin aineistossa esiintyvä viittoma on tunnistettu tietyksi lekseemiksi ja sille on annettu ID-glossi.
Lekseemi tarkoittaa sanan tai viittoman kaikkia muotoja käsittävää abstraktiota, mistä esimerkki on sanakirjan hakusana. Esimerkiksi kuvassa 1 näkyy Suvi-sanakirjan artikkeli 671. Viittoma voidaan tuottaa kahdella eri käsimuodolla. Koska käsimuodon vaihtuessa merkitys ei vaihdu, on tulkittu, että kyseessä on sama lekseemi eli sama viittoma, jolla on kaksi eri foneettista muotoa. Aiemmassa blogissani käytin tästä viittomasta glossia PAKKO, mikä on myös kyseisen viittoman id-glossi Kipo-korpuksessa.
Jotakin viittomaa on voitu aineistossa myös modifioida. Esimerkiksi verbaali LÄHETTÄÄ on voitu suunnata tekijästä kohteeseen tai toistaa viittoma monikon ilmaisemiseksi, jolloin kyseessä on aina sama lekseemi ja sillä on sama ID-glossi.
Suvi-sanakirjan artikkeli 671, josta käytetään glossia PAKKO. Kuvakaappaus Suvi-sanakirjasta.
Signbank on leksikkotietokanta, josta voi tarkistaa viittoman ID-glossin
Signbank on leksikkotietokanta, johon on tallennettu kaikki korpusta annotoidessa eteen tulleet leksikaaliset viittomat (tässä tyypin 2 verbaalit lukeutuvat leksikaalisiksi). Osa viittomakielten viittomista on kuvailevia viittomia, joiden muoto ei ole niin vakiintunut, että ne voitaisiin kuvata sanakirjassa (ainakaan helposti), eikä näitä ole Suvi-sanakirjassa tai Signbankissa.
Jokaisella Signbankissa olevalla viittomalla on ID-glossi. Lisäksi viittomasivulla annetaan merkitysvastineita, joita viittomalla on jossakin kontekstissa.
Signbankissa on kaksi erillistä suomalaisen viittomakielen leksikkoa, sillä ID-glossausta ei ole tehty yhtenäisesti eri korpuksissa. Kipo-korpuksen annotoinnissa on nojattu Suvi-sanakirjaan, mutta Signbankissa on myös viittomia, joita ei Suvissa ole.
Kun Signbankissa hakee viittomaa glossilla TÄYTYÄ tai PAKKO, saa tulokseksi kaksi viittomaa. Haun voi kuitenkin rajata esimerkiksi pelkkään Kipo-korpuksen leksikkoon. Kuvassa 2 näkyy haun TÄYTYÄ tulos ilman rajausta. Kyseessä on sama viittoma. Kipo-korpuksessa sen ID-glossi on TÄYTYÄ, ja Jyväskylän yliopiston VKK-korpuksessa TÄYTYÄ(AA). Kuvassa 3 näkyy haun PAKKO tulos.
Kipo-korpuksessa viittoman TÄYTYÄ ID-glossi on TÄYTYÄ, VKK-korpuksessa TÄYTYÄ(AA). Kuvakaappaus Signbankista.
Kipo-korpuksessa viittoman PAKKO ID-glossi on PAKKO, VKK-korpuksessa PAKKO(GB). Kuvakaappaus Signbankista.
ID-glossauksen ansiosta korpuksesta voi hakea viittomia automaattisesti
Edellisessä blogissani totesin, että Suvi-sanakirjan avulla voi olla vaikea opiskella viittomia, tietää tarkasti viittoman merkityksiä ja sävyjä sekä valita oikea viittoma kuhunkin tilanteeseen. Yksi mahdollinen apuväline viittomien merkityksen ymmärtämiseen ja oppimiseen ovatkin korpukset.
Korpuksesta on mahdollista hakea kaikki tietyn viittoman esiintymät ja tarkastella, millaisissa lauseyhteyksissä viittomaa käytetään ja mitä se kyseisissä lauseissa merkitsee. Näin voi saada kattavamman kuvan viittoman merkityksestä kuin pelkästään Suvi-sanakirjan muutaman esimerkkilauseen avulla. Korpus on siis kuin suuri esimerkkilausepankki!
Korpuksen avulla voidaan tutkia myös, mikä jonkin sanan eri viittomavastineista on yleisin. Tällöin tarkastellaan frekvenssiä. Aloitetaan tästä. Tarkastellaan samoja viittomia, joita käsittelin Suvin osalta, eli viittomia TÄYTYÄ ja PAKKO. Tein haun Kipo-korpuksesta molemmilla ID-glosseilla.
Kipo-korpuksessa on mahdollisuus tehdä haku kaikilta eri viittojien oikean käden riveiltä, sillä rivit on koodattu tietyllä tavalla. Lisäksi kaikki viittojat ovat oikeakätisiä. ID-glosseilla PAKKO löytyy Kipo-korpuksesta 9 esiintymää, eli kyseistä viittomaa on käytetty koko korpuksessa yhdeksän kertaa. ID-glossilla TÄYTYÄ löytyy 204 esiintymää. Viittoma TÄYTYÄ on siis ainakin Kipo-korpuksessa selvästi yleisempi.
Hakutulos Kipo-korpuksesta id-glossilla TÄYTYÄ oikean käden annotointiriveiltä (Tier Type: Id-glossi_oik). Hakutuloksen riviä klikkaamalla pääsee katsomaan kyseisen kohdan videolta.
Seuraavaksi voidaan tarkastella käyttöyhteyttä. Viittoma TÄYTYÄ esiintyy muun muassa seuraavanlaisissa konteksteissa. Annan tässä suomenkielisen käännöksen. Suluissa oleva tiedostonimi kertoo, mistä kohdasta korpusta lause löytyy.
Lainsäätäjillä on oman ministeriönsä hallintoalan lakeja tehdessään velvollisuus huomioida se, mitä perustuslaissa on sanottu. (15_kipo_kiel_oikeudet_1_v2)
Nämä lapset eivät osaa viittoa, eivät kuule, eivätkä puhu. Siksi heille täytyy antaa mahdollisuus oppia viittomaan jo pienestä pitäen. Näin he voivat osallistua keskusteluihin ja ilmaista tunteitaan. (08_kipo_vk_yhteiso_1_v2)
Viittoma PAKKO esiintyy muun muassa seuraavanlaisissa konteksteissa
Suomessa ei ole saatavilla palveluita suomenruotsalaisella viittomakielellä. Tämän vuoksi heidän on pakko osata myös muita kieliä. (12_kipo_vk_yhteiso_5_v2)
Saadakseen tietoa mitä moninaisimmista asioista on kuuron tilattava paikalle viittomakielen tulkki. Tulkin välityksellä asioita voi selvittää. (53_kipo_vk_kaytto_14_v2)
TÄYTYÄ-viittoman sisältävästä ensimmäisestä esimerkkilauseesta nähdään, että joskus sen sisältämä lause voidaan kääntää käyttämällä suomen kielen sanaa ”velvollisuus”. Tätä käännösvastinetta ei Suvi-sanakirjassa tai Signbankissa ole. TÄYTYÄ-viittoman sisältävissä ilmauksissa näyttäisi nopeasti arvioiden olevan usein kyse siitä, että asian pitäisi olla tietyllä tavalla, mutta näin ei välttämättä ole. Tässä voikin vaikuttaa se, että Kielipoliittinen ohjelma on poliittinen teksti, jossa esitetään viranomaisille suosituksia kielellisten oikeuksien toteutumiseksi. Tämä saattaa vaikuttaa myös viittoman TÄYTYÄ taajaan käyttöön nimenomaan Kipo-korpuksessa.
Sen lisäksi, että korpuksesta voi etsiä viittomia ja tutkailla niiden käyttöyhteyksiä, korpuksesta voi hakea suomen kielen kautta. Voi katsoa, mitä niissä lauseissa viitotaan, joissa käytetään sanaa ”pitää”, eli minkälaiset viittomakieliset ilmaukset on käännetty käyttäen sanaa ”pitää”. ”Pitää” onkin helppo esimerkki, koska se ei taivu vaan esiintyy aina kolmannen persoonan muodossa. Taipuvien sanojen suhteen onkin hankalampaa, koska suomen kielen sanoja ei ole viittomakielen korpuksissa lemmatisoitu.
Katsomalla lauseita, joissa tietty viittoma esiintyy, voidaan siis tehdä analyysiä kyseisen viittoman merkityksestä, käyttöyhteyksistä ja käännösvastineista. Tässä tehtiin vain pikainen kurkistus TÄYTYÄ- ja PAKKO-viittomien käyttöön. Toivottavasti jotkut blogin lukijat innostuvat perehtymään korpuksiin ja tekemään niihin omia tutkimusmatkoja. Tällä hetkellä se vaatii Elan-ohjelman ja korpusaineiston lataamista omalle koneelle. Vaivannäkö kuitenkin palkitaan, kun ymmärrys viittomien merkityksistä laajenee. Lisäksi korpuksilla voi tehdä paljon muutakin!
Lähteet:
ELAN (Versio 6.9) [tietokoneohjelma]. (2024). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. Haettu 13.12.2024 osoitteesta https://archive.mpi.nl/tla/elan.
Jyväskylän yliopisto. (2017). Suomen Signbank. Haettu 13.12.2024 osoitteesta https://signbank.csc.fi/.
Jyväskylän yliopisto, Viittomakielen keskus (2019). Suomalaisen viittomakielen korpus [korpus]. Kielipankki. Haettu 13.12.2024 osoitteesta https://www.kielipankki.fi/aineistot/cfinsl/.
Kuurojen Liitto ry. (2015). Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010), ladattava versio 2 [korpus]. Kielipankki. Haettu 13.12.2024 osoitteesta http://urn.fi/urn:nbn:fi:lb-2020112921.
Suvi – Suomen viittomakielten verkkosanakirja. (2003). Kuurojen Liitto. Haettu 12.11.2024 osoitteesta https://suvi.viittomat.net/.