Iso itämerensuomalainen kansanrunoaineisto
FILTER-hanke syntyi halusta kysyä, mitä uutta itämerensuomalaisilla suurilla sähköisillä kalevalamittaisilla suullisen runouden aineistoilla olisi mahdollista tehdä. Aineistot ovat laajuudessaan ja monipuolisuudessaan monin tavoin ainutlaatuisia.
Hankkeen teki mahdolliseksi lukemattomien ihmisten Suomalaisen Kirjallisuuden Seuran ja Eesti Rahvaluule Arhiivin eli Viron Kansanrunousarkiston piirissä viimeisten lähes kahdensadan vuoden aikana tekemä työ sekä moninainen aineistoon kohdistunut aiempi tutkimus. Kaikkiaan sähköisessä muodossa on nykyään kolmessa aineistokokonaisuudessa yli 150 000 tekstiä inkeroisen, karjalan, viron (myös eteläviron ja seton), lyydin, suomen ja vatjan kielellä. Näistä virolainen ERAB-tietokanta ja karjalaisten, inkeriläisten ja suomalaisten runojen SKVR-tietokanta ovat avoimessa käytössä.
Ajatuksena oli tuoda yhteen osaamista itse aineistoista, folkloristiikasta, tietojenkäsittelytieteistä ja laskennallisista ihmistieteistä. Hanketta on yhdistänyt taju perinneaineistojen haastavuudesta ja siitä, että humanistitutkijalla on aina tarve päästä yleisemmältä tai laskennalliselta tarkastelun tasolta yksittäisten tekstien pariin.
Yllätyksiä ja kuvaajia
Suomalais-virolainen ja humanistis-laskennallinen yhteistyö on tuottanut uusia ja yllättäviäkin näkökulmia aineistoon. Jo pelkkä kokonaisaineiston, yksittäisten runotyyppien tai kerääjäkohtaisten kokoelmien näkeminen kartalla tai aikajanalla herättää uusia ajatuksia niin tallennushistoriasta kuin paikallisten runokulttuurien tallennusaikaisista eroistakin.
Erilaisista kuvaajista hahmottuu uusinkin tavoin, miten suomalaisen ja virolaisen aineiston keskeisimmät karttumisvuodet osuvat samoille kausille, virolaisessa aineistossa on myös inkeriläisiä runoja, osa runotallenteista esiintyy aineistossa useampana kopiona tai miten kaksi- ja nelisäkeiset runot ovat kokonaisaineistossa merkittävästi muita yleisempiä.
Tämä varioi liikaa!
Suullisessa kulttuurissa yksikään runon esitetty versio äänensävyineen ja painotuksineen ei ole keskenään samanlainen. Mitä pidempi runo ja mitä suurempi paikalliskulttuurien etäisyys, sitä enemmän variaatiota yleensä tapahtuu, vaikka lyhyt runoaihelma – kuten Laulan pielekset pihoille Pohjois-Karjalassa – voi toistua yhdellä laulajalla tai paikallisessa kulttuurissa hyvin samanlaisenakin. Juuri variaation moninaisten tasojen hahmottamiseen on liittynyt suuri osa FILTER-hankkeen piirissä tehdystä työstä. Mari Sarv ja Risto Järv näyttävät, miten aineiston erilaisen alueellisen variaation tasot – vaikkapa runoaineiston kielen ja runomitan piirteiden sekä laulajien repertuaarien variaatio – eivät välttämättä osu yksiin.
Yksi sana voi saada lukemattomia eri muotoja. Esimerkiksi Väinämöinen voi runoaineistossa olla Väilämöinen, Viänämöinen, Vainämoinen, Wäinämöisen, Väinämöizen, Väinämyösen – tai jokin muu yli kahdestasadasta vaihtoehdosta. Saman näköinen sana voi eri sukulaiskielissä tarkoittaa aivan eri asiaa, kuten vaikkapa pulma, joka tarkoittaa häitä viron, vatjan ja inkeroisen kielellä, ongelmaa suomeksi ja karjalaksi.
Kieliin, kirjoitusasuun sekä murteen ja runokielen muotoihin liittyvä variaatio tarkoittaa sitä, että
monet laskennalliset kieliaineiston tutkimuksen menetelmät eivät aineistossa toimi – esimerkiksi Suomi24-aineistoa tai 1800-luvun sanomalehtiaineistoa on helpompi analysoida laskennallisesti kuin vanhaa kansanperinneaineistoa. Mari Sarv on kuitenkin näyttänyt, että jos kansanrunousaineistoa käsittelee murrealueet huomioiden, voi esimerkiksi aiheen mallinnus eli topic modelling tuottaa kiinnostavia tuloksia. Runokieli pitää usein sisällään muuten jo käytöstä jääneitä, runoaihelmia lainatessa tai kääntäessä kääntämättä jääneitä tai ainoastaan runokielelle ominaisia sanoja ja sanamuotoja. Antti Kanner on alustavasti havainnut, että Suomen ja Karjalan alueilla kalevalamittaisten runojen kieli näyttää puhekielen murreaineistoihin verrattuna olevan keskimäärin pohjoisempaa ja itäisempää. Tämä liittynee esimerkiksi siihen, että runokieli on runomitan vuoksi usein säilyttänyt pidempiä sanamuotoja, ja sanat esiintyvät puhekielessä pidempinä idempänä ja pohjoisempana. Samaan viittaa myös runomitan piirteiden karkea analyysi.
Samankaltaisten säkeiden ja tekstien tunnistaminen
Runokielessä useamman sanan toistuvat ilmaukset eli formulat ja näiden muodostamat varioivat ryppäät ovat keskeisempiä kuin puhekielessä. Jotkut ilmaukset ovat tyypillisiä vain yhdelle runotyypille, toisia taas on voinut käyttää lukemattomissa eri yhteyksissä. Usein formulat voivat kattaa lähes koko tai koko säkeen. Laulajat puhuivatkin säkeistään sanoina: ne ovat runon perusyksiköitä. Samaan tulokseen tuli FILTER-hankkeessa myös Maciej Janicki, jonka runojen samankaltaisuutta tunnistava laskentatapa käsittelee säkeitä kuin ne olisivat sanoja. Vierekkäisten kirjainten esiintymiseen perustuvan menetelmän avulla piirtyy esiin laaja samankaltaisten säkeiden variaation kirjo, jossa tarkkoja rajoja säetyyppien (tai motiivien tai runotyyppien) välille on usein vaikea vetää. Lauri Harvilahti onkin todennut, että suullisen runouden variaatio on niin suurta, että tutkijasta, aineistosta ja tutkimuskysymyksistä riippuen vaikkapa formulan käsitteen voi hahmottaa lukemattomilla tavoilla.
Samankaltaisuuslaskennan pohjalta toimi myös Runoregi-käyttöliittymä, jossa lukija voi liikkua säetyypistä, samankaltaisena toistuvasta jaksosta tai kokonaisesta tekstistä toiseen, ja tarkastella niiden suurempia joukkoja. Vaikka jokainen suullinen perinne on omanlaisensa, toimii menetelmä muidenkin kielten runoperinteisiin: tähän mennessä sitä on kokeiltu myös islantilaiseen þulur-runouteen. Jukka Saarinen on sen avulla tarkastellut esimerkiksi SKS:n julkaisemattomien runojen aineistoa, josta yllättävän suuri osuus on lastenlauluja. Samalla menetelmällä voi tarkastella myös vaikkapa Lönnrotin tapaa käyttää aiempia runokokoelmiaan seuraavien lähteenä aina Kalevalaan asti.
Jo hankkeen varhaisessa vaiheessa heräsi toive koko runoaineiston laskennallisesta luokittelusta samankaltaisten säkeiden ja jaksojen sekä aiempien käsin laadittujen runotyyppihakemistojen avulla. Runokielen käyttö on kuitenkin niin vaihtelevaa ja varioivaa ja runotyyppien ja aihelmien rajat niin liukuvia, että tulokset eivät ole kovin käyttökelpoisia. Emme ole vielä keksineet, miten tehdä yleisemmin hyödylliseksi valtavia, sotkuisilta karvakasoilta näyttäviä säetyyppien välisiä verkostoja. Tarkemmin rajattuina, pienempinä kokonaisuuksina toisiaan muistuttavien ja toistensa lähellä usein esiintyvien säkeiden verkostot voivat kuitenkin piirtää hienosti esiin vaikkapa runotyyppien tyypillisimpiä juonenkulkuja tai motiiveja.
Aineistotyötä ja avoimia koodeja
Sekä Virossa että Suomessa on tehty paljon töitä myös itse aineiston parissa, korjattu etenkin metadataa eli aineiston paikka-, aika- ja tallentajatietoja sekä runotyyppihakemistoja. On ollut tärkeää saada tämänkaltaiset korjaukset välitettyä myös arkistojen ylläpitämiin pysyviin sähköisiin aineistoihin, ei ainoastaan hankkeen käyttämiin versioihin. Runotyyppihakemistojen korjauksessa samankaltaisen runojen nopea tunnistaminen on suureksi avuksi. Hankkeen tutkijoita on ollut myös apuna SKVR-tietokannan uudistamisessa.
Paitsi menetelmiä, myös karttapohjaa ja hankkeen käyttöliittymiä voi soveltaa myöhemmin toisenlaisiin aineistoihin, vaikkapa riimilliseen kansanlauluun, arkkiveisuihin tai virsiin. Kuten hankkeen tuottamat koodit ja aineiston laskennalliset käsittelyprosessit, myös sen työtä varten laaditut kirjallisten kalevalamittaisten runojen sekä liivinkielisten kansanlaulujen korpukset avataan vapaaseen käyttöön.
***
Suomen Akatemian rahoittama FILTER-konsortio toimi 2020–2024 Suomalaisen Kirjallisuuden Seurassa ja Helsingin yliopistossa, tiiviissä yhteistyössä Eesti Rahvaluule Arhiivin eli Viron Kansanrunousarkiston kanssa. Hankkeessa ovat työskennelleet tutkimusavustajat Jakob Lindström ja Mirjami Sipilä, tutkijat Antti Kanner, Jukka Saarinen, Liina Saarlo ja Mari Sarv sekä hankkeen johtajat Kati Kallio ja Eetu Mäkelä. Lisäksi tärkeää yhteistyötä on tehty lähihankkeiden tutkimusavustajien Sakari Korpikallion, Roope Kotiniemen, Ronjaruut Koskisen sekä Pauliina Tillin kanssa.
FILTER-hankkeen julkaisuluettelo päivitetään sivulle https://blogs.helsinki.fi/filter-project/publications/ ja linkit sen avoimiin työvälineisiin ja koodeihin sivulle https://blogs.helsinki.fi/filter-project/tools/. FILTER-lyhenne tulee hankkeen pidemmästä otsikosta Formulaic intertextuality, thematic networks and poetic variation across regional cultures of Finnic oral poetry. Työ jatkuu Koneen Säätiön rahoittamassa hankkeessa Itämerensuomalaisen kansanrunouden muodon ja sisällön variaatio suhteessa kielelliseen ja etniseen historiaan (2024–2028, SKS).
Lisää luettavaa
Sarv, Mari & Risto Järv 2023. Layers of Folkloric Variation: Computational Explorations of Poetic and Narrative text Corpora. Folklore: Electronic Journal of Folklore, 90, 233−266. DOI: 10.7592/FEJF2023.90.s, https://www.folklore.ee/folklore/vol90/sarv_jarv.pdf
Janicki, Maciej & Kati Kallio & Mari Sarv 2023. Exploring Finnic written oral folk poetry through string similarity. Digital Scholarship in the Humanities 38 (1): 180–194. https://doi.org/10.1093/llc/fqac034
Kallio Kati, Maciej Janicki, Eetu Mäkelä, Jukka Saarinen, Mari Sarv & Liina Saarlo 2023. Eteneminen omalla vastuulla: Lähdekriittinen laskennallinen näkökulma sähköisiin kansanrunoaineistoihin. Elore 30(1): 59–90. https://doi.org/10.30666/elore.126008
Sarv, Mari & Kati Kallio & Maciej M. Janicki 2024: Arvutuslikke vaateid läänemeresoome regilaulude varieeruvusele: “Harja otsimine” ja “Mõõk merest”. Keel ja Kirjandus, 67(3), 238–259, https://doi.org/10.54013/kk795a2
Janicki, Maciej M. & Kati Kallio & Mari Sarv & Eetu Mäkelä 2024: Distributional criteria for identifying formulas in Finnic oral poetry. In Formulaic Language in Historical Research and Data Extraction. International Institute for Social History, Amsterdam, 7.-9.02.2024. Ed. Marijn Koolen. Amsterdam: Huygens Institute for History and Culture of the Netherlands, Royal Netherlands Academy of Arts and Sciences. Zenodo, 1−17, https://zenodo.org/doi/10.5281/zenodo.10478324.
Janicki, Maciej 2023. Large-scale weighted sequence alignment for the study of intertextuality in Finnic oral folk poetry. In: Journal of Data Mining and Digital Humanities, NLP4DH. https://doi.org/10.46298/jdmdh.11390
Kallio, Kati & Maciej Janicki & Eetu Mäkelä & Mari Sarv 2022. Recognizing intertextuality in the digital corpus of Finnic oral poetry: experiment with the Sampo cycle. In: Karl Berglund, Matti La Mela & Inge Zwart (eds.): Proceedings of the 6th Digital Humanities in the Nordic and Baltic Countries Conference (DHNB 2022). CEUR Workshop Proceedings 3232: 279–287. http://ceur-ws.org/Vol-3232/paper26.pdf
Sarv, Mari & Kati Kallio & Maciej Janicki & Eetu Mäkelä 2021. Metric variation in the Finnic runosong tradition: A Rough Computational Analysis of the Multilingual Corpus. In: Petr Plecháč, Robert Kolár, Anne-Sophie Bories, Jakub Říha (Eds.). Tackling the Toolkit. Plotting Poetry through Computational Literary Studies. Prague: Institute of Czech Literature CAS, pp. 131−150. https://doi.org/10.51305/ICL.CZ.9788076580336.09
Kallio, Kati & Mäkelä, Eetu & Janicki, Maciej 2020. Historical Oral Poems and Digital Humanities: Starting with a Finnish Corpus. Folklore Fellows Network 54: 12–18. https://www.folklorefellows.fi/historical-oral-poems-and-digital-humanities/