Eliel Aspelin-Haapkylän päiväkirjat ja tekoäly
Suomalaisuusliikkeen toisen polven keskeisiin hahmoihin kuuluneen Eliel Aspelin-Haapkylän päiväkirjoista on aikaisemmin julkaistu otteita (Kirovuosien kronikka, SKS 1980). Eliel Aspelin-Haapkylä: päiväkirjat -verkkojulkaisussa julkaistaan nyt päiväkirja-aineisto ensimmäistä kertaa kokonaisuudessaan: vuosien 1868–1905 merkinnät ja matkapäiväkirjat sekä viisi laajaa päiväkirjaa vuosilta 1905–1917 faksimilekuvineen ja transkriptioineen. Transkriptiot tuotettiin tekoälyä hyödyntävällä Transkribuksella. Päiväkirja-aineiston teksti on kokonaisuudessaan haettavana.
Päiväkirjat ovat lähde yhden kulttuurifennomaanin arkkityypin (Kai Häggman, Sanojen talossa (2012)) laaja-alaiseen toimintaan, jossa kaikki oli osa samaa kansallista projektia. Aspelin-Haapkylä teki tieteellisen uransa taidehistoriassa ja kirjallisuudessa, toimi yli 40 vuotta SKS:ssa ja oli johtotehtävissä useissa muissa yhteisöissä, toimitti lehtiä ja kirjoitti niihin, oli Suomalaisen teatterin ja sen jälkeen Kansallisteatterin johtokunnassa ja oli aktiivinen monissa kansallisissa hankkeissa. Hänen vuosina 1906–1910 ilmestynyt, neliosainen Suomalaisen Teatterin historia -teoksensa on edelleen keskeinen lähde Suomen teatterihistorian tutkimuksessa. Päiväkirjat ovat myös ajankuvaa 1900-luvun alun suurista mullistuksista: vuoden 1905 suurlakosta, eduskunnan perustamisesta, yleisen ja yhtäläinen äänioikeuden voimaantulosta, toisesta venäläistämiskaudesta ja kiivaista puoluepoliittisista kiistoista suhtautumisessa venäläistämistoimiin.
On sanomattakin selvää, että Aspelin-Haapkylän päiväkirjojen kaltainen keskeinen aineisto on tärkeä saada verkkoon ja haettavaksi, tutkijoiden ja laajan yleisön käyttöön. Erityisesti käsin kirjoitettujen historiallisten asiakirjojen tekstintunnistukseen kehitetty Transkribus sai alkunsa vuonna 2016. Sitä seuranneina vuosina vanhojen käsialojen automaattinen tunnistus on kehittynyt huimaavaa vauhtia. Transkribuksen käyttöä on pohdittu SKS:ssa aikaisemminkin, mutta asia tuli ensimmäistä kertaa todella ajankohtaiseksi Aspelin-Haapkylän päiväkirjojen kohdalla. Transkribuksen toiminta perustuu malleihin: tietty osa aineistosta transkriboidaan eli kirjoitetaan auki käsin. Tällä materiaalilla puolestaan opetetaan konetta tunnistamaan kirjoittajan tai kirjoittajien käsiala. Jos aineisto on pieni, tekoälyn käyttäminen ei tuo paljonkaan hyötyä verrattuna koko aineiston transkriboimiseen käsin. Tuhannen sivun laajuisena Aspelin-Haapkylän päiväkirjat ovat niin suuri yhden kirjoittajan aineisto, että Transkribuksen käyttäminen oli järkevää.
SKS haluaa kehittää korkeatasoisia malleja, joita voi hyödyntää monenlaisten käsinkirjoitettujen suomenkielisten aineistojen tulkitsemisessa. Arkistoissa on valtavat määrät vanhaa suomenkielistä aineistoa. Tekoälyn avulla laajoja aineistoja voi tuoda tehokkaasti haettavaksi verkkoon, sekä tutkijoiden että laajemman yleisön käyttöön. Automaattinen tekstintunnistus on tullut käyttäjille tutuksi muun muassa Kansalliskirjaston digi.kansalliskirjasto.fi-palvelussa. Halusimme tutkia, pystyisikö Transkribus tuottamaan Aspelin-Haapkylän päiväkirjoista transkriptioita, jotka olisivat riittävän hyviä hakukoneen sumeisiin hakuihin. Sumeassa haussa tulokset saavat erota haetusta korkeintaan tietyllä merkkimäärällä. Konetranskriptioiden tapauksessa tämä tarkoitti, että yksittäisissä sanoissa saisi olla korkeintaan kahden merkin virheitä.
Ensimmäisessä vaiheessa päiväkirjoista transkriboitiin käsin noin sadan sivun otos tekoälyn opettamista varten. Mallin laatua arvioitaessa keskeinen käsite on CER, character error rate eli merkkikohtainen virheprosentti: malli pystyy (teoreettisesti) tuottamaan tulosta, jossa on CER:in osoittama prosentti merkeistä väärin. Aspelin-Haapkylä-mallin CER oli parhaimmillaan alle viiden. Seuraavassa vaiheessa opetusaineisto liitettiin Kansallisarkiston luomaan Suomi 1870–1917 -malliin. Valtaosan mallista muodostavat Kansallisarkiston suomenkieliset tuomiokirjat 1870-luvulta itsenäisyyden ajan alkuun. Mallin ensimmäisessä versiossa on mukana Aspelin-Haapkylän ohella kansalaisten kirjeitä kenraalikuvernöörille. Kolmannessa vaiheessa Aspelin-Haapkylän päiväkirjat transkriboitiin kokonaisuudessaan Suomi 1870–1917 -mallia käyttäen.
Aspelin-Haapkylä-mallin CER oli todella hyvä. Suomi 1870–1917 -mallin CER on jo hämmästyttävän hyvä: 2,2 %. Tämä ei kuitenkaan tarkoita sitä, että päiväkirjojen konetranskriptioista tuli yli 97-prosenttisesti virheettömiä. Päiväkirjojen kaltaisessa aineistossa on piirteitä, jotka aiheuttavat tekoälylle haasteita. Ensinnäkin ne on usein kirjoitettu usean vuosikymmenen aikana, jolloin käsiala muuttuu kirjoittajan iän myötä ja vaihtuvien kirjoittamisen konventioiden mukana. Toiseksi päiväkirjat on yleensä kirjoitettu itseä varten ja ne ovat siten ”huolimatonta” tekstiä. Aspelin-Haapkylän käsiala on ihmislukijalle varsin selkeää, mutta tarkemmin katsoessa huomaa, että vokaaleja on toisinaan jätetty auki, h- ja k-kirjaimet muistuttavat toisiaan, t-kirjainten viivat eivät aina ole selkeät ja niin edelleen. Ihmislukija osaa tulkita tällaiset säännöttömyydet kontekstissa. Tekoäly ei sen sijaan pysty kontekstissa päättelemään, että samalta näyttävä kirjain on yhdessä tapauksessa a, toisessa u tai kenties n.
Tervetuloa uuteen verkkojulkaisuun tutkailemaan, miten hyvin tekoäly sai selvää Aspelin-Haapkylän päiväkirjojen tekstistä!