Tekoäly muuttaa maailmaa – myös arkistoaineistojen julkaisemista

Olen viime aikoina jutellut paljon tekoälyn kanssa. Nimittäin ensi vuonna julkaisemme digitaalisen edition Suomalaisen Teatterin perustajien Kaarlo ja Emilie Bergbomin kirjeenvaihdosta. Kaarlon ja Emilien lähettämien kirjeiden litteraatiot on jo tehty aiemmin Pentti Paavolaisen johdolla. Kirjeitä on varsin paljon, noin 2 500. Päätin siis kokeilla, osaisiko ChatGPT auttaa niin, että aivan kaikkea ei tarvitsisi tehdä käsin.

Kirjeiden litteraatiot ovat isoina Word-tiedostoina, kunkin vuoden kirjeille oma tiedostonsa. Jokaisen kirjeen alussa on perusmetatiedot lihavoidulla tekstillä: arkistolähde eli ”SKS/KiA”, sijainti kirjekokoelmassa, signum, lähettäjän ja vastaanottajan alkukirjaimet ja päiväys. Ensimmäinen tehtävä oli jakaa isot Word-tiedostot yksittäisiin kirjeisiin. Niinpä annoin ChatGPT:lle Emilie Bergbomin vuoden 1863 kirjeiden tiedoston ja avasin keskustelun:

Hei, jakaisitko tämän liitteenä olevan docx-tiedoston yksittäisiin tiedostoihin siten, että kukin niistä alkaa lihavoidusta ’SKS/KiA’-tekstistä.

ChatGPT hoiti tehtävän mallikkaasti. Seuraavaksi uudet tiedostot piti kääntää TEI-muotoiseksi XML:ksi. TEI on nimenomaan käsikirjoituseditioita varten luotu XML:n standardi, jonka avulla käsikirjoituksen metatiedot ja tekstisisällön voi ilmaista rakenteistetussa, koneluettavassa muodossa. Annoin tekoälylle yhden kirjetiedoston ja pyysin:

Tekisitkö tästä liitteenä olevasta kirjeestä yksinkertaisen TEI-tiedoston.

Tuloksena oli täysin oikean muotoinen TEI-tiedosto, jossa kaikki metatiedot olivat oikeilla kohdillaan. TEI-tiedoston metatieto-osio kaipasi kuitenkin vielä täydennystä Kaarlon ja Emilien kirjeiden metatiedot sisältävästä excelistä. Annoin ChatGPT:lle metatietoluettelon ja pyysin:

Ole hyvä ja etsi liitteenä olevasta metatietoluettelosta oikea rivi kirjeen signumin perusteella ja rikasta TEI-tiedoston metatieto-osio riviltä löytyvillä tiedoilla.

Tämän jälkeen TEI-tiedosto olikin pieniä viilauksia vaille valmis. Tässä vaiheessa palautui elävästi mieleen Elias Lönnrotin kirjeenvaihdon julkaisuprojekti vajaa kymmenen vuotta sitten, jolloin jokaisen kirjeen XML-tiedosto piti koodata alusta saakka vaivalloisesti käsin. ChatGPT myös ehdotti itse jotain, mistä Lönnrot-projektissa vain haaveiltiin: henkilön- ja paikannimien merkitsemistä kirjeen tekstissä ja niiden listaamista metatieto-osiossa TEIn tarkoitukseen suunnitellussa rakenteessa. Kun nimet on merkitty, niistä saa helposti kirje-editioon esimerkiksi henkilöluettelon, jonka avulla voi suodattaa kirjeluetteloa.

Bergbomien litteraatiotiedostojen työstäminen on vasta aluillaan, mutta tässä vaiheessa on jo selvää, että tekoäly on todella tehokas apuväline kirjejulkaisuprojektissa. Se säästää valtavasti vaivaa rutiininomaisessa ja toisteisessa XML:n koodaamisessa.  Paljon vaivaa säästää myös se, että samaan keskusteluun voi palata myöhemmin. Tekoälylle voi yksinkertaisesti antaa uuden kirjeen ja pyytää sitä prosessoimaan se samoin kuin aiemmin. ChatGPT on myös vain yksi monista tekoälyalustoista. Alustavien kokeilujen perusteella Claude AI vaikuttaisi olevan vielä parempi kirjejulkaisun aineistojen työstämisessä: ChatGPT koodasi kirjeen metatiedot sinänsä oikein, mutta Claude AI esimerkiksi valitsi lähettäjä- ja vastaanottajatiedoille nimenomaan kirjeitä varten luodun TEIn rakenteen.

Tekoäly ei toki kokonaan poista käsin tehtävää työtä. ChatGPT tunnistaa erisnimet oikein eikä sekoita henkilön- ja paikannimiä. Kirjeissä on kuitenkin se ongelma, että niissä useimmiten viitataan perheenjäseniin ja läheisiin ystäviin pelkästään etunimillä tai lempinimillä, muihin henkilöihin sukunimillä. Ihmiskäyttäjän vastuulle jää yrittää päätellä oikea henkilö kontekstista ja täydentää tiedot. ChatGPT:n ehdotettua nimien merkitsemistä kävi myös niin, että nälkä kasvaa syödessä: käyttäjille olisi vielä hyödyllisempää, jos kunkin nimen kohdalla saa esiin henkilön tiedot ponnahdusikkunassa. Tätä varten tiedot on koodattava TEI-tiedostoihin. Tekoäly osaisi varmasti monissa tapauksissa muotoilla lyhyen kuvauksen (ChatGPT ehdotti itse linkittämistä auktoriteettitietoihin kuten VIAF:iin), mutta ihmiskäyttäjän täytyy joka tapauksessa vähintään tarkistaa, että tiedot pitävät paikkansa.

Ihmiskäyttäjän vastuulla on ylipäänsä tarkistaa, että tekoälyn tuotokset ovat niin kuin kuuluu. ChatGPT:llä on esimerkiksi taipumusta ottaa TEI-tiedostoon mukaan vain kirjeen alku ja loppu tai tehdä tekstiin muutoksia, jos ei nimenomaan painota, että tarvitaan koko teksti sanatarkasti, muuttamatta mitään.   

Ihmisen vastuulla on myös, että tekoälyä käyttäessä ei riko tietosuojaa. Bergbomien kirjeenvaihdon tapauksessa tätä ongelmaa ei ole, koska kaikki kirjeissä esiintyvät henkilöt ovat syntyneet reilusti yli 100 vuotta sitten. Erityisesti SKS:n arkiston puolella kuitenkin käsitellään usein tietosuojan alaisia aineistoja. Tällaisia aineistoja ei voi ladata julkisessa verkossa olevaan tekoäly-ympäristöön.

Kaikkialla on suuri huoli siitä, miten tekoälyn käyttö vaikuttaa ihmisen ajatteluun ja luovuuteen. Lähipiiriin kuuluva ihminen tuumi taannoin, että kohta ei tarvitse osata itse kirjoittaa, kun tekoälyä voi pyytää muotoilemaan tekstin sanelusta. Kirjoittamisella on tunnetusti tiivis yhteys ajatteluun: se auttaa jäsentämään ja analysoimaan omia ajatuksia. Tämän tietää kertoa myös Googlen tekoäly, kun hakuun kirjoittaa sanaparin ”kirjoittaminen ajattelu”. Missä vaiheessa ollaan siinä, että tekoäly ei olekaan enää pelkkä tekstin siistijä vaan se hoitaa myös nämä ajatteluun olennaisesti kuuluvat prosessit?

Monien vastaus tekoälyn tuomiin haasteisiin voi olla, että tekoälyä ei pitäisi käyttää missään olosuhteissa. Itse olen taipuvainen ajattelemaan, että tekoälyä ei kannata olla käyttämättä. Monilla aloilla sillä on jo saavutettu merkittäviä asioita. Esimerkiksi lääketieteessä tekoälystä on tullut tärkeä diagnosoinnin apuväline. Ja kuten jo tämänkin julkaisuprojektin alkuvaiheissa on tullut selväksi, se nopeuttaa valtavasti rutiininomaisia tehtäviä. Oleellista lienee se, miten tekoälyä käyttää. Esimerkiksi on väliä, sanooko ChatGPT:lle ”Kirjoitin tämän tekstin aiheesta X, miten muokkaisit sitä sujuvammaksi?” vai ”Kirjoitatko tekstin aiheesta X.” Edellisessä tapauksessa aloite pysyy kirjoittajalla, jälkimmäisessä se siirtyy tekoälylle. Omaa ajattelua voi suojella pyrkimällä varmistamaan, että tekoäly pysyy nimenomaan apulaisena rutiinitehtävissä – tukiälynä.

Kommentoi ja keskustele

Tähdellä * merkityt kentät ovat pakollisia.

Maria Niku

Maria Niku työskentelee asiantuntijana SKS:n tiedekustantamossa. Hän vastaa arkistoaineistoon perustuvista ja erilaisissa hankkeissa syntyvistä digitaalisista editioista. Taustaltaan Niku on historioitsija ja tietojenkäsittelytieteilijä.

Vähäisiä lisiä- blogin tunnus

Marian blogikirjoituksia

Uutiset ja puheenaiheet

12.12.2025 - Blogi

Arkistopedagogiikkaa taiteen keinoin

11.12.2025 - Uutiset

Ehdota jäseniä SKS:n valtuuskuntaan

11.12.2025 - Kirjatiedotteet

Syrjäseuduilla on elämää väestökadon jälkeenkin – uutuuskirja kohdistaa katseen pohjoiskarjalaisten Sivakan ja Rasimäen kylien arkeen