Artikkeli on yli 4 vuotta vanha

Kansalliskirjastossa meneillään historiansa suurin yhteistyöprojekti: kaikki Suomessa julkaistut ruotsinkieliset lehdet digitoidaan

Digitointityö tehdään Mikkelin yksikössä ja tarkoituksena on digitoida liki kuusi miljoonaa ruotsinkielistä sanomalehtisivua.

Kansalliskirjasto digitointi- ja konservointikeskus Mikkelin Pursialassa.
Kuva: Esa Huuhko / Yle
  • Juho Liukkonen

Kansalliskirjastossa toteutetaan parhaillaan sen historian suurinta yhteistyöprojektia, jossa digitoidaan kaikki Suomessa julkaistut ruotsinkieliset sanomalehdet.

Työ toteutetaan pääasiallisesti Kansalliskirjaston Mikkelissä sijaitsevassa digitointiyksikössä.

Projektin on määrä päättyä vuonna 2023. Tuolloin digitoituna on liki kuusi miljoonaa ruotsinkielistä sanomalehtisivua. Projekti työllistää arviolta noin kymmentä henkilöä.

Kansalliskirjasto on digitoinut kolmivuotisen projektin aikana ruotsinkieliset sanomalehdet 1940-luvun loppuun asti.

Osaan digitoitavasta aineistosta voi tutustau kotikoneilta käsin Kansalliskirjaston omissa verkkopalveluissa. Osaan digitoidusta aineistosta voi tutustua ainoastaan esimerkiksi vapaakappalekirjastoissa tekijänoikeusrajoitusten vuoksi.

Palvelupäällikkö Hanna Arpiainen Kansalliskirjastosta kertoo, että myös suomalaista lehdistöaineistoa digitoidaan rinnalla.

– Hyvä tavoite olisi, että suomenkielinen lehdistö saataisiin digitoitua. Perustyönä tehdään suomenkielisiäkin lehtiä, mutta määrä niissä on valtava. Olemme 1940-luvulla digitoimassa niitä. Digitoitavaa riittää vielä useiksi vuosiksi.

Tekoäly apuun tutkijoiden työssä

Digitoinnin yhteydessä myös tehdään tekstintunnistusta aineistolle. Näin pystytään helpottamaan tutkijoiden työtä ja tiedon etsintää merkittävästi.

– Tekoälyn avulla voidaan entistä paremmin tunnistaa digitoidusta aineistosta teksti koneluettavassa muodossa. Tekstistä pystytään tekemään sitten automaatihakuja. Voidaan lisätä rakenteistusta tai poimia artikkeleita sanomalehdistä erilleen niin, että voidaan tehdä niihin tilastollisia tarkasteluja, Kansalliskirjaston tietojärjestelmäasiantuntija Juha Rautiainen kertoo tekoälyn mahdollisuuksista.

– Jos verrataan menneeseen, niin silloin mikrofilmilaitteella etsittiin lehdistä asioita. Tiedon löytäminen edellytti, että tutkimusavustajan on pitänyt käydä jokaikinen lehtisivu läpi ja katsoa löytyykö lehdestä haettua asiaa. Nyt vastaava työ pystytään tekemään koneellisesti muutamassa silmänräpäyksessä.

Tulevaisuudessa tekoälyn avulla myös arkiston aineistoseulonnasta voi tulla entistä helpompaa.

– Sitten kun mennään asioissa eteenpäin, niin voidaan jopa päästä kiinni siihen minkäsävyisiä kirjoituksia on tehty.