Tulevaisuuden verkko opettaa koneet älykkäiksi
”Perinteinen hakukone on lähtökohtaisesti tyhmä kuin saapas”, toteaa professori Eero Hyvönen. Internetin hakuohjelmat tarjoavat sekalaista tietoa ymmärtämättä mitään sen merkityksestä. Käyttäjä joutuu itse päättelemään, onko tarjottu tieto sisällöltään sopivaa. Tietokonetta voi kuitenkin opettaa viisaammaksi.
Hakukoneet käsittelevät tietoa merkkijonoina ymmärtämättä tiedon sisältöä. Ne eivät osaa erottaa toisistaan samannimisiä henkilöitä, kirjoja, paikkoja tai bändien nimiä.
- Löydetyt dokumentit hakukoneessa arvotetaan sen mukaan missä ne on julkaistu, ja miten paljon niihin tehdään muualta viittauksia. Se, miten tämä tarkkaan ottaen tapahtuu, on hakukoneyhtiöiden suuri salaisuus, kertoo tiedonjulkistamisen valtionpalkinnolla palkittu professori Eero Hyvönen.
Hakutulosten järjestys vaihtelee jopa samalla hakukoneella päivästä toiseen niin, että eri päivinä samat hakutulokset voivat olla eri järjestyksessä.
- Tämä johtuu siitä, että yritykset yrittävät saada erilaisia kaupallisia tiedotteita hakukoneiden prioriteettilistan kärkeen, Hyvönen selventää.
Sekä hakukoneiden että internetin perusominaisuuksissa on runsaasti parannettavaa.
- Perinteinen hakukone on lähtökohtaisesti tyhmä kuin saapas. Joskin näiden järjestelmien kehittämiseen panostetaan jatkuvasti valtavia summia rahaa, ja edistystä tapahtuu koko ajan. Toisaalta webissä oleva tieto on esitetty todella tyhmästi merkkijonoina niin, että sisältöjen ymmärtäminen on tietokoneelle hyvin vaikeaa. Sen takia hakutuloksiin tulee ensin usein mukaan roskaa, ja toisaalta sitten nämä kultahippuset saattavat jäädä löytymättä vaskoolin pohjalta, Hyvönen tuskailee.
Muutos on tapahtumassa
Tietokoneet tarvitsisivat maalaisjärkeä, jotta ne pystyisivät käsittelemään tietoa älykkäästi.
- Koneen pitäisi ymmärtää, että Aristoteles on filosofi. Toisaalta se on myös kraatteri kuussa, hotelli Ateenassa ja sillä on varmasti hyvin monta muutakin merkitystä maailmassa. Sekin pitäisi ymmärtää, että kantapää on ihmisen osa. Mutta kun yhdistetään Aristoteles ja kantapää, saadaankin tämä radio-ohjelma. Tällaista tietoa koneisiin pitäisi saada, jotta ne pystyisivät käsittelemään dokumentteja fiksusti, kuten ihmiset tekevät, professori Eero Hyvönen pohtii.
Semanttinen web on kuin sipuli.
Eero Hyvönen
Tilanne on kuitenkin muuttumassa. Maailmalla on käynnissä valtavia kansainvälisiä hankkeita. Tietoa kerätään ja järjestetään jättiläismäisiksi datapilviksi, jossa kaikkea maailman tietoa yritetään linkittää toisiinsa.
- Siellä on miljardeja tietojen välisiä yhteyksiä tällä hetkellä avoimesti verkosta saatavilla. Ajatuksena on, että tämäntyyppisen työn kautta tietokoneelle vähitellen syntyy laajempi ymmärrys siitä, millaisia asioita tässä maailmassa oikeastaan on, ja hakukoneet pystyvät sitten hyödyntämään tällaista verkkomuotoista tietoa paremmin tiedonhaussa ja erilaisissa älykkyyttä vaativissa tehtävissä, Hyvönen kertoo.
Kyseessä on semanttinen web, joka on seuraavan polven älykäs WWW. Ajatuksena on tallettaa tieto webiin sellaisessa hyvin määritellyssä muodossa, että koneet kykenevät ymmärtämään tiedon merkityksen eivätkä ainoastaan välittämään tietoa, kuten nykyään. Jos tietoa voidaan koneellisesti tulkita, tulee mahdolliseksi ohjelmoida aiempaa olennaisesti älykkäämpiä sisältöperustaisia web-palveluja.
- Semanttinen web on kuin sipuli. Päällä on ihmisten ymmärtämä dokumenttien verkko, jossa hiirtä napsuttelemalla voi siirtyä dokumentista toiseen, ja sisälle on rakentunut varsinainen tieto, jota kone pystyy ymmärtämään. Esimerkiksi, että harakka on lintu, ja Pasila sijaitsee Helsingissä, Hyvönen luettelee.
Semanttinen web ei syrjäytä vanhaa verkkoa
Ihmiselle semanttinen web näyttäytyy ainakin alkuvaiheessaan saman oloisena kuin nykyinen web. Tiedonhakuun on tarjolla toisaalta hakukoneita, toisaalta mahdollisuus samoilla sivustoissa linkkejä seuraten. Erotuksena aiempaan on kuitenkin näiden palveluiden ”semanttisuus”. Hakupalveluiden osalta tämä merkitsee esimerkiksi sitä, että haku voidaan tehdä hakusanojen sijasta sanojen taustalla oleviin käsitteisiin perustuen, jolloin tiedonhaussa päästään parempaan saantoon ja tarkkuuteen.
- Käytännössä työtä tehdään niin, että erilaisista tietolähteistä, esimerkiksi museoiden tietokannoista, arkistoista, kirjastoista ja erilaisista julkisista datalähteistä yritetään kerätä tietoa. Näistä rakennetaan tiedon verkkoa julkaisemalla isoja tietojoukkoja vapaasti verkossa sillä tavalla, että niitä voidaan ruveta käsittelemään ja yhdistelemään toisiinsa, Hyvönen kertoo.
- Toinen tapa tämän semanttisen verkon rakentamisessa on kerätä tietoa webbisivuista. On olemassa automaattisia järjestelmiä, jotka pyrkivät ihmisen tapaan ymmärtämään nettidokumentteja. Esimerkiksi Wikipedian erikielisistä versioista on louhittu tietokoneen avulla puhtaasti ja täysin automaattisesti jättiläismäinen 350 miljoonaa tietojenvälistä yhteyttä sisältävä verkko.
Semanttinen web ei syrjäytä vanhaa dokumenttien verkkoa.
- Uudet semanttiset ominaisuudet rakennetaan vanhan perustan päälle, Hyvönen kertoo.
Suurten firmojen ja pienten tekijöiden yhteistyö toimii
Kyseessä on laaja hanke, joka ei tule koskaan täysin valmiiksi.
- Vaikka on selvää, että kaikkea tietoa ei koskaan pystytä formaalisti esittämään, on silti mahdollista esittää ainakin selkeimmät osat ihmiskunnan tietämyksestä, jolloin kone pystyy käyttämään niitä hyväkseen. Vähitellen tietoa saadaan esitettyä yhä täsmällisemmin, ja sillä tavalla asteittain verkon älykkyys ja tietojenkäsittelyvoima paranevat tulevaisuudessa, professori Hyvönen kertoo.
Mukana kehitystyössä ovat niin suuret internetyhtiöt kuin tieteelliset pienemmät ryhmät yliopistoissa kautta maailman.
- Verkko- ja webkulttuurihan on hyvin paljon lähtöisin tällaisesta idealistisesta hengestä, ja esimerkiksi internetin järjestelmät, ohjelmistot ja tietovarannot, ovat hyvin usein avointa dataa. Mukana on siis hyvin vahva filosofinen eetos maailman tiedon keräämiseen ja julkaisemiseen ilmaiseksi. Webin voima perustuu suurelta osin siihen, että tehdään asioita yhdessä, Hyvönen kiittelee.
Web-teknologialla tehdään valtavia omaisuuksia. Professori Eero Hyvönen myöntää, että semanttinen web kiinnostaa sen vuoksi erityisesti suuria hakukoneita.
- Esimerkiksi Googlessa on menossa hyvin laajoja hankkeita nimenomaan semanttisen webin kehittämiseksi ja hyödyntämiseksi. Yhtiö osti muutamia vuosia sitten Freebase-nimisen järjestelmän, ja nyt he ovat integroineet sen oman hakukoneensa ytimeen.