Ihmisoikeusjärjestö Amnesty Internationalin tänään julkaistun selvityksen mukaan suosituimmat generatiiviset tekoälymallit on rakennettu miljardien ihmisten yksityisyyttä loukkaavan massadatankeruun varaan.
Järjestö on analysoinut muun muassa ChatGPT:n, Geminin, Llaman, Midjourneyn, Stable Diffusionin ja DeepSeekin taustalla olevaa datankeruuta. Raportin mukaan tekoäly-yhtiöt keräävät verkosta valtavia määriä henkilötietoja ilman ihmisten suostumusta: miljardien internetin käyttäjien sisältöjä, kuvia ja muuta verkkoaktiivisuutta.
Ongelmana eivät järjestön mukaan ole yksittäiset väärinkäytökset, vaan tapa, jolla generatiivista tekoälyä tällä hetkellä rakennetaan.
Amnesty Internationalin Suomen-osaston tiedotteessa listataan raportin keskeisiä havaintoja. Selvityksessä todetaan, että generatiivinen tekoäly perustuu laajamittaiseen verkkokaavintaan, jossa dataa kerätään automaattisesti esimerkiksi verkkosivuilta ja sosiaalisesta mediasta ilman ihmisten lupaa. Käytännössä lähes kaikki internetin käyttäjät voivat päätyä osaksi tekoälyn koulutusaineistoa. Mukana voi olla myös arkaluonteista dataa, kuten terveyteen tai yksityiseen viestintään liittyviä tietoja.
Amnestyn raportin mukaan yritysten tarjoamat ”opt-out”-mahdollisuudet eivät tosiasiassa suojaa käyttäjiä: jo kerättyä dataa ei poisteta, eikä järjestelmä estä datan päätymistä kolmansien osapuolten aineistoihin.
Verkosta koulutustarkoituksiin kerätty data tuo tekoälymalleihin myös verkossa esiintyvät ennakkoluulot, syrjinnän ja vihapuheen. Selvityksen mukaan tekoäly ei ole neutraali tiedon tuottaja.
Amnesty International vaatii valtioita puuttumaan tekoälyjärjestelmiin, jotka perustuvat laittomaan massadatankeruuseen, ja velvoittamaan yritykset vastuuseen haitallisten käytäntöjen ihmisoikeusvaikutuksista.