Kelan tietotarjotinSiirry sisältöön

Tiedonhallinnan blogi: Kun data on väärässä

KirjoittajatTimo Paananen
Julkaistu 29.10.2025Päivitetty 29.10.2025

Kun tekoälylle syötettävä data on virheellistä, vaikutukset voivat olla vakavia erityisesti silloin, kun dataa hyödynnetään laajassa mittakaavassa, kirjoittaa generatiivisen tekoälyn kehityspäällikkö Timo Paananen Kelan IT-innovaatio- ja kasvuyksiköstä. 

Generatiivisten tekoälymallien kouluttamisessa on mitä suurimmassa määrin kyse datan hyödyntämisestä massoina. Koulutukseen käytetty aineisto koostuu miljoonista tekstidokumenteista, kuvista, äänitiedostoista ja muista digitaalisista lähteistä, ja näissä painottuvat eri asiat eri tavoin.

Vaikutuksia voidaan havainnollistaa pyytämällä generatiivisia tekoälykuvageneraattoreita tuottamaan kuva perinteisestä rannekellosta, jonka viisarit osoittavat aikaa 12:03. Samat vaikutukset saadaan näkyviin, kun pyytää tekoälyä tuottamaan kuvan kirjailijasta kirjoittamassa vasemmalla kädellä. Kuvageneraattorit on koulutettu internetistä saatavalla aineistolla, jossa datan painopisteet helposti vääristyvät valtavan massan johdosta. 

Esimerkeissä rannekellojen kohdalla aineiston vääristää suuri määrä ihmismieltä miellyttäviä markkinointikuvia, joissa kellonaika on tasapainoinen – yleensä noin 10:10:35. Vinouma ohjaa kuvageneraattoreita asettamaan kellon viisarit kyseiseen aikaan. Vinoumaa vahvistaa entisestään se, että markkinointikuvat ovat hyvälaatuisia, jolloin tekoälyn on helppo tunnistaa viisareiden asento. Kun kuvageneraattorille muotoilee kehotteita eri tavoin, voi viisarit saada lähelle haluttua asentoa, mutta tällöin kellotauluun yleensä ilmesty ylimäärisiä viisareita osoittamaan "markkinointiaikaa".

Vastaavasti kuvat oikealla kädellä kirjoittavista ihmisistä ovat huomattavasti yleisempiä kuin kuvat vasenkätisistä. Vaikka tämä ei ole varsinaisesti vinouma, sillä on generatiivisen tekoälymallin "ymmärrykseen" iso vaikutus. Lähtökohtaisesti kuvageneraattorit tuottavat aina kuvia oikealla kädellä kirjoittavista henkilöistä. Luovasti promptaamalla on mahdollista saada luotua kuva vasemmalla kädellä kirjoittavasta henkilöstä, mutta se vaatii ekstravaivaa.

Vinouma koskee todennäköisesti kaikkia yleiskäyttöisiä kielimalleja ja niihin pohjautuvia ratkaisuja, sillä ne käyttävät samaa koulutusaineistoa. Pieniä eroja kielimallien välillä kuitenkin on, koska koulutusaineiston lisäksi mallien toimintaan voidaan vaikuttaa mm. Fine-tuning -menetelmillä. Näillä menetelmillä pyritään vaikuttamaan koulutusaineiston painotuksiin ja poistamaan vinoumia.  

Vaikka nämä esimerkit eivät ole merkittäviä tai aiheuta vahinkoa, ne osoittavat kuinka mallit toimivat. Vastaavat vinoumat muissa yhteyksissä voivat olla erittäin haitallisia ja epätoivottuja.  

Euroopassa on havaittu tapauksia, joissa algoritmipohjaisia ratkaisuja on käytetty sosiaaliturvan väärinkäytösten havaitsemiseen, mutta näiden ratkaisujen aineistot ovat olleet vinoutuneita. Tämä on aiheuttanut etuuksien viivästymistä ja lisääntynyttä huolta ja vaivaa osalle hakijoista. Riskit ja vaikutukset kasvavat käyttökohteiden merkittävyyden mukaan. 

Onkin aina syytä muistaa, ettemme tiedä, millaisia vääristymiä käytetyssä koulutusaineistossa on ja millaisia korjaustoimenpiteitä vääristymien estämiseksi on käytetty. Generatiivisen tekoälyn ratkaisut ovat pohjimmiltaan työkaluja, joiden käyttäminen edellyttää uudenlaista osaamista. Ne voivat tuottaa uskottavan oloisia, mutta virheellisiä lopputuloksia. 

Kehitämme Kelassa parhaillaan tekoälyn hallintamallia, jolla mahdollistetaan Kelan ja EU:n arvojen mukainen tekoälyn hyödyntäminen. Hallintamalli tulee sisältämään päivitetyt periaatteet tekoälyn käytöstä ja eettisyyden arvioinnista. Niitä jokainen meistä voi käyttää selkänojana suunnitellessaan tekoälyn hyödyntämistä omassa työssään. Luoduista turvakaiteista huolimatta meidän on syytä pitää jatkossakin ihminen kuskin paikalla varmistamassa lopputuloksen haluttu laatu. 

Jaa tämä artikkeli

Jaa sivu Facebookiin Jaa sivu LinkedIniin