Tekoäly ei tarvitse syväoppimista - yksinkertaisemmat mallit tuottavat parempia tuloksia

Jyväskyläläistutkijat yksinkertaistivat tekoälyä 1700-luvun matematiikan avulla. Tutkijoiden mukaan perinteiset matemaattiset optimointimenetelmät toimivat yksinkertaisen tekoälyn kouluttamisessa paremmin, kuin 2000-luvulla kehitetty syväoppiminen. Yksinkertaisempi tekoäly on myös eettisesti ja ympäristöllisesti kestävämpi.
Tutkijoiden mukaan muun muassa ChatGPT:n käyttämät syväoppimismallit ovat raskaita ja vaikeasti hahmotettavia. Kuva: Mostphotos
Julkaistu
17.7.2023

Tekoälyn viimeaikainen menestys perustuu keskeisesti yhteen koneoppimistekniikkaan: syväoppimiseen. Syväoppimisella tarkoitetaan sellaisia tekoälymenetelmiä, jotka hyödyntävät lukuisia neuroverkkokerroksia ja massiivisten aineistojen prosessointia, jonka avulla verkot ns. opetetaan eli saatetaan käyttökuntoon.

Syväoppimista käytetään erityisesti, kun tietokonetta opetetaan ratkaisemaan vaativia tehtäviä, kuten esimerkiksi tuottamaan uusia sisältöjä, ohjaamaan autoja ja robotteja tai vaikkapa pelaamaan monimutkaisia strategiapelejä. Syväoppimismallit ovat viime aikoina tulleet ihmisille tutuksi esimerkiksi chatGPT:n myötä, vaikka ne ovat käytössä paljon laajemmin.

Professori Tommi Kärkkäinen ja väitöskirjatutkija Jan Hänninen tutkivat Jyväskylän yliopistossa itseoppivia menetelmiä ja saivat kuusi vuotta sitten yllättäviä tuloksia, joiden mukaan syväoppimisen ydintä, monimutkaisia neuroverkkorakenteita, ei välttämättä tarvita. Parempia tuloksia saadaan aikaan yhdistämällä yksinkertaisia verkkorakenteita uudella tavalla.

– Syväoppimismenetelmien käyttö on aina hyvin monimutkainen ja virhealtis savotta. Tämä tekee malleista väistämättä raskaita ja vaikeasti hahmotettavia. Uusi neuroverkkojen mallimme on ilmaisuvoimaisempi ja pystyy merkittävästi tiivistämään laajoja tietoaineistoja, Kärkkäinen kuvailee tutkimustuloksia.

Uuden tekoälyn rakenne pohjautuu 1700-luvun matematiikkaan. Kärkkäisen ja Hännisen mukaan myös perinteiset 1960- ja 1970-luvuilla esitetyt matemaattiset optimointimenetelmät toimivat yksinkertaisemman tekoälyn opettamisessa jopa paremmin kuin 2000-luvun syväoppiminen.

– Tulostemme perusteella neuroverkkojen soveltamisesta erilaisiin tehtäviin tulee entistäkin helpompaa ja luotettavampaa, toteaa väitöskirjatutkija Hänninen.

Yksinkertaisemmat mallit tarkoittavat eettisempää ja vihreämpää tekoälyä

Kärkkäinen ja Hänninen kertovat, että yksinkertaisempi verkkorakenne mahdollistaa helpomman käyttöönoton ja paremman ymmärrettävyyden. Tekoälystä on tullut osa lähes kaikkea modernia teknologiaa ja siksi on tärkeää ymmärtää, mitä ja millä tavalla se tekee asioita.

– Mitä läpinäkyvämpi ja yksinkertaisempi tekoäly on, sitä helpompaa on tarkastella sen käytön eettisiä näkökulmia. Vaikkapa lääketieteen sovelluksissa syväoppimismalleja ei voida laajasti hyödyntää, koska potilasturvallisuutta ei voi varmasti arvioida, Kärkkäinen toteaa.

Tutkijat nostavat esille myös sen, että yksinkertaisemmat mallit säästävät resursseja eli kuluttavat esimerkiksi vähemmän sähköä ja ovat näin ympäristöystävällisempiä.

Tutkijat ovat kokeneet, että valtavirran käsityksistä poikkeavan tutkimuksen julkaiseminen on ollut vuosia kestävä tuskaisa prosessi.

– Syväoppiminen on ollut tutkimuksessa, kehityksessä ja liiketoiminnassa keskeinen tekniikka jo pidemmän aikaa. Tuntuu, että valtavirtaa vastaan uiminen on tieteessäkin haastavaa, kun kuuluisat tutkijat ja heidän verkostonsa puolustavat omia tutkimusintressejään.

Nyt jyväskyläläistutkijoiden artikkeli on julkaistu neurolaskenta-alan korkeatasoisessa Neurocomputing-julkaisusarjassa.

– Odotamme mielenkiinnolla, miten tulokset otetaan vastaan tiedeyhteisössä ja koneoppimismenetelmien hyödyntäjien parissa teollisuudessa. Itse otamme uudet menetelmät käyttöön ainakin resurssiviisaan vetytalouden, älykkäiden oppimisen ympäristöjen sekä luotettavan terveys- ja hyvinvointiteknologian monitieteisissä kehityshankkeissamme, Kärkkäinen summaa.

³¢¾±²õä³Ù¾±±ð³Ù´ÇÂá²¹

Tommi Kärkkäinen
Professori, Informaatioteknologian tiedekunta
tommi.karkkainen@jyu.fi
+358 40 8054896

Jan Hänninen
³Õä¾±³Ùö²õ°ì¾±°ùÂá²¹³Ù³Ü³Ù°ì¾±Âá²¹
jan.p.hanninen@jyu.fi

Julkaisutiedot

Kärkkäinen, T., & Hänninen, J. (2023). Additive autoencoder for dimension estimation. Neurocomputing, 126520.