10.6.2022: Puutteellista data-aineistoa voidaan ryhmitellä ohjelmistotyökalulla (Niemelä)

Klusterointi ja klusteroinnin validointi ovat keskeisiä menetelmiä tiedonlouhinnassa ja osana tietämyksen muodostamisprosessia. Reaalimaailman sovelluksissa puuttuvat arvot ovat yleisiä ja ne jätetään valitettavan usein huomioimatta algoritmikehityksessä. Marko Niemelä tutki väitöskirjassaan klusteroinnin validointia aineistoilla, jotka sisälsivät puuttuvia arvoja.
Marko Niemelä
Julkaistu
10.6.2022

Aineistoissa esiintyy monesti puuttuvia arvoja ja ne hankaloittavat tiedon käsittelyä. Puuttuvia arvoja voi syntyä esimerkiksi vastaamattomista kysymyksistä kyselylomakkeissa tai hetkellisistä katkoksista mittauslaitteissa. Monissa tapauksissa puuttuvia arvoja sisältävät näytteet jätetään huomioimatta.

– Jos puuttuvia arvoja sisältäviä näytteitä ei huomoida, menetetään osa tärkeästä informaatiosta. Niin tiedon ryhmittelyssä, kuin muissakin koneoppimisen menetelmissä, puuttuvia arvoja olisi oleellista pystyä käsittelemään oikeaoppisesti, kertoo Niemelä.

Klusteroinnilla tarkoitetaan datanäytteiden ryhmittelyä toisistaan poikkeaviin ryhmiin eli klustereihin. Ryhmittelyssä pyritään siihen, että näytteet ovat keskenään samankaltaisia ryhmän sisällä ja erikaltaisia verrattuna toisen ryhmän näytteisiin. Klusterointi on ohjaamattoman oppimisen menetelmä ja näin ollen tulostietoja näytteiden oikeista ryhmistä ei ole etukäteen saatavilla. Usein myös ryhmien lukumäärä on tuntematon. Sisäiset klusterivalidointi-indeksit ovat mittareita, joilla pyritään tunnistamaan klusterirakenteista optimaalinen lukumäärä ryhmille.

Klusteroinnilla suuri määrä sovellutuksia bioinformatiikasta tiedon tiivistämiseen

Väitöskirjatyössä tunnettuja klusteroinnin ja klusterivalidoinnin malleja laajennettiin puuttuville data-aineistoille soveltuviksi. Mallien toiminta perustuu pääsääntöisesti datavektorien välillä laskettuihin etäisyyksiin. Tämän vuoksi monissa puuttuvien arvojen käsittelymenetelmissä huomioitiin etäisyyksien estimointi.

– Klusteroinnilla on suuri määrä käytännön sovelluksia aina bioinformatiikasta tiedon tiivistämiseen ja hakemiseen. Tässä väitöstyössä esiteltiin ohjelmistokokonaisuus, joka tukee toteutettujen menetelmien käyttöä tutkimus- ja kehitystoiminnassa, Niemelä kuvailee.

Osana tutkimusta esimerkiksi analysoitiin koulunsa vasta-aloittaneita lapsia, joilla oli ollut vaikeuksia lukemaan opettelussa. Analysoinnin tueksi lapset pelasivat oppimispeliä, jonka avulla pystyttiin tunnistamaan rajallinen määrä eritasoisia pelaajaprofiileja ja esittämään kaikista yleisimpiä ongelmia kussakin profiilissa.

– Tutkimuksessa tärkeää oli profiloida kaikkein heikoimmin oppivia lapsia, koska heidän kohdallaan kouluopetusta on mahdollista pyrkiä tehostamaan jo varhaisessa vaiheessa alakouluopintoja.

Heikkojen oppijoiden tukemisen lisäksi laajennettuja klusterivalidoinnin malleja voidaan hyödyntää laajasti myös muissa yhteyksissä osana tietämyksen muodostamisprosessia.

Väitöskirja on julkaistu Jyväskylän yliopiston väitöstutkimusten JYU Dissertations -sarjassa, numero 536, Jyväskylä 2022, ISBN 978-951-39-9321-4 (PDF), URN:ISBN:978-951-39-9321-4, ISSN 2489-9003. Linkki julkaisuun:

DI Marko Niemelän laskennallisen tieteen väitöskirjan "Internal Cluster Validation with Missing Data" tarkastustilaisuus.
Vastaväittäjänä professori Pasi Fränti (Itä-Suomen yliopisto) ja kustoksena professori Tommi Kärkkäinen (Jyväskylän yliopisto). Väitöstilaisuuden kieli on suomi.

Yleisö voi seurata väitöstilaisuutta salissa FYS1 (Ylistönrinne) tai verkkovälitteisesti. Linkki Moniviestimen suoraan lähetykseen:

Marko Niemelä kirjoitti ylioppilaaksi Pyhäjärven lukiosta vuonna 2005. Hän aloitti tietotekniikan opinnot Oulun yliopistossa 2007 ja valmistui tietotekniikan diplomi-insinööriksi vuonna 2013. Niemelä on työskennellyt projekti- ja tutkimustehtävissä Jyväskylän yliopistossa vuosina 2014–2016 ja 2019–2022 sekä Niilo Mäki Instituutissa vuosina 2016–2019.