Tekoäly avustaa myös luonnontieteilijöitä

14.04.2023 Heikki Jaakkola Valokuvaaja: CSC

Numero 2/2023 Nyt Ilmiöt, tiede ja tutkimus

OpenAI:n julkaisema ChatGPT-tekoäly on saanut monen luonnontieteilijänkin pohtimaan ammatillista tulevaisuuttaan. Luonnontieteen piirissä tekoälyä voidaan hyödyntää monella muullakin tapaa kuin teksteihin liittyvissä tehtävissä. Tekoälyjen luotettavuuden varmistamisessa on vielä paljon työtä, tulokset perustuvat todennäköisyyksiin eivätkä niiden perusteet ole täysin avattavissa.

Yhdysvaltalaisen tekoälytutkimusta tekevän OpenAI:n äskettäin julkaisema avoin tekoäly on saanut monet pohtimaan oman ammattinsa tulevaisuutta. Joukkoon kuuluvat myös luonnontieteilijät.

OpenAI:n esittelemä paketti osaa luoda käyttäjän toiveen mukaan kuvia, ohjelmakoodia ja tekstejä. Eniten huomiota on saanut ehkä viimeksi mainittu kyvykkyys.

Moni luonnontieteilijä joutuu työssään tutkimaan numeerisia aineistoja, joiden myllääminen ei ole OpenAI:n ChatGPT:n vahvinta aluetta. Professori Paavo Ritala LUT yliopistosta toteaakin tähän olevan tarjolla parempia työkaluja. ChatGPT kykenee kuitenkin analysoimaan valtavia tekstimassoja ja luomaan näistä yhteenvetoja myös tutkijoiden avuksi. Ritala näkee näiden tarjoavan tutkijoille alustuksia ja virikkeitä uusien, omien ideoiden perustaksi.

Kajaanissa sijaitsevalle supertietokone LUMIlle myönnettiin arvostettu Vuoden vihreä datakeskus 2023 -palkinto Lontoossa pidetyn Data Centre World -tapahtuman yhteydessä 8.3. Palkinto on osoitus LUMI-datakeskuksen edistyksellisyydestä ja ekologisuudesta maailmanlaajuisestikin vertailtuna. Huippunopean laskentatehon lisäksi LUMI on yksi maailman edistyksellisimmistä alustoista tekoälylle. LUMI-konsortioon (Large Unified Modern Infrastructure) kuuluvat Suomen lisäksi Belgia, Islanti, Norja, Puola, Ruotsi, Sveitsi, Tanska, Tšekki ja Viro.

– Koneen luomat yhteenvedot laajoista aineistosta voivat tehostaa uusien oivalluksien syntymistä ja paljastaa ennen huomaamatta jääneitä yhteyksiä. Tutkijat voivat samalla käyttää ohjelman kirjoittamia tekstejä omien esitystensä pohjana.

Ritala näkee tähän sisältyvän myös riskin. Tutkijoiden oman panoksen ei pitäisi jäädä jatkossakaan vain koneen tuottaman tekstin kevyeksi muunteluksi.

Tutkijoita ajatellen ChatGPT:n, kuten kaikkien tekoälyjen, hyödyllisyyttä määrittelee paljolti se, millaisen ”maailman” ohjelma tuntee. Koneen universumi on ohjelman käyttöön syötetty aineisto; jos materiaali on luonnontieteen näkökulmasta harhaista tai epärelevanttia, ei sen pöyhimisestä ole sanottavaa hyötyä.

OpenAI:n julkaisema ohjelma on suunniteltu laaja-alaisen yleisön käyttöön, ei nimenomaisesti tutkijoille. Lähtökohta on tietysti vaikuttanut myös syöttömateriaalin valintaan.

Nyt julkaistun version kouluttaminen on lopetettu jo muutama vuosi sitten, minkä takia ohjelma ei tunne esimerkiksi uusimpia tutkimuksia. Tilanne olisi toinen, jos ohjelma pystyisi käyttämään syötteenä kaikkea hakukoneiden ulottuvilla olevaa tietoa. Kilpailu tämän toteuttamiseksi onkin maailmalla nyt kovaa. Ritala pitää mielenkiintoisena esimerkiksi Microsoftin uusinta bing -hakukoneen päivitystä, missä selaimeen on liitetty ChatGPT:n toiminnallisuuksia. Samaa yrittää nyt myös Google Bard-tekoälynsä kanssa.

Hakukoneeseen yhdistetyn tekoälyn ulottuvilla olisi tällöin periaatteessa reaaliaikaisesti kaikki verkossa avoimesti julkaistu materiaali. Esimerkiksi opinnäytetyöt, väitökset, tieteelliset artikkelit ja julkaistut tutkimukset. Sekä valtava määrä huuhaata.

Tutkijoiden näkökulmasta laaja-alaisen universumin tunteva tekoäly terävöittäisi oman alan kehityksen seuraamista, mutta altistaisi tulokset harhaiselle materiaalille. Toinen lähestymistapa olisi rakentaa nimenomaisesti luonnontieteilijöiden käyttöön tekoäly, jolle esiteltäisiin vain jonkinlaisen seulan relevantiksi todentamaa materiaalia.

Jonkun pitäisi tällöin määritellä tämä relevanssi, missä Ritala näkee myös riskin. Arvovaltaiset portinvartijat ovat harvemmin luovaa kehitystä tukeva voima. Tieteenkin edistyminen on tarvinnut usein myös sopivan annoksen kaaosta.

– Liian kontrolloitu ja tiukalla seulalla puhdistettu syöte voi johtaa koko järjestelmän itse itseään kiihdyttävään puhdistumiseen ja lopulta kuivumiseen.

Tämän takia Ritala näkee tekoälyn jatkossakin avustavana työkaluna, jolla ei ole asiaa kuskin paikalle.

– Kone voi auttaa laajojen aineistojen tutkimisessa ja esittelyssä, mutta ei ottaa vastuuta päätelmien järkevyydestä.

Sana kerrallaan

Professori Sasu Tarkoma Helsingin yliopiston tietojenkäsittelytieteen osastolta näkee OpenAI:n toteuttaneen ison loikan tekoälyn toteutuksessa, ei niinkään sen teoreettisten perusteiden laajentamisessa. Nyt alan haasteena on kehitellä tekoälyjen rakentamiseen uusia kerroksia, jotka varmentaisivat tulosten luotettavuutta. Ainakin toistaiseksi näihin liittyy ilmeinen satuilun riski.

Tarkomalla on omaakin kokemusta asiasta. Hän pyysi ChatGPT:tä kirjoittamaan alansa tulevaisuutta ennakoivan katsauksen, johon ilmestyi myös Tarkoman itsensä kirjoittama teksti.

– En tosin ollut kirjottanut mitään tällaista, kone oli yhdistänyt nimeni itse tuottamaansa tekstiin.

Näin voi käydä ohjelman luodessa tekstiä sana kerrallaan todennäköisyyksien perusteella. Koneelle tekstin seuraava sana on bittijoukko, joka sopii ohjelman koulutushistorian perusteella todennäköisimmin kontekstiin. Tarkoman esimerkissä alan tutkijan nimi olikin paikalla, jolta se voisi löytyä ”oikeassa” tekstissä.

Tekoälyn toiminta on aina musta laatikko, jonka vasteen perusteet eivät ole täysin avattavissa.

Tulosten luotettavuuden varmistaminen on erittäin vaikea tehtävä, koska kielimalli pystyy pelkästään ryhmittelemään bittejä, ei ymmärtämään merkityksiä eikä logiikkaa. Tämän takia esimerkiksi kompakysymykset ovat ainakin toistaiseksi tekoälylle ylivoimaisia. Kone ei osaa kertoa, mikä on Sebedeuksen poikien isän nimi.

– Tulosten varmentaminen edellyttää kehitystyötä, jossa vanhojen mallien päälle lisätään uusia kerroksia. Suurten kielimallien ja niihin perustuvien tekoälysovellusten toiminta perustuu bittimassojen samankaltaisuuksien vertailuun. Tehtävä on monimutkainen, koska samankaltaisuutta voidaan arvioida useiden eri ominaisuuksien kannalta.

Tulos perustuu näin todennäköisyyksiin, jotka on määritelty laajan koulutusmateriaalin perusteella. Tämän takia tekoälyn toiminta on aina musta laatikko, jonka vasteen perusteet eivät ole täysin avattavissa. Vaikka toimintakonsepti ei ehkä miellytä eksaktia tiedettä kaipaavia, Tarkoma näkee tällä valtavasti potentiaalia myös luonnontieteellisessä tutkimuksessa.

Paljon käyttöä luonnontieteen piirissä

Toimintamalli voi olla tehokas monimutkaisten ja epälineaaristen ilmiöiden ennakoinnissa, missä lopputulemaa on joko mahdotonta tai erittäin raskasta ennustaa tarkan laskennan avulla.

Tarkoman mukaan datatieteen ja tekoälyn menetelmät ovatkin jo laajalti käytössä luonnontieteen piirissä. Hän kertoo hyödyntävänsä itse tekoälyä ilmanlaatumittareiden kalibrointitehtävissä ja kaupunkiympäristön mallintamisessa.

– Ilmakehään liittyvässä tutkimuksessa tekoälyä voidaan hyödyntää esimerkiksi kvanttikemian yhteydessä sekä perinteisessä sään ennustamisessa. Viimeksi mainittu on tukeutunut perinteiseen laskentaan, jonka rinnalle tekoäly tarjoaa nyt uuden työkalun.

Toinen esimerkki löytyy proteiinien laskostumisen ennakoinnista. Deepmind-yhtiön Alphafold -tekoälyn sanotaan kuvanneen lähes kaikkien tunnettujen proteiinien 3d-muodon.

Tarkoma näkee hyödyllisenä kyvykkyytenä myös kuvien tunnistamisen.

– Esimerkiksi satelliittikuvien automaattinen analyysi on tärkeää luonnontieteissä.

Vaikka kielimalleihin pohjautuvien tekoälyjen luotettavuus olisi vielä kyseenalainen, tuloksia voidaan jo hyödyntää esimerkiksi tutkimusprojektien alkuvaiheissa.

– Tekoäly voi poimia virtuaalilaboratoriossa mahdollisten tutkimuskohteiden joukosta ne lupaavimmat tapaukset, jotka kannattaa viedä fyysiseen laboratorioon.

Monet nykyisistä tekoälyistä ovat keskitettyjä, yhden toimijan luomia ohjelmia, jotka on koulutettu suljetun tietovarannon piirissä. Tarkoma näkee lupaavana kehityssuuntana tietovarantojen ja tekoälymallien hajauttamisen.

– Hajautettu toimintamalli voi parantaa tietosuojaa ja turvallisuutta.

Sana kerrallaan

Paljon käyttöä luonnontieteen piirissä

Lataa artikkeli

Luetuimmat 2/2023

Maantieteilijä monitieteisenä johtajana

Työ- ja virkaehtosopimukset loimulaisilla aloilla

Vetytalous: Kolmas kerta toden sanoo