tulkintakuvitus

Kirjainjonosta tulkinnaksi

Bioinformaatikkojen työmäärä on kasvanut samaa tahtia geenitietomassojen kasvun kanssa.

Ihmisen rakennusohje on tallennettu genomiin neljän emäksen avulla. Tietokoneen ruudulle tulostettuna genomista muodostuu tylsähkö ja vaikeasti luettava listaus neljää kirjainta – A, C, G ja T – eri toistojaksoilla. Eikä se sellaisenaan kerro juuri mitään, sanoo Suomen molekyylilääketieteen instituutin FIMM:n teknologiakeskuksessa ja Huslabissa työskentelevä bioinformaatikko Matti Kankainen.

Bioinformaatikko Matti Kankainen arvioi, että hänen työtään on vaikea tehdä ilman ohjelmoinnin, matematiikan ja biologian osaamista.
kankainen

– Bioinformaatikon tehtävänä on tuottaa tästä tietomassasta tulkintoja ja edesauttaa sen tulkitsemista. Huslabin puolella tutkimme, onko potilaalla emäsmuutos, jolle on olemassa oleva hoito. FIMM:in puolella teemme taas enemmän propellipääasioita ja yritämme löytää uusia yhteyksiä emäsmuutosten ja sairauksien välillä.

Genomidataan liittyvä tutkimus on bioinformatiikan keskeinen tehtäväalue, sillä molemmat ovat kehittyneet rinta rinnan. Kankainen on seurannut kehitystä vuosituhannen vaihteesta alkaen, jolloin hän opiskeli bioinformatiikkaa Kuopiossa. Nuoresta saakka ohjelmoinnista kiinnostuneelle biotieteilijälle uranvalinta oli luonteva. 

– Vuosituhannen alussa tapahtui paljon: julkaistiin ensimmäiset versiot ihmisen genomista ja syntyi tutkimusmenetelmiä ja -protokollia, jotka mahdollistivat tuhansien ja jopa kymmenien tuhansien samanaikaisten mittausten tekemisen. Mahdollisuus generoida suuria datamääriä suhteellisen edullisesti mahdollisti uusien ja suurten biologisten tietoaineistojen synnyn, Kankainen kuvaa. 

– Joskus vuoden 2005 tienoilla tietomäärät kasvoivat moninkertaisiksi suuritehoisten uuden sukupolven sekvensointilaitteiden myötä, ja tiedon määrä kasvaa edelleenkin. Samalla laskentatehon kasvu ja algoritmien kehittyminen ovat mahdollistaneet aikaisempaa luotettavamman tulkinnan.

On myös ymmärretty, että tietokoneiden avulla voidaan parhaimmillaan tehdä yhtä luotettavia päätelmiä kuin ihmiset tekevät. 

– Kuten IT-murroksessa yleensäkin, koneilla korvataan ensin tylsä ja monotoninen työ, ja sitten siirrytään asiantuntijoiden tontille kehittyneen laskennan ja tekoälyn avulla. Tietokone löytää datasta signaalin ja pystyy tekemään aika onnistuneita arvauksia siitä, onko havaittu emäsmuutos lääketieteellisesti merkittävä. Kokenut tutkija pystyy kuitenkin vielä konetta parempaan tulokseen.

Parempia laitteita ja algoritmeja

Se, että tietoa pystytään prosessoimaan, on vaatinut paljon työtä ja uusia oivalluksia siitä, miten tietoa haetaan ja käsitellään, ja miten raakadatasta tunnistetaan merkityksellisiä hahmoja. 

– Algoritmien nopeutuminen on ollut todella hurjaa. Vielä 2–3 vuotta sitten ihmisen genomin sekvenointiin, analysointiin ja emäsmuutosten tunnistamiseen olisi tarvittu viikkoja. Nyt sama onnistuu parantuneiden algoritmien ja tietokoneohjelmien ansiosta päivissä, Kankainen kertoo.

– On suorastaan fantastista, miten bioinformaatikot ovat pystyneet löytämään uusia algoritmeja, hakumuotoja ja rakenneratkaisuja, joilla kenttää on viety eteenpäin.

Genomidata eroaa perinteisestä tilastollisesta datasta siinä, että muuttujia on todella paljon, mutta näytteitä yleensä vähän. Perinteisesti tilastotieteessä tutkitaan yleensä isosta joukosta mittauksia yhtä tai kahta asiaa. 

– Kun tilastotieteen perusopit eivät toimineetkaan enää tällaisella biodatalla, tutkijat ovat joutuneet etsimään aivan uusia lähestymistapoja. Itse asiassa nyt hyödynnetään monia jo 1960-luvulla keksittyjä ja välillä unohduksissa olleita periaatteita. Olemme paljosta velkaa esimerkiksi puheentunnistukselle ja hahmontunnistukselle yleisemmin.

Toki myös teknologia on kehittynyt. Kankainen muistuttaa, että tekoäly ja nopean algoritmiikan perusteet ovat olleet pitkään olemassa, mutta vasta rinnakkaislaskennan kehitys mahdollisti nykyiset sovellukset.

Genomisen tiedon määrän jatkuvasti kasvaessa suuri osa maailmankaikkeuden tiedosta voi tulevaisuudessa olla genomitietoa – viimeistään silloin, kun jokaisen genomi on tallennettu tietokantoihin. 

– Aikanaan siirrytään myös todennäköisesti henkilökohtaiseen hoitoon, joka perustuu itse kunkin omaan perimään, Kankainen sanoo. 

– Tiettyjen tautien hoidossa, kuten rintasyövissä, emästieto on jo nyt hyvin merkityksellinen. Toisaalta on tauteja, joista tiedetään, että ne periytyvät, mutta ei tiedetä, missä kohtaa genomia emäsmuutos sijaitsee. Tuottaisi joka tapauksessa valtavia säästöjä, jos tautien ehkäisy ja hoito voitaisiin aloittaa jo ennen niiden puhkeamista. •

Luen seuraavaksi Bioinformatiikka ja geenitutkimus 3/4 tästä.

teksti: Jussi-Pekka Aukia • henkilökuva: Jussi-Pekka Aukia

 

 

Anna palautetta

Viesti välitetään sähköpostilla sivuston ylläpitäjille. Sitä ei julkaista.

Anna palautetta

Viesti välitetään sähköpostilla sivuston ylläpitäjille. Sitä ei julkaista.