Kognitiivisen tietojenkäsittelyn merkitys kasvaa, kun luonnollista kieltä halutaan yhä enemmän analysoida koneellisesti. Tämä onkin yksi mielenkiintoisimmista Big Data -analytiikan käyttötapauksista. Haastattelimme IBM BusinessConnect -juttusarjassamme Enfo Rongon Big Data -tiimin Aleksi Volasta.

 

Mitä kognitiivinen tietojenkäsittely big datan analysoinnissa tarkoittaa?

‒ Aiemmin Big Data -toteutuksissa keskityttiin datamassojen kustannustehokkaaseen hallintaan ja järjestelmien skaalautuvuuteen. Kognitiivisuus tuo uuden tavan analysoida ja hyödyntää isoja datamassoja, Volanen kuvaa.

”Kognitiivisuus tuo uuden tavan analysoida ja hyödyntää isoja datamassoja.”

Volanen näkee, että menetelmän suurin potentiaali liittyy nimenomaan kirjoitetun tekstin analysointiin. Tekstianalytiikka on kognitiivista tietojenkäsittelyä yksinkertaisimmillaan: sen avulla voidaan poimia ja luokitella informaatiota tekstidatasta, minkä ansiosta tekstianalytiikka soveltuu hyvin esimerkiksi palvelinten lokitietojen analysointiin.

‒ Keksintö ei ole uusi, mutta kehitystyökalut alkavat saavuttaa tason, jolla kaupalliset toteutukset syntyvät tehokkaasti. Tekstianalytiikkaa voidaan alkaa tehdä periaatteessa lähteestä kuin lähteestä.


Voisitko nostaa esille jonkin käytännön toteutuksen, jossa kognitiivista tietojenkäsittelyä on hyödynnetty?

‒ Olemme työskennelleet suomalaisen startupin Blueprint Geneticsin kanssa, joka esiintyy myös IBM Business Connectissa. Yritys tarjoaa geenitestauspalveluita esimerkiksi perinnöllisten sairauksien selvittämiseen. Blueprint Genetics pystyy geenien analysointia automatisoimalla tarjoamaan palveluita huomattavasti aiempaa tehokkaammin sekä kustannus- että volyymimielessä.

Geenitestauksen hinta on aiemmin ollut tuhansia euroja. Tavoitteena on tarjota testauspalvelua yhä halvemmalla ja nopeammin, jolloin myös volyymi tulee kasvamaan reilusti.

 

Miten kognitiivista tietojenkäsittelyä hyödynnettiin Blueprint Geneticsin kanssa?

‒ Enfo Rongo toteutti Blueprint Geneticsin kanssa ratkaisun, joka varsinaisten geenitestitulosten lisäksi seuloo lääketieteellisistä julkaisuista Blueprint Geneticsin kannalta relevantit eli julkaisut, jotka liittyvät geenimuutoksiin ja niistä aiheutuviin sairauksiin. Tässä tapauksessa oppimateriaali tekstianalytiikalle on staattista, koska ihmisen koko genomi tunnetaan ja kaikki tekstianalytiikkaa kiinnostavat geenit ovat tiedossa.

PubMedin tietokanta sisältää kattavasti lääketieteellisiä julkaisuja ja niitä toki julkaistaan jatkuvasti lisää. Tekstianalytiikan avulla PubMedin kymmenistä miljoonista viitteistä poimitaan analyytikoille oleelliset artikkelit ja tiedot. Näin tieto on käytettävissä testituloksia analysoitaessa, kun päätellään havaittujen geenimuutosten relevanssia potilaan sairastumiseen tai alttiuteen perinnöllisiin sairauksiin. Geneetikko hakee siis kognitiivista tietojenkäsittelyä hyödyntämällä tutkimustiedosta vahvistusta omille päätelmilleen.

 

Tekstianalytiikka mahdollistaa laajojen tietomassojen käsittelyn ja analysoinnin.


Mitä työkaluja käytitte?

‒ Ratkaisussa hyödynnettiin IBM:n tuotteita. Tekstianalytiikan toteutuksessa käytössä oli tekstianalytiikkatuote BigInsights Text Analytics ja Watson-brändin tuotteista Watson Explorer. Watson Explorer on hakukonetuote, jossa on hakukonemoottorin lisäksi työkalut modernien selainkäyttöliittymien kehittämiseen.

Enfo Rongolla on myös IBM Watson Exploreriin perustuva tuotteistettu konsepti – Rongo 360⁰, joka tarjoaa yhden käyttöliittymän kaikkiin käyttäjälle relevantteihin tietolähteisiin, Volanen kertoo.

 

Mitä oppeja olet ammentanut yhteistyöstä Blueprint Geneticsin kanssa?

‒ Startupeilla ei luonnollisesti ole uutta teknologiaa kokeiltaessa historian painolastia eikä hirveästi mitään hävittävää. Kun voi tehdä rohkeasti mitä vaan, voi syntyä jotain uutta ja hienoa. Suuryrityksiähän on julkisuudessa monesti innostettu samanlaiseen kokeilukulttuuriin.

Volanen maalailee myös tulevaa:

‒ Blueprint Geneticsin liiketoiminnan ydin ja kilpailuetu on tehokkaasti toimiva analytiikka. Samalla heille kumuloituu valtava massa genetiikkaan liittyvää informaatiota. Oleellista on, että informaation hallinnan alusta kykenee sekä määrämuotoisen että tekstin ja muun rakenteettoman datan käsittelyyn ja analytiikkaan.

”Kilpailuetu syntyy jatkossa kyvystä kerätä, yhdistää ja hyödyntää dataa lukemattomista eri lähteistä.”

‒ Koska perinteisetkin toimialat digitalisoituvat vauhdilla, syntyy kilpailuetu jatkossa kyvystä kerätä, yhdistää ja hyödyntää dataa lukemattomista eri lähteistä omiin ja asiakkaiden tarpeisiin. Tämä on mahdollista joustavasti ja nopeasti vain modernin informaatioalustan avulla.

 

Enfo Rongon ite wiki-profiili

Enfo Rongon kotisivut

 

IBM Business Connect-tapahtuma järjestetään 19.10.2016 Helsingin messukeskuksessa teemanaan The new era of thinking. Tule mukaan verkostoitumaan digitaalisen liiketoiminnan ammattilaisten kanssa!

IBM Business Connect-tapahtuman sivut