Hae it-yrityksiä
osaamisalueittain:

Asiakkuudenhallinta CRM BI ja raportointi HR Tuotekehitys ja suunnittelu Toiminnanohjaus ERP Taloushallinto Markkinointi Webkehitys Mobiilikehitys Käyttöliittymäsuunnittelu Tietoturva Verkkokaupparatkaisut Ohjelmistokehitys Integraatiot Pilvipalvelut / SaaS Tekoäly (AI) ja koneoppiminen Lisätty todellisuus ja VR Paikkatieto GIS IoT Microsoft SAP IBM Salesforce Amazon Web Services Javascript React PHP WordPress Drupal

Esikoulutetuilla kielimalleilla kustannustehokkaita kieliteknologiaratkaisuja

Bloggaus

a.i.materin johtava tutkija Kai Hakala käsittelee artikkelissa sitä, miten nykypäivän kustannustehokkaat kieli- ja puheteknologian ratkaisut perustuvat esikoulutettuihin kielimalleihin ja koneoppimiseen. Miten kielifilosofiasta päädytään käytännön työkaluihin ja miten a.i.mater liittyy avoimesti jaetun FinBert kielimallin kehittämiseen. Lopussa kerrotaan Lahjoita puhetta -hankkeesta, joka mahdollistaa meistä jokaisen osallistumisen suomenkielisten kieliteknologiaratkaisujen eteenpäin viemiseen.

Kaikki lähtee kielifilosofiasta

Yksi kieliteknologian suurimmista haasteista on luoda menetelmiä, jotka ymmärtävät kielen merkityksiä eli niitä ajatuksia ja aikomuksia, joita pyrimme puheellamme ja teksteillämme viestimään. Kielitieteissä ja -filosofiassa sanojen merkityksen sidonnaisuutta kontekstiin on tutkittu paljon, ja osa tutkijoita onkin valinnut näkökulman, jonka mukaan konteksti itsessään kuvaa sanan merkitystä. Esimerkiksi filosofi Ludwig Wittgenstein ja kielitieteilijä J. R. Firth on usein mainittu uranuurtajina kielen käyttötapojen ja merkitysten tutkimuksessa eri toiminnoissa ja ympäristöissä. He molemmat painottivat kontekstin keskeistä roolia merkitysten muodostamisessa ja esittämisessä. Tällainen näkökulma voidaan kiteyttää ajatukseen, että sanan merkitys on sen esiintymiskontekstien summa. J. R. Firth muotoili tämän ajatuksen ytimekkäästi lausahdukseensa “You shall know a word by the company it keeps.” Kieliteknologian kannalta oleellisinta näissä teorioissa on kysymys siitä miten sanan tai virkkeen merkitys voidaan johtaa sen kontekstista.

Nykypäivän kieliteknologia perustuu koneoppimiseen

Kielimallit ovat insinöörimäinen yksinkertaistus näistä kielitieteen ja -filosofian ajatuksista (hieman niin kuin tämä artikkelikin) ja kuvaavat sanojen esiintymistodennäköisyyksiä tietyissä konteksteissa. Sillä kieliteknologia perustuu nykyään vahvasti koneoppimismenetelmiin, oppivat kielimallitkin arvioimaan näitä todennäköisyyksiä koulutusaineiston perusteella. Ne siis ovat oikeastaan Firthin ideaan perustuvia kontekstista johdettuja esityksiä sanojen merkityksistä. Tällä hetkellä trendikkäitä ovat erityisesti neuroverkkoihin perustuvat kielimallit, joskin neuroverkko-termin alle on nykyään upotettu laaja joukko erilaisia koneoppimismenetelmiä.

Koulutusvaiheessa kielimalleille esitetään tekstiä, jossa osa sanoista on piilotettu ja kielimallin on pyrittävä ennustamaan mikä sana kulloinkin tekstistä puuttuu. Perinteisemmät kielimallit ovat keskittyneet ainoastaan toispuoleiseen kontekstiin: ne pyrkivät ennustamaan seuraavaa sanaa, kun edellisten sanojen jono on tunnettu. Nykyään osa kielimalleista on sen sijaan koulutettu tarkkailemaan kontekstia ennustettavan sanan molemmilta puolilta. Tämä harjoitustehtävä on monille meistäkin tuttu kielten opiskelusta ja sitä kutsutaan cloze-testiksi. Alla esimerkkinä yksi cloze-testin kaltainen täydennystehtävä:

Ilona on _______ kehittämä suomenkielinen koneääni, joka on niin _______, että _______ eivät ole tunnistaa sitä koneeksi.

Siinä missä me olemme joutuneet tekemään tällaisia harjoituksia joitakin kymmeniä opiskelu-uriemme aikana, neuroverkkopohjaiset kielimallit harjoittelevat miljoonien ja miljoonien täydennystehtävien kanssa ja oppivat monimutkaisia sanojen riippuvuussuhteita ja kielen rakenteita, joita ne matemaattisesti kuvaavat.

Tässä välissä on hyvä huomauttaa, etteivät Wittgenstein tai Firth ajatelleet sanojen kontekstia ainoastaan niiden ympärillä esiintyvinä sanoina eli sanojen kollokaationa. Sen sijaan kontekstin käsite pitää sisällään koko ympäröivän maailman: sosiaaliset normit, tilan, ajan, vuorovaikutuksessa olevat henkilöt, aistimukset jne. Näin laajan kontekstin hyödyntäminen on kuitenkin nykyteknologian ulottumattomissa, joten toistaiseksi meidän on tyydyttävä ainoastaan tarkastelemaan kirjoitettua kontekstia, joskin esimerkiksi kuvia ja tekstiä yhdisteleviä multimodaalisiakin malleja on jo tutkittu. Tämä toki tarkoittaa sitä, etteivät kielimallimme pysty assosioimaan esimerkiksi sanaa “kuuma” niihin aistimuksiin, joita tunnemme käydessämme saunassa tai juodessamme kupin kahvia, vaan joutuvat tyytymään kuvauksiin tästä tunteesta.

Elmon jälkeen tuli Bert

Edellä kuvatun kaltainen kielimalli ei itsessään ole hyödyllinen kuin hyvin harvoihin käytännön sovelluksiin: lähinnä niihin, joissa on koneellisesti tuotettava uutta tekstiä tai tarkistettava olemassa olevan tekstin oikeellisuutta. Sen sijaan koneoppimismenetelmät pystyvät siirtämään kielimallien oppimaa ymmärrystä kielen rakenteesta uusiin tehtäviin, samoin kuin ihminen voi hyödyntää aiempaa osaamistaan uusia haasteita kohdatessaan. Tällöin uusi tehtävä on opittavissa huomattavasti pienemmän koulutusaineiston perusteella. Koska alkuperäistä kielimallia ei tämän jatkokoulutuksen jälkeen useinkaan enää käytetä, kutsutaan kielimallikoulutusta esikoulutukseksi (engl. pretraining). Sovelluskohtaisen koulutusdatan hankkiminen on monien kieliteknologiaprojektien työläin ja kallein osuus, joten tämän vaiheen minimointi on kustannustehokkuuden kannalta oleellista. Esikoulutus ei taasen vaadi kuin raakatekstiä koulutusaineistokseen.

Kielimallit ovat jo varsin vanha keksintö ja neuroverkkopohjaistenkin kielimallien hyödyntämistä esikoulutuksessa on ehdotettu jo pari vuosikymmentä sitten. Esikoulutus on kuitenkin vakiinnuttanut asemansa kieliteknologiassa vasta viimeisen kymmenen vuoden aikana. Viimeisin suuri harppaus nähtiin vuonna 2018, kun Google julkaisi Bert-nimisen mallinsa, joka rikkoi liudan aiempia kieliteknologian suorituskykyennätyksiä, vieläpä suurella marginaalilla. Bert yhdistelee parhaimpia puolia monista edeltäneistä malleista ja on ennen kaikkea kooltaan huomattavasti suurempi kuin aiemmat mallit: se kuvaa kielen rakenteita satojen miljoonien muuttujien eli lukuarvojen avulla. Uudemmat mallit ovat vielä kertaluokkaa suurempia ja muuttujien määrät alkavat lähennellä ihmisaivojen neuronien ja linnunradan galaksin tähtien lukumäärää.

Esikoulutus voidaan nähdä analogisena meidänkin koulutusjärjestelmällemme, jossa ensin käydään yleissivistävä peruskoulu ja vasta sen jälkeen erikoistutaan ammattiin. Ilman esikoulutusta koneoppimismalli on aidosti tabula rasa, tyhjä taulu, toisin kuin ihminen, jolle geneettisesti ja epigeneettisesti siirtyy osa aiempien sukupolvien ominaisuuksista. Kuvainnollisesti esikoulutuksen poisjättäminen on siis vieläkin radikaalimpi koulutusmuoto kuin vastasyntyneen raahaaminen yliopiston luennoille.

Koneoppimismallien merkittävin etu on niiden rajaton kopiointimahdollisuus

Yksi merkittävä etu koneoppimismalleilla kuitenkin on: niitä voidaan kopioida rajattomasti. Siinä missä jokainen Maija ja Matti Meikäläinen joutuu käymään peruskoulun läpi, jotta meillä olisi riittävästi työvoimaa, voidaan kielimalli esikouluttaa kerran ja tämän jälkeen kloonata eri sovelluskohtaisiin jatkokoulutuksiin. Erityisen hieno ominaisuus tämä on kahdesta syystä:

  1. Esikoulutus on kallista. Arviot nykyisin käytössä olevien kielimallien esikoulutusprojektien kustannuksista liikkuvat kymmenien tuhansien ja kymmenien miljoonien eurojen välillä, mallien koosta riippuen.
  2. Esikoulutukseen on kerättävä laaja, useiden miljardien sanojen tekstiaineisto, josta cloze-testin kaltaiset harjoitustehtävät muodostetaan. Riittävän suuri aineisto on kyllä saatavilla internetiä indeksoimalla, mutta osa tästä sisällöstä on tekijänoikeudellisesti suojattua, eikä aineiston käyttö ole tällöin mahdollista.

Esimerkiksi Bertin kehittänyt Google jakoi tutkimuksen julkaistessaan ainoastaan englanninkielisen mallin sekä monikielisen mallin, joka tosin on koulutettu suppeammalla aineistolla. Suomenkielisen mallin kouluttaminen jäi täten paikallisten toimijoiden harteille. Onneksemme Turun yliopisto ryhtyi tuumasta toimeen ja jakoi kouluttamansa suomenkielisen FinBert-kielimallin avoimesti yhtenä ensimmäisistä ei-englanninkielisistä Bert-malleista. Tällaisen mallin kehittämisen mahdollisti Tieteen tietotekniikan keskuksen tarjoamat laskentaresurssit sekä yliopistojen ja Kopioston välinen sopimus tekijänoikeuden suojaamien aineistojen käytöstä tutkimuksessa. Mainittakoon, että yksi FinBertin pääkehittäjistä on a.i.materin Antti, ja kaikkiaan neljä työntekijäämme on työskennellyt Turun yliopiston kieliteknologiaryhmässä.

Suomenkielinen kieliteknologia kehittyy entisestään

Vaikka Bertkin alkaa olla vanhentunutta teknologiaa nopeasti kehittyvällä kieliteknologia-alalla, ei sille ole vielä suomenkielisiä korvaajia. Uudempi malli on toki jo Turun yliopistolla kehityksessä, mutta se on käyttötarkoitukseltaan hieman erilainen, vain toispuoleista kontekstia hyödyntävä. Toistaiseksi FinBert on siis usein paras lähtökohta suomenkielisiin tekstinlouhintasovelluksiin.

a.i.materilla FinBert on käytössä useissa projekteissa, ehkä näkyvimmin Erin-tuotteessamme. Kun Erin analysoi syötteenään saamaansa teosta, se siis hyödyntää esikoulutuksen aikana yli sataan miljoonaa lukuarvoon tallentamaansa tietoa suomen kielen rakenteista ja sanojen merkityksistä. Esikoulutuksen ansiosta Erin pääseekin ihmistasoisiin tuloksiin varsin maltillisella koulutusdatamäärällä.

Kielimallien kaltainen esikoulutus ei rajoitu pelkästään tekstiaineistoihin, vaan vastaavanlaisia malleja hyödynnetään niin konenäössä, puheentunnistuksessa kuin proteiinisekvenssien analysoinnissa. Suomenkielisen puheentunnistuksenkin saralla on tosin todettava, ettei esikoulutukseen kelpaavaa puheaineistoa saati valmiiksi koulutettua mallia toistaiseksi ole saatavilla. Tähän toivottavasti Helsingin yliopiston ja Ylen Lahjoita puhetta -hanke tekee lähitulevaisuudessa muutoksen.

Pinterest
a.i.mater Oy logo

Lisätietoja

Yritysprofiili a.i.mater kotisivut

Tagit

Jos tarjontatagi on sininen, pääset klikkaamalla sen kuvaukseen

Omat tagit

kieliteknologia
puheteknologia
Koneoppiminen
BERT
kielimalli
FinBert

Siirry yrityksen profiiliin a.i.mater kotisivut Yrityshaku Referenssihaku Julkaisuhaku

a.i.mater - Asiantuntijat ja yhteyshenkilöt

Asiantuntijoita ja yhteyshenkilöitä ei ole vielä kuvattu.

a.i.mater - Muita referenssejä

a.i.mater - Muita bloggauksia

Digitalisaatio & innovaatiot blogimedia

Blogimediamme käsittelee tulevaisuuden liiketoimintaa, digitaalisia innovaatioita ja internet-ajan ilmiöitä

Etusivu Yrityshaku Pikahaku Referenssihaku Julkaisuhaku Blogimedia