Data laket AWS:ssä – mitä, miksi ja miten?

Data lake on nykyaikainen ratkaisu, joka mahdollistaa datan tallentamisen kaikissa muodoissaan, ilman raskasta ennakkosuunnittelua. Blogissa kirkastetaan ajatuksia siitä mitä Data lakeilla tarkoitetaa, milloin data lake on oikea valinta, miten se toimii käytännössä ja miten sen voi toteuttaa AWS:n työkaluilla tehokkaasti ja hallitusti.
Sisällysluettelo
- Mikä ihmeen datalake?
- Datalake vs. tietovarasto – kumpi sopii mihinkin?
- Miltä tämä näyttää käytännössä?
- Miten datalake rakennetaan AWS:ssä?
- Yhteenveto ja seuraavat askeleet
Mikä ihmeen data lake?
Data lake, eli datajärvi tai tietojärvi, on moderni tapa säilyttää suuria määriä dataa – raakamuodossa, eri muodoissa ja eri lähteistä. Kun perinteinen tietovarasto edellyttää tarkkaa rakennetta ja selkeää tarkoitusta datalle jo etukäteen, data lake toimii enemmänkin kuin suuri säiliö: sinne voi kaataa kaiken datan sellaisenaan ja miettiä myöhemmin, mitä sillä tehdään.
Tämä lähestymistapa on erityisen hyödyllinen, kun liiketoiminnassa halutaan säilyttää kaikki mahdollinen data, myös sellainen, jonka hyöty ei vielä ole selvillä. Jatkossa talletettua dataa voidaan käyttää esimerkiksi koneoppimiseen, analytiikkaan tai ennakoivaan päätöksentekoon.
Data lake vs. tietovarasto – kumpi sopii mihinkin?
On luonnollista miettiä, milloin data lakea kannattaa käyttää ja milloin taas tietovarasto on parempi ratkaisu.
Tietovarasto (data warehouse) on erinomainen valinta, kun tarvitaan nopeaa ja tehokasta pääsyä hyvin jäsenneltyyn dataan, esimerkiksi liiketoimintaraportointia varten. Se on tarkkaan suunniteltu, schema-on-write -tyylinen järjestelmä, jossa data puhdistetaan ja muotoillaan ennen tallennusta.
Data Lake taas perustuu schema-on-read -periaatteeseen: data tallennetaan ensin, ja sen rakennetta tulkitaan vasta kun sitä käytetään. Tämä tekee siitä joustavan ratkaisun silloin, kun datatyypit vaihtelevat tai kun analytiikka- ja koneoppimiskäyttötapaukset vaativat raakadataa.
Usein paras ratkaisu ei ole joko-tai, vaan sekä-että. Moni organisaatio yhdistääkin data laken ja tietovaraston samaan kokonaisuuteen, joka tunnetaan nimellä lakehouse-arkkitehtuuri.
Miltä tämä näyttää käytännössä?
Kuvitellaan esimerkiksi verkkokauppa, joka kerää dataa asiakkaiden selauskäyttäytymisestä, ostoksista, varastotilanteista ja asiakaspalautteista. Osa tästä datasta on hyvin rakenteellista (esimerkiksi ostotapahtumat), osa taas hyvin vapaamuotoista (kuten avoin palaute tai chat-logit).
Tietovarasto voisi palvella markkinointia ja liiketoiminnan johtoa tarjoamalla selkeät KPI-raportit. Samaan aikaan data lake säilyttää kaiken muun datan, kuten selauspolut ja käyttäjien toimintahistorian, jotta analyytikot ym. voivat analysoida käyttäjäpolkuja ja selauskäyttäymistä syvällisemmin.
Miten data lake rakennetaan AWS:llä?
AWS tarjoaa valmiit rakennuspalikat data laken toteuttamiseen. Ydinratkaisuna toimii yksi AWS:n tunnetuimmista palveluista, Amazon S3, joka on skaalautuva ja kustannustehokas tilapalvelu, joka toimii data laken selkärankana.
Ympärille rakennetaan kerroksittain lisäpalveluita, esimerkiksi:
- AWS Glue huolehtii metadatan hallinnasta ja ETL-prosessien automatisoinnista.
- Athena mahdollistaa SQL-kyselyt suoraan S3:lla sijaitsevaan raakadataan ilman erillistä infrastruktuuria.
- Lake Formation auttaa hallinnoimaan pääsyä, tietoturvaa ja metatietoa – ilman että koko arkkitehtuuria tarvitsee rakentaa käsin.
- Lisäksi esimerkiksi Amazon Redshift Spectrum tai EMR voidaan kytkeä datalakeen isomman mittakaavan analytiikkaa varten.
AWS:n etuna on sen modulaarisuus – voit aloittaa pienestä ja kasvattaa käyttöä tarpeen mukaan. Data lake ei myöskään vaadi massiivista alkuinvestointia, vaan sitä voi laajentaa ketterästi liiketoiminnan tarpeiden mukana.
Yhteenveto ja seuraavat askeleet
Data lake ei ole pelkkä buzzword, vaan käytännöllinen ratkaisu datan tallennukseen ja hyödyntämiseen silloin, kun dataa tulee monesta suunnasta ja eri muodoissa. AWS tekee siitä helposti lähestyttävän myös pienemmille tiimeille, erityisesti silloin, kun liiketoiminnassa haetaan joustavuutta ja mahdollisuuksia tulevaisuuden dataratkaisuihin.
Jos organisaatiosi kaipaa parempaa tapaa säilyttää, hallita ja hyödyntää dataa, data lake voi olla juuri oikea suunta.
Haluatko sparrailla datan hyödyntämisestä AWS:ssä?
Ota yhteyttä, niin katsotaan yhdessä mikä ratkaisu palvelisi teidän tarpeita parhaiten – olipa kyse data lakesta, tietovarastosta tai molemmista.
Voit myös tutustua AWS Data & AI Boost -sivuumme. AWS Data & AI Boost palvelut auttavat sinua hyödyntämään dataa tehokkaasti.