Hae it-yrityksiä
osaamisalueittain:

Asiakkuudenhallinta CRM BI ja raportointi HR Tuotekehitys ja suunnittelu Toiminnanohjaus ERP Taloushallinto Markkinointi Webkehitys Mobiilikehitys Käyttöliittymäsuunnittelu Tietoturva Verkkokaupparatkaisut Ohjelmistokehitys Integraatiot Pilvipalvelut / SaaS Tekoäly (AI) ja koneoppiminen Lisätty todellisuus ja VR Paikkatieto GIS IoT Microsoft SAP IBM Salesforce Amazon Web Services Javascript React PHP WordPress Drupal

Delta Lake jäsentelee datan ketterästi

Bloggaus

Datamäärien kasvu on lisännyt myös datan käyttötarpeita. Kun suuresta määrästä dataa on tarve saada reaaliaikaisesti jäsenneltyä tietoa, voi Delta Lake ‑teknologialla toteutettu ratkaisu usein olla perinteistä tietovarastoratkaisua toimivampi vaihtoehto.

Data lake on eräänlainen big data ‑maailman tietovarasto. Se on tietojen laaja säilytysallas, jonne data tallennetaan alkuperäisessä muodossaan ja rakenteessaan, jolloin se on muodoltaan perinteistä tietovarastoa vapaampi. Siksi se soveltuukin hyvin esimerkiksi sosiaalisen median, web‑tietojen, NoSQL‑kantojen tai IoT‑datan tallentamiseen. Perinteiset tietovarastoratkaisut eivät istu niin hyvin big data ‑tyyppiseen datan käsittelyyn datan suuren määrän ja sen monimuotoisuuden vuoksi. Usein myös big data ‑aineistosta halutaan reaaliaikaista tietoa, jolloin tietovaraston toteutus on haastavaa.

Data lakessa tietoa ei yleensä ole puhdistettu ja muutettu määrämuotoiseksi samalla tavalla kuin tietovarastossa, joten datasta kaivetaankin esiin enemmän yleisen tason trendejä tai suuntaa antavia tietoja. Tietovarastossa käsitellään sen sijaan usein tarkkoja ja numeerisia faktoja.

Sekä tietovarastolle että data lakelle on omat tarpeensa, eivätkä ne missään nimessä ole toisiaan poissulkevia ratkaisuja. Yrityksellä voi olla tarve toisaalta saada tietovarastoratkaisun kautta tarkkoja talous- tai myyntilukuja, mutta myös tarve haistella markkinoiden kehityssuuntia ja ilmiöitä data lake ‑ratkaisun avulla.

Data lakessa tiedon muodolle ja rakenteille ei tarvitse antaa paljoa aikaa, jolloin tiedon lataaminen sinne on melko nopeaa ja helppoa ilman erillisen puhdistuksen, yhdistelyn tai summauksen logiikan rakentamista.

Teknisesti datan prosessointi eroaa data laken ja tietovarastoinnin välillä etenkin yhdessä suhteessa: tietovarastossa ETL-prosesseissa ladataan ja muokataan tietoa ennen sen tallentamista tietovarastoon, kun taas data lake ottaa tiedot vastaan melko raakamuotoisena ja prosessointi tapahtuu vasta tiedon hyödyntämisvaiheessa.

 

Delta Lake – suuria tietomassoja jäsennellyssä muodossa 

Entäpä jos halutaan suuresta määrästä dataa saada reaaliaikaisesti jäsenneltyä tietoa?

Silloin perinteinen tietovarastoratkaisu on ongelmissa datamäärien ja reaaliaikaisuusvaatimuksen vuoksi. Tähän on kuitenkin ratkaisu: Databricksin tarjoama Delta Lake ‑teknologia.

Delta Lake ‑teknologia tulee kuvaan siis siinä vaiheessa, kun tietoaltaan suuria tietomassoja halutaan hyödyntää jäsennellyssä muodossa. Lakehouse on Databricks-yrityksen luoma konsepti, jossa tietovarasto sijaitsee data lakessa. Se yhdistää data laken ja tietovaraston.

Tietovaraston luonnin data lakessa mahdollistaa Delta Lake ‑teknologia. Se on data laken päällä makaava teknologia, joka mahdollistaa tietovaraston rakentamisen. Tämä teknologia mahdollistaa esimerkiksi acid-transaktioiden käytön, jolloin data lake ‑kehittäjä pystyy hyödyntämään tietokantamaisia ominaisuuksia, joita tietovaraston rakentamiseen tarvitaan.

Delta Lake ‑teknologiaa hyödynnettäessä data prosessoidaan databricks-moottorilla. Data säilyy data laken tiedostoissa, mutta myös prosessoitu tieto pysyy data lakessa. Data lakeen luodaan kansiorakenne layereiksi eli kerroksiksi, joita kutsutaan esimerkiksi nimillä bronze, silver ja gold.

 

Mitä hyötyjä Delta Lake ‑teknologia tarjoaa? 

Mitä etuja Delta Lake ‑teknologia sitten tuo datan käsittelyssä?

Perinteiset tietovarastoratkaisut soveltuvat huonosti big data ‑tyyppisen datan käsittelyyn. Datamäärät, raportoinnin reaaliaikaisuus ja datan jäsentymättömyys tuovat siihen haasteensa. Delta Lake ‑teknologialla big data ‑tyyppisestäkin datasta voidaan tehdä rakenteellista, jolloin sitä voidaan hyödyntää hyvin laajasti erilaisissa analytiikka- ja raportointitarpeissa.

Databricks on muistinvaraista hajautettua laskentaa. Lakehouse ‑arkkitehtuuri mahdollistaa sen, että datan hyödyntäminen voidaan hajauttaa erilaisille käyttäjille. Esimerkiksi Data Scientist/tieteilijät voivat hyödyntää pronssikerroksen dataa, kun taas vaikkapa Business Controller voi hyödyntää jäsennellympää kultakerroksen dataa vaikkapa myyntianalyysissa tai kannattavuusseurannassa.

Toinen hyöty on skaalautuvuus. Databricksin laskentakapasiteetti skaalautuu automaattisesti ja laskutus perustuu etupäässä kapasiteetin käyttöön. Lisäksi samassa ympäristössä voidaan tehdä data science ‑analyysiä ja reaaliaikaisen datan käsittely on helpompaa.

 

Kiinnostuitko? 

Ota yhteyttä, niin keskustellaan lisää.

Jorma Erkkilä

Vanhempi konsultti

jorma.erkkila@invenco.fi

Puh. 0400 132 119

Pinterest
Invenco Oy logo

Lisätietoja

Yritysprofiili Invenco kotisivut

Tagit

Jos tarjontatagi on sininen, pääset klikkaamalla sen kuvaukseen

Liiketoimintaprosessi

BI ja raportointi

Erikoisosaaminen

Analytiikka

Tarjonnan tyyppi

Konsultointi
Toteutustyö
Tuki- ja ylläpitotyö

Omat tagit

Big-Data
datawarehouse
delta lake

Siirry yrityksen profiiliin Invenco kotisivut Yrityshaku Referenssihaku Julkaisuhaku

Invenco - Asiantuntijat ja yhteyshenkilöt

Asiantuntijoita ja yhteyshenkilöitä ei ole vielä kuvattu.

Invenco - Muita referenssejä

Invenco - Muita bloggauksia

Digitalisaatio & innovaatiot blogimedia

Blogimediamme käsittelee tulevaisuuden liiketoimintaa, digitaalisia innovaatioita ja internet-ajan ilmiöitä

Etusivu Yrityshaku Pikahaku Referenssihaku Julkaisuhaku Blogimedia