Lakehouse – alusta vai tietovarasto moderniin analytiikkakehitykseen?
![](https://www.itewiki.fi/write/post_images/26378.png)
![26378 Bloggaus](https://www.itewiki.fi/images/icons/content_type_labels/post_post.png)
Modernien lakehouse – alustojen taustalla olevat teknologiat tarjoavat analyyttisten tietokantatuotteiden ominaisuuksia
Aiemmin oli selvää, että tarvittiin erikseen jonkinlainen analyyttinen tietokantatuote, joka pystyi toimimaan vahvasti tietomallinnetun tiedon tarjoamisen näkökulmasta analytiikan hyödyntämisen keskiössä. Tällöin erilaiset lakehouse – tyyppiset teknologiat käsitettiin enemmän big datan kaltaisen datan käsittelyn moottoreina ja toisaalta datan pitkäaikaisen tallennuksen edullisina ratkaisuina.
Modernit teknologiat ovat kuitenkin tuoneet uusia mahdollisuuksia eikä ole enää itsestään selvää, että välttämättä olisi tarvetta erilliselle analyyttiselle tietokantatuotteelle osana data-alustaa. Mitä tämä sitten käytännössä tarkoittaa analytiikan kehittämisen kannalta, asiaa käsitellään tässä kirjoituksessa?
Lakehouse – alusta ja object storage - tallennusratkaisut
Lakehouse – alustojen teknologioissa yhdistyvät erilaiset joustavat datankäsittelyn moottorit ja toisaalta datan tallennuksen ratkaisut yleisiin pilvipalveluiden object storage – tiedontallennuspalveluihin kuten Azure Storageen. Apache Spark, tai sen kaupalliset johdannaiset kuten Azure Databricks, ovat olleet pitkään keskeisiä datankäsittelyn moottoreita lakehouse – alustoilla.
Lakehouse – alustalla datan pysyväistallennus ja datan käsittelyn erilaiset tarpeen mukaiset moottorit ovat aidosti erotettu toisistaan, samaa dataa on mahdollista käsitellä hyödyntäen useita erilaisia datankäsittelyn moottoreita.
Databricksin käyttämä Delta Lake – tallennuskerros hyödyntää avoimen lähdekoodin Delta Tables – ominaisuutta, joka on laajennos pitkään käytössä olleiden parquet – tiedostojen päällä. Parhaimmillaan käyttäjät voivat hyödyntää erilaisia lakehouse – tauluja datankäsittelyn SQL – moottorin läpi huomaamatta eroa mihinkään tietokantatuotteeseen. Delta – taulut mahdollistavat myös tietynlaisen versiohistoriaan palaamisen.
Delta Lake ei ole ainoa tällainen avoin tiedostoformaatti, myös AWS:n Apache Iceberg on vastaava avoin tiedostoformaatti.
Mitali – arkkitehtuuri jakaa datankäsittelyn eri osa-alueisiin vaiheen perusteella
Mitali – arkkitehtuuri (medallion architecture) tarkoittaa tapaa jäsentää lakehouse - data-alustalla olevat datankäsittelyn kerrokset käsittelyn vaiheen mukaan. Kyseessä on oikeastaan uusi nimi perinteiselle asialle, jota tietovarastoinnissa on käytetty. Mitali – arkkitehtuuriin kuuluu seuraavat kerrokset.
- Pronssikerros raakadatalle
- Hopeakerros mallinnetulle datalle
- Kultakerros loppukäyttäjien käyttämälle datalle
Prosessikerros vastaa siitä, että raakadatat eri lähteistä tulevat datat tulevat käsitellyiksi, hopeakerros muodostaa tietynlaisen tietovarastokerroksen ja kultakerrokseen luodaan optimoituja tietorakenteita. Ei ole itsestään selvää millä tavalla hopeakerroksen data pitäisi mallintaa, vaihtoehtoja on useita ja perinteinen Ralf Kimballin esittämä dimensiomalli voi olla käyttökelpoinen. Toisaalta mikään ei estä mallintamasta hopeakerroksen dataa vaikkapa jotain toimialan tai organisaation tietomallia käyttäen ja hyödyntämällä dimensiomallia vasta kultakerrokseen.
Lakehouse – alustalla varmasti mallinnetaan tietoa, mutta on todennäköistä, että ei ole mitään yksittäistä metodologiaa joka nousee hallitsevaksi.
Azure Databricks ja Microsoft Fabric
Azuressa Microsoft Fabric ja Azure Databricks ovat molemmat hyviä vaihtoehtoja lakehouse – alustan teknologioiksi.
Molemmat mahdollistavat mitali – arkkitehtuurin, jossa data erilaisista tietolähteistä käsitellään kerroksittain ja lopulta tarjotaan loppukäyttäjille eri muodoissaan. Suurin ero näissä on se että lopulta Azure Databricks on ulkoinen palvelu jonka käyttöönottoon liittyy enemmän konfigurointia ja muiden Azuren palveluiden hyödyntämistä, Microsoft Fabric on suoraviivaisempi ottaa käyttöön. Microsoft Fabricin Data Factoryn toiminnallisuudet tarjoavat myös erilaisia low code – kehitystyövälineitä kun taas Azure Databricks perustuu koodipohjaiseen kehittämiseen.
![Ready Solutions Oy logo](https://www.itewiki.fi/thumb.php?src=https://www.itewiki.fi/write/logos/ready-solutions.png&size=x100)
Lisätietoja
Tagit
Liiketoimintaprosessi
![]() |
BI ja raportointi |
Erikoisosaaminen
![]() |
Analytiikka |
![]() |
Arkkitehtuuri |
![]() |
Big Data |
![]() |
Tekoäly (AI) ja koneoppiminen |
![]() |
Pilvipalvelut / SaaS |
Teknologia
![]() |
Azure |
![]() |
Microsoft |
Tarjonnan tyyppi
![]() |
Konsultointi |
![]() |
Toteutustyö |
![]() |
Tuki- ja ylläpitotyö |
Omat tagit
Ready Solutions - Asiantuntijat ja yhteyshenkilöt
Ready Solutions - Muita referenssejä
Ready Solutions - Muita bloggauksia
It- ja ohjelmistoalan työpaikat
- Netum Group Oyj - Kokenut integraatioasiantuntija
- Laura - Integration Engineer
- Laura - Configuration Management Engineer
- Netum Group Oyj - Oracle-taitoinen ohjelmistokehittäjä
- Netum Group Oyj - AI-arkkitehti tai kehittäjä GenAI-painotuksella
- Laura - Senior IT Systems Engineer – Core Infrastructure Services
- Laura - ICT-arkkitehti: ICT-yksikkö, Joensuu (id8937)
Premium-asiakkaiden viimeisimmät referenssit
- Etteplan - Pitkäjänteinen kumppani kehittämään moderni ERP-järjestelmä JIS-Automationin tarpeisiin
- Etteplan - Tarkan paikannuksen kehittäminen vauhdittaa Kalmarin tutkimusprojektia – apuna Etteplan Rugged Evaluation Platform
- Advania Finland Oy - Virtuaalinen työpöytäratkaisu paransi Keusoten loppukäyttäjäkokemusta ja vähensi IT-kustannuksia
- Advania Finland Oy - Toimintavarma Genesys Cloud -asiakaspalveluratkaisu sopii hälytyskeskuksen vaatimuksiin
- Advania Finland Oy - Poikkeamaportaalin käyttöönotto paransi Skanskan rakennustyömaiden turvallisuudesta kerättävän tiedon määrää ja laatua
- Advania Finland Oy - Teknologian hyödyntäminen vie Pelicansin uusiin ulottuvuuksiin jäällä ja sen ulkopuolella
- Netum Group Oyj - Postin logistiikkajärjestelmän kehittäminen on Netumin osaavissa käsissä
Tapahtumat & webinaarit
Premium-asiakkaiden viimeisimmät bloggaukset
- Nordea - Kyberturvallisuusmatka Nordealla: Linda Milvin tarina
- Ready Solutions Oy - Mitä on luottoriskien hallinnan data-analytiikka?
- Nordea - Nordea x Women in Tech: Data ja Analytiikka Nordealla
- Timeless Technology - ControlByWeb - Web-pohjaiset "drop-in" ratkaisut etäohjaukseen ja -monitorointiin.
- Rakettitiede Oy - Sinustako Rakettitieteen konsultti?
- Rakettitiede Oy - Rakettitieteen arvot – no bullshit ja viisi muuta teesiä
- Etteplan - Väsymätön ja tarkka diagnostikko – koneoppiminen ravistelee terveydenhoitoa
![]() |
Digitalisaatio & innovaatiot blogimediaBlogimediamme käsittelee tulevaisuuden liiketoimintaa, digitaalisia innovaatioita ja internet-ajan ilmiöitä |