15. ETL performance: aandachtsgebieden en tips voor een snellere ETL-batch

ETL performance:

aandachtsgebieden en

tips voor een snellere

ETL-batch

Door: Ron Hoes

ETL performance: aandachtsgebieden en tips voor een snellere ETL-batch

Dit artikel is onderdeel van de themareeks BI & Techniek, bedoeld om de meer technische

aspecten van BI voor het voetlicht te krijgen. Het is geschreven voor beheerders en

ontwikkelaars binnen de BI, die zich afvragen hoe zij de steeds langer wordende doorlooptijden

van de ETL batch in de hand kunnen houden.

Steeds meer en steeds sneller

Dashboards die 's ochtends om 7.00 uur landelijke verkoopcijfers tot en met de avond ervoor

moeten tonen. Actueel inzicht in de winkelvoorraden vóórdat de winkels openen. Business

Intelligence wordt vandaag de dag niet alleen breder en frequenter ingezet, maar de

beschikbaarheid ervan is ook vanzelfsprekender geworden.

Er moet direct gestuurd kunnen worden op informatie die zojuist beschikbaar is gekomen.

Ondanks de opkomst van tools en technieken voor directe analyses op bron-data, blijft de vraag

naar datawarehouses met historische, gestructureerde gegevens ten behoeve van een up-to-

date BI-omgeving onverminderd actueel.

De verwerking van de groeiende hoeveelheid data en de toenemende vraag naar snellere

informatie door managers, maakt dat er steeds meer gegevens in minder tijd moeten worden

verwerkt.

De druk op de doorlooptijd van het laden van nieuwe data in het datawarehouse neemt daarmee

toe. En de tijd dat het batch-window van 19.00 tot 7.00 uur het exclusieve domein van de ETL-

batch was, ligt ver achter ons.

Zonder in te gaan op specifieke oorzaken en al teveel in technische details te treden, wil ik de

belangrijke oorzaken van een uit de hand lopende doorlooptijd van de ETL-batch in een aantal

gebieden indelen:

te veel verplaatsingen van hoge volumes aan data en inefficiënte bewerkingen op de

hardware die te zwaar wordt belast waardoor tijdens de ETL-batch de

verwerkingscapaciteit onevenredig wordt aangetast.

onbekendheid met de data en mogelijkheden van de ETL-tool.

Grote data-volumes

Breng het volume aan data dat door het ETL-proces loopt, zo vroeg mogelijk in het proces terug.

Data-verplaatsingen en daarmee I/O zijn in veel gevallen een belangrijke boosdoener voor een

slechte performance.

Selecteer om te beginnen alleen die data die nodig is voor de verwerking; filter, of liever nog,

vermijd inlezen van rijen en kolommen die niet gebruikt worden in het proces. Een verdere stap

hierin is het apart opslaan van zogenaamde 'hete' en 'koude' data, zodat data die vrijwel nooit

wordt gebruikt ('koud') niet telkens wordt gelezen. Zorg dat het proces dat 'hete' en 'koude' data

eventueel opnieuw indeelt, buiten het kritische batch-window loopt.

Splits waar mogelijk de te verwerken gegevens al vroeg in het proces op, naar later gebruik. Als

ETL-deelprocessen A, B, C allen geïnteresseerd zijn in orders met status 'open' en alleen proces

D ook in status 'closed', loont het de moeite op voorhand twee order-bestanden aan te maken,

een order-open en een order-closed. Alleen proces D leest beide bestanden, de processen A, B

en C lezen een veel kleinere set.

Indien de snelheid van de schijven of het netwerk en daarmee de I/O een belangrijke bottleneck

is, kun je zelfs overwegen de data gecomprimeerd op te slaan. De CPU krijgt het dan weliswaar

wat drukker, maar dat wordt vaak ruimschoots gecompenseerd door het feit dat je nog maar

zo'n 10 procent van het data-volume van de schijf hoeft te lezen.

Hardware-benutting

Bereid waar mogelijk bestanden alvast voor, buiten het kritische batch-window. Alle

bewerkingen die je al kunt doen voordat de nachtelijke ETL-batch losbrandt en die niet

afhankelijk zijn van dat ene, laatste bronbestand dat nog om 23.00 uur arriveert, zijn mooi

meegenomen. Je verkort daarmee sowieso de doorlooptijd van je kritische batchdeel en spreidt

daarnaast de belasting van de server.

Benut de mogelijkheden van je ETL-tool bijvoorbeeld op het gebied van partitionering. Bij een

goed gebruik van partitionering wordt de workload zo efficiënt mogelijk over alle beschikbare

processoren verspreid. Ook bieden veel ETL-tools de mogelijkheid om bestanden vooraf in het

geheugen te laden, zodat de grote bulk aan data daar snel tegenaan gehouden kan worden

tijdens de ETL-batch.

Onbekendheid met ETL-tool en/of de bron-data

Vaak door onbekendheid met de ETL-tool of de data(-volumes) worden dure bewerkingen het

proces 'binnengesleept'.

Een sorteerfunctie is makkelijk op te nemen in het verwerkingsproces en werkt vermoedelijk

prima op de testbestanden. Maar die 'sort' kan eenmaal in productie heel goed een vreselijke

performance laten zien. Vermijd onnodig dure bewerkingen zoals een dergelijke sortering. Mocht

je er echt niet onderuit kunnen komen, plan de sortering dan zodanig dat vervolg-processen

daar baat bij hebben of kunnen volstaan met de veel voordeligere 'sortering binnen een groep'.

Conclusie

Naast toenemende data-volumes groeien ook de verwachtingen van de BI-gebruiker. De

verwerking van grote hoeveelheden gegevens hoeft geen probleem te zijn als je er

weloverwogen mee omgaat. Know your data; weet waar in het proces de volumes zitten. Daar

ligt de sleutel voor een tijdige data verwerking binnen de BI-omgeving.

Je kunt je hieronder abonneren op ons Thema BI & Techniek:

Dit blogartikel is geschreven door Ron Hoes.

Wil je meer informatie? Neem dan een kijkje op ons blog.

15. ETL performance: aandachtsgebieden en tips voor een snellere ETL-batch

Business

Transcript of 15. ETL performance: aandachtsgebieden en tips voor een snellere ETL-batch

KINDEREN - Psychologische Dienstverlening IJsselgroep · van hoogbegaafdheid met andere aandachtsgebieden, zoals bijvoorbeeld dyslexie, autisme, angst of adhd. Ongeacht de uitdagingen

Aandachtsgebieden bij persoonlijke ontwikkeling v2 nl

ADR Analytics - Risk Event...ADR ANALYTICS Transactions Workflow Authorisation Configuration Application controls ETL proces ADR Extract, Transformation, Load BWise Extraction Utility

Kwaliteit - Weeblyhakan-avans-portfolio.weebly.com/uploads/2/0/1/4/...INK-model – Instituut Nederlandse Kwaliteitszorg; tien aandachtsgebieden: Om te bepalen hoe een organisatie

1997€¦ · 2 Veiligheidszorg op afzonderlijke aandachtsgebieden 15 2.1 Aantasting van grondrechten 15 2.2 (Internationaal) georganiseerde criminaliteit 21 2.3 Terrorisme en ander

Tien aandachtsgebieden voor functioneren sociale wijkteams · met sociale wijkteams. Visievorming en inrichting van de sociale wijkteams heeft in het verleden plaatsgevonden. Uit

Cees Jonker. 1.de auteur 1.1biografie 1.2 opleiding en werkervaring 1.3 aandachtsgebieden 1.4 lidmaatschap 2.synthese van het artikel 2.1 historische.

BATCH-2 Starts from : 11-11-19 Time : 10 am - 1 pm CGL BATCH-2.pdf220 lakku aruna kumari 221 nagaraju mohanbabu 222 vyasam sai kiran 223 puppala meena ... 244 lenka siva 245 purini

NOD-CLASSI FICATI E 2000 - pure.knaw.nl fileNederlands lnstituut voor Wetenschappelijke lnformatiediensten TI1W1 068/2 0000221 /WI C-OI NOD CLASSIFICATIE - AANDACHTSGEBIEDEN Al0000

BI in de cloud: Batch processen van dagen naar uren

4. Organisatie Structuur RKVV Wilhelmina · Normen en Waarden Commissie Implementatie, Naleving Vrijwilligers beleid. Aandachtsgebieden Aanspreekpunt Bob van Veen Theo v Kaathoven

Hoe voldoe ik aan wetgeving voor Unique Device Identification … · 2019. 3. 12. · serialisation number, a national reimbursement number (if present), the batch number and the

Aandachtsgebieden in de pathologie en zichtbaarheid van …€¦ · · 2017-03-14External Quality Assessment (EQA) Schemes UK Orgaanspecifiek • Gynaecological Cytology EQA Scheme

Прус Анна Ивановна - spbu.ru2 Abstract Master's thesis is devoted to application of neural networks in problems of prediction and approximation. A batch method of training

De kracht van de slimste...2012/05/22 · De kracht van de slimste - 5 innovatie, samenwerking en kennisoverdracht. Aandachtsgebieden die in de Brainport Monitor naar voren komen

Het leren en de leeropbrengsten van docenten en …...noemde aandachtsgebieden is de invulling en rol van collectief leren. Collectief leren vatten we hier, in navolging van Swieringa

Transitie van speciaaldrukkerij Lijnco naar een digitale ... · krasloten en het systeem moet redundant zijn voor fouten. Als een batch aan krasloten opnieuw moet worden gedrukt,

Herzien BELEIDSPLAN 2018-2022 - Museum Hilversum · aandachtsgebieden, waarbij gedacht kan worden aan fotografie, internetkunst, (documentaire en filmische) video, gaming, animatie,

AN IB WORLD SCHOOL Alumni Batch 2015-2016 Batch 2015-2016.pdf · First Name Aarti Aastha Aditya Annabella Anvita Arbaz Ayush Ayusha Ayushi Danish DoYoung Jiya Kanishq Manan Mehak

Standaardiseren volgens het poldermodel Leertechnologie in ...School, EduStandaard, de NEN en IMS (IMS Global Learning Consortium). In deze publicatie zijn de bovenstaande vier aandachtsgebieden