Wil de echte data scientist opstaan?

Er is veel vraag naar data scientists. Maar hoe gewild ze ook zijn, data scientists kunnen het niet in hun eentje rooien. Organisaties die data scientists aannemen of inhuren komen er vaak achter dat er nog niet voldoende kwalitatieve datasets beschikbaar zijn om daadwerkelijk een machine learning-model te ontwikkelen en toe te passen. Het vinden en aan elkaar koppelen van deze datasets is typisch de verantwoordelijkheid van andere professionals: data architecten en data engineers.

Je kunt het samenspel tussen de drie experts vergelijken met de keuken uit een toprestaurant; je hebt iedereen nodig om dat vijfsterrengerecht te kunnen serveren. Hoe dit er precies uitziet? Dat vragen we de ervaringsdeskundigen.

Superpowers

“Alles hangt af van de vraag die moet worden beantwoord of opgelost”, legt Marvin Schenkel uit. Nadat hij zich jarenlang bezighield met data engineering, richt hij zich nu steeds meer op data science-projecten binnen Info Support. “Maar de drie rollen zijn in veel gevallen onlosmakelijk met elkaar verbonden.”

“Welke rol precies nodig is, is onder meer afhankelijk van de data-volwassenheid van een organisatie”, zegt Niels Naglé, Data Architect bij Info Support. “Aan dataprojecten die organisatiebreed moeten worden uitgerold, gaat vaak een lang traject vooraf. Dat komt doordat organisaties hun IT-landschap in veel gevallen nog niet op orde hebben. Een data architect onderzoekt welke bedrijfsprocessen relevante data kunnen opleveren en wat de waarde is van die data. Ook bepaalt een data architect waar de verantwoordelijkheid ligt om ervoor te zorgen dat data voldoen aan bepaalde kwaliteit, maar ook bepaalde wet- en regelgeving of richtlijnen vanuit de organisatie.”

Zo heeft iedereen zijn eigen superpower: de data scientist is goed in het herkennen van patronen en het signaleren van verbanden, de data engineer in het verzamelen van data. De verbanden die de data scientist legt zijn hierdoor ook daadwerkelijk van toegevoegde waarde voor de organisatie.

Ingrediënten

“Je kunt de samenwerking vergelijken met de keuken van een toprestaurant”, aldus Christel Geurts, Data Scientist bij Info Support. “Je kunt pas een restaurant beginnen als je altijd de beschikking hebt over de beste ingrediënten en dat is de rol van de data architect en data engineer. De data architect onderzoekt allereerst waar de beste ingrediënten vandaan gehaald kunnen worden. De data engineer bekijkt vervolgens per gerecht welke ingrediënten je nodig hebt en in welke samenstelling. Ook zorgt de data engineer ervoor dat de ingrediënten op die manier worden aangeleverd. De volgende stap is het creëren van een recept, waarin de ingrediënten samenkomen; dat is typisch de verantwoordelijkheid
van een data scientist.”

Net als een menukaart continu wijzigt op basis van de beschikbare ingrediënten, is ook een dataplatform constant in beweging. Er blijven nieuwe inzichten en data binnenstromen, waar slimme oplossingen op gebouwd worden of op moeten worden aangepast om bedrijven te helpen processen te verbeteren.

“Het is daarom ook superbelangrijk dat we met elkaar blijven communiceren”, voegt Geurts toe. “Het heeft geen zin om een model te ontwikkelen waarvan achteraf blijkt dat de datastructuur (of de ingrediënten) niet helemaal goed in elkaar zat(en).”

Waardevolle inzichten

Zo blijkt ook in de praktijk. Een vraag die veel bedrijven graag willen beantwoorden is: hoe groot is de kans dat een klant weggaat? Dit begint met de ontwikkeling van een dataplatform (data engineer en data architect) waarin constant nieuwe, kwalitatieve data binnenkomen. De data scientist werkt aan een model op basis waarvan zinvolle voorspellingen gedaan kunnen worden. Als de drie partijen constant samenwerken en evalueren, kunnen ze data omzetten in waardevolle inzichten die een bedrijf echt verder helpt.

Dit is dan tegelijkertijd een gezamenlijk einddoel voor de drie experts. En om dit einddoel te bereiken zijn alledrie de expertises even hard nodig. Hoe toekomstbestendig het beroep van data scientist ook mag zijn; zonder de data engineer en data architect staat deze toch een stuk minder sterk.

De rollen beschreven

De Data Architect Onderzoekt welke data er beschikbaar zijn binnen en buiten de organisatie. Data architecten vragen zichzelf voortdurend af: Welke bedrijfsprocessen kunnen data aanleveren? Wat is de kwaliteit van de systemen die deze data genereren? Hoe kunnen deze data of uiteindelijke inzichten worden ingezet om bestaande processen te verbeteren? Ze werken vaak projectoverstijgend en zorgen ervoor dat data op het juiste moment in het juiste formaat bij de juiste persoon terechtkomt en dat oplossingen aansluiten bij de bedrijfsdoelstellingen.
De Data Engineer Is betrokken bij ieder AI-project. Nadat de data architect de kaders heeft vastgesteld, kunnen data engineers aan de slag met het verzamelen en transformeren van data. Data engineers brengen op projectniveau bronnen bij elkaar, koppelen databases aan elkaar en zorgen ervoor dat de kwaliteit van de data goed is.
De Data Scientist Ontwikkelt machine learning-modellen op basis van beschikbare data binnen de organisatie. Een typische data scientist doet voorspellingen over toekomstige data op basis van bestaande data.