Niet alleen de data engineer moet nadenken over schaalbaarheid, performance, volumes, beveiliging, privacy, etc. Dit geldt ook voor de data scientist. Het is eenvoudig om in een experimentomgeving een model te ontwikkelen dat exact doet wat je wil. Echter, dit model moet ook productievolumes aankunnen en daarop worden aangepast.
Data scientist type A vs data scientist type B
Om dit allemaal mogelijk te maken, moet de data scientist een flinke dosis software engineering-vaardigheden bezitten. Daarom wordt voor dit type werk onderscheid gemaakt tussen een data scientist type A (van Analist) en een data scientist type B (van Bouwer). De data scientist type A kan goed genoeg coderen om met data te werken, maar is niet per se een expert. De data scientist van type A kan een expert zijn in experimenteel ontwerp, prognoses, modellering, statistische gevolgtrekking of andere dingen die typisch worden onderwezen in statistische afdelingen en werken vaak met een statische dataset.
Data scientists type B delen enige statistische achtergrond met type A, maar zijn ook zeer sterke codeerders en kunnen opgeleide software-engineers zijn. De data scientist type B is vooral geïnteresseerd in het gebruik van data “in productie”. Ze bouwen modellen die interactie hebben met gebruikers. Dit type data scientist is nodig in een Machine Learning team.