Aan de hand van data en algoritmes traint een data scientist een model. Dit model kan data dat nooit eerder is gezien omzetten in bijvoorbeeld een voorspelling, gebruiken om te classificeren of te clusteren. Zoals eerder gezegd, is het ontwikkelen van zo’n model slechts een deel van het werk. Een model wordt niet eenmalig ontwikkeld, maar zal door de tijd evolueren. Daarnaast moeten modellen opnieuw getraind worden met relevante nieuwe data. Wederom is het herhaalbaar maken van deze processen het moeilijkste deel.
Niet alleen de data engineer moet nadenken over schaalbaarheid, performance, volumes, beveiliging, privacy, etc. Dit geldt ook voor de data scientist. Het is eenvoudig om in een experimentomgeving een model te ontwikkelen die exact doet wat je wil. Echter, dit model moet ook productievolumes aankunnen en daarop worden aangepast.