De exponentiële groei van grote taalmodellen in relatief korte tijd is indrukwekkend. Hoe hard die ontwikkeling gaat, is te zien in het tokenlimiet dat wordt gehanteerd door verschillende platformen. Het tokenlimiet is maximale aantal tokens (woorden, delen van woorden of symbolen) dat een model kan verwerken in een enkele interactie. Toen ChatGPT in november 2022 werd geïntroduceerd, waren we al tevreden met een limiet van 4.096 tokens. Stelde je een vraag van 1.000 tokens, dan kon het antwoord maximaal 3.096 tokens bevatten.
Grote taalmodellen worden klein(er)
Ruim anderhalf jaar later zijn taalmodellen als GPT-4, Google Gemini en Anthropic verwikkeld in een wedloop: capaciteiten van 128k tokens zijn al mogelijk en wordt zelfs al gesproken over de mogelijkheid van 1 miljoen tokens.
Volgens Joop Snijder, Hoofd Research Center AI, komt er een tegenbeweging op gang:
“Deze race zal niet eindeloos doorgaan. De focus verschuift namelijk naar het ontwikkelen van kleinere, krachtigere modellen die zowel energiezuiniger als goedkoper zijn. De belangrijkste reden daarvoor is dat de operationele kosten van grote taalmodellen vaak hoog zijn en moeilijk te voorspellen. Hoe groter en complexer taalmodellen worden, des te hoger de kosten. Ter vergelijking: het meest geavanceerde model van Open AI is maar liefst tachtig keer zo duur als het instapmodel. Het reduceren van deze kosten is cruciaal, niet alleen om de technologie toegankelijk te maken, maar ook om de duurzame groei in de toekomst te waarborgen.”
Er zijn grofweg drie manieren om taalmodellen efficiënter en kleiner in te zetten.
1. Efficiënt omgaan met tokens
Tokens vormen het afrekenmodel van alle grote taalmodellen; hoe meer tokens je gebruikt, zowel in de input als output, des te hoger de rekening. Joop: “Zo heeft Microsoft software ontwikkeld waarmee een prompt vijf keer kleiner kan worden gemaakt door irrelevante woorden te verwijderen uit de prompt voordat deze naar het taalmodel wordt gestuurd. Dit verlaagt de kosten van de inputtokens aanzienlijk, wat een groot verschil maakt in de operationele kosten.”
Ook in Retrieval Augmented Generation (RAG) vindt er een efficiëntieslag plaats: “RAG combineert taalmodellen met een zoekmachine. Het systeem haalt informatie uit documenten die erin zijn gestopt en die functioneren als een soort langetermijngeheugen tijdens een dialoog met een gebruiker. Het zoeken in zo’n langetermijngeheugen is relatief goedkoop. Als er een nieuwe vraag wordt gesteld, dan zoekt het systeem eerst op of het antwoord al te vinden is in het langetermijngeheugen en daarmee bespaar je dus capaciteit – en dus kosten.”
2. Taalmodellen in eigen beheer
Een tweede manier om taalmodellen efficiënter in te zetten, is gebruik maken van eigen hardware. “Hiervoor is de techniek quantization ontwikkeld, die kunt vergelijken met het comprimeren van foto’s naar bijvoorbeeld JPEG-formaat”, aldus Joop. Een taalmodel dat normaal met 32 bits berekeningen rekent, kan tot wel 75% tot 85% kleiner worden gemaakt in omvang en rekenkracht. Omdat deze modellen minder ruimte in beslag nemen en minder rekenkracht nodig hebben, kun je ze hosten op je eigen hardware en wordt het zelfs mogelijk om krachtige large language models op mobiele apparaten te draaien, zoals Apple onlangs heeft laten zien met 8 open source-modellen.”
3. Specialisatie met kleinere modellen trainen
Het trainen van kleinere, gespecialiseerde modellen is volgens Joop een derde manier om efficiënter en kosteneffectiever te werken met large language models: “Als je kleinere modellen kunt trainen, combineert je het beste van twee werelden. Zo’n klein model kan een specifieke taak extreem goed uitvoeren en kan daardoor kleiner blijven, terwijl het toch de algemene kennis van een groot taalmodel gebruikt om getraind te worden tot expert. Het uiteindelijke model is veel kleiner en kan veel minder, maar dit betekent dat zowel het hosten van het model als het berekenen van de antwoorden veel goedkoper worden.”
Kortom: na een wedloop waarin aanbieders van grote taalmodellen inzetten op meer capaciteit, zal een tegenbeweging niet lang meer op zich laten wachten. Joop: “Meer en groter is niet altijd beter, het betekent ook automatisch dat modellen duurder worden. We zullen de komende tijd steeds meer op zoek gaan naar manieren om modellen goedkoper en toegankelijker te maken.”