Waar gaat jouw onderzoek over en waarom heb je dit onderzoek gedaan?
Mijn onderzoek gaat over de haalbaarheid en ontwikkeling van nieuwe manieren voor het geautomatiseerd anonimiseren van video met machine learning en computer vision technieken.
Computer vision is een techiek die de computer naar beeld laat ‘kijken’ zoals wij mensen dat doen. Dit is een gebied binnen de toegepaste AI (artificial intelligence) waar ik een passie voor heb. Als we de computer beelden laten analyseren, zijn er echter wel ethische implicaties. Namelijk: indien bijvoorbeeld mensen zichtbaar zijn in de video, dan kan deze persoonlijke gegevens bevatten zonder hun medeweten noch hun toestemming. Het vervelende is dat zowel de gegevens als de ontwikkelde technieken gebruikt kunnen worden voor kwaadaardige doeleinden. Er zijn populaire computer vision toepassingen die controversieel zijn, zoals bijvoorbeeld gezichtsherkenning of deepfakes. Bij beide zie je dat identiteitsdiefstal een risico is. Deepfakes kunnen onder meer worden gebruikt voor nepnieuws.
Ik besloot dit onderzoek te doen omdat het gericht is op een positief gebruik van de kracht van computer vision: het behoud van de privacy van mensen. En wel zodanig dat dit leidt tot de bescherming van persoonlijke gegevens. Dit is tegenwoordig nog relevanter, gezien hoe ‘hyperconnected’ onze wereld en onze samenleving zijn, vooral vanwege de rijkelijke aanwezigheid van camera’s (via smartphones, bewakingssystemen, IoT-apparaten).
Hoe is dit relevant voor bedrijven?
Dit onderzoek begon als een opdracht voor de organisatie achter het Paaspop muziekfestival. Tijdens het festival maken ze gebruik van een grootschalig CCTV-systeem om de veiligheid van de bezoekers te garanderen. Daarnaast willen ze de opnames van de omgeving van het festival opslaan om op lange termijn verkeers- en voetgangerspatronen te analyseren. Dit helpt hen bijvoorbeeld bij het verbeten van logistieke stromen en de coördinatie van beveiligingsinstanties.
De huidige privacy- en gegevensbeschermingsvoorschriften in de Europese Unie – beter bekend als de AVG – staan echter geen permanente opslag van dit soort bewakingsopnamen toe. Tenzij de opnames volledig geanonimiseerd zijn. Het grootste probleem is dat de AVG-definitie van persoonsgegevens vrij open en dubbelzinnig is. Het kan tientallen verschillende visuele kenmerken omsluiten die te vinden zijn op afbeeldingen en video’s, voornamelijk bij mensen en voertuigen. Zelfs de manier van lopen van een persoon (de snelheid en staplengte van een persoon tijdens het lopen) wordt tegenwoordig beschouwd als een persoonlijk gegeven, omdat het is bewezen dat dit helpt om een persoon te identificeren.
Het doel van de voorgestelde methode is om ervoor te zorgen dat vooral privacy en anonimiteit eenvoudig worden gegarandeerd. Dit terwijl alleen de informatie van de originele video’s die relevant is voor het deel van de crowd-analyse behouden blijven.
Dit onderzoek is daarom niet alleen relevant voor de context van het Paaspop festival. Ook voor andere toepassingen waar video’s worden opgeslagen die aan de AVG moeten voldoen, is dit onderzoek van belang. Als je de video volledig anonimiseert is dat de veiligste keuze, zelfs voor toepassingen waar enkel pseudonimisering genoeg is. Denk aan winkels en bedrijven die analyses willen uitvoeren op CCTV-systemen. Maar ook aan TV/videoproductiebedrijven of PR- en marketingteams die beeldmateriaal hebben opgenomen in de openbare ruimte. De resulterende methode stelt bedrijven in staat om zowel hoge economische boetes te vermijden als de privacyrechten van hun gebruikers te beschermen, op een geautomatiseerde en intuïtieve manier.
Wat waren de belangrijkste obstakels in jouw onderzoek?
Het belangrijkste idee achter de voorgestelde methode was om te proberen om 3D-informatie te extraheren uit een 2D-video. Deze informatie gebruiken we vervolgens om de scène in een nieuwe 3D-ruimte op te bouwen met geanonimiseerde modellen van de objecten. We zetten niet letterlijk het beeld van een persoon om naar 3D, maar de persoon wordt een algemeen ‘poppetje’ in de 3D-scene.
Het grootste probleem was dus het omzetten van de informatie van 2D naar 3D. In een 2D-bron ontbreekt het van nature aan alle 3D-informatie, dus het moet worden ingeschat. We gebruiken één camera, dat net zo werkt als één oog en daar proberen we bijvoorbeeld diepte, hoogte en de horizon bij te schatten door het met een tweede oog te voorspellen.
Een ander obstakel was dat de verschillende technieken die werden gebruikt, gebaseerd zijn op onderzoek dat nog in volle gang is. Technieken zoals objectdetectie en -segmentatie zijn al erg geavanceerd, maar blijkbaar nog steeds niet perfect. Andere technieken, zoals diepteschatting van 2D-beelden, bevinden zich nog in een vroeg stadium en de resultaten zijn tot nu toe zeer beperkt.
Info Support Research Center
Een van de ambities die Info Support heeft geformuleerd vanuit het Info Support Research Center is om AI en Machine Learning transparanter te maken, zodat gebruikers de modellen die we implementeren begrijpen en vertrouwen.