Artikel

Research naar anonimiseren van video met machine learning en Computer Vision

Artikel

Research naar anonimiseren van video met machine learning en Computer Vision

Om verkeersstromen goed te laten lopen, analyseren steeds meer evenementen hun camerabeelden. Dit om zowel de veiligheid van bezoekers als de verkeersdrukte te verbeteren. Uiteraard zitten er privacyaspecten aan het bewaren en verwerken van deze camerabeelden. Daarom spreken we met Lucía Conde over haar onderzoek naar het anonimiseren van camerabeelden en wat bedrijven hier aan hebben.

Lucía Conde is Data Scientist bij Info Support en heeft haar Master Artificial Intelligence afgerond aan de Universiteit van Utrecht.

Waar gaat jouw onderzoek over en waarom heb je dit onderzoek gedaan?

Mijn onderzoek gaat over de haalbaarheid en ontwikkeling van nieuwe manieren voor het geautomatiseerd anonimiseren van video met machine learning en computer vision technieken.

Computer vision is een techiek die de computer naar beeld laat ‘kijken’ zoals wij mensen dat doen. Dit is een gebied binnen de toegepaste AI (artificial intelligence) waar ik een passie voor heb. Als we de computer beelden laten analyseren, zijn er echter wel ethische implicaties. Namelijk: indien bijvoorbeeld mensen zichtbaar zijn in de video, dan kan deze persoonlijke gegevens bevatten zonder hun medeweten noch hun toestemming. Het vervelende is dat zowel de gegevens als de ontwikkelde technieken gebruikt kunnen worden voor kwaadaardige doeleinden. Er zijn populaire computer vision toepassingen die controversieel zijn, zoals bijvoorbeeld gezichtsherkenning of deepfakes. Bij beide zie je dat identiteitsdiefstal een risico is. Deepfakes kunnen onder meer worden gebruikt voor nepnieuws.

Ik besloot dit onderzoek te doen omdat het gericht is op een positief gebruik van de kracht van computer vision: het behoud van de privacy van mensen. En wel zodanig dat dit leidt tot de bescherming van persoonlijke gegevens. Dit is tegenwoordig nog relevanter, gezien hoe ‘hyperconnected’ onze wereld en onze samenleving zijn, vooral vanwege de rijkelijke aanwezigheid van camera’s (via smartphones, bewakingssystemen, IoT-apparaten).

Hoe is dit relevant voor bedrijven?

Dit onderzoek begon als een opdracht voor de organisatie achter het Paaspop muziekfestival. Tijdens het festival maken ze gebruik van een grootschalig CCTV-systeem om de veiligheid van de bezoekers te garanderen. Daarnaast willen ze de opnames van de omgeving van het festival opslaan om op lange termijn verkeers- en voetgangerspatronen te analyseren. Dit helpt hen bijvoorbeeld bij het verbeten van logistieke stromen en de coördinatie van beveiligingsinstanties.

De huidige privacy- en gegevensbeschermingsvoorschriften in de Europese Unie – beter bekend als de AVG – staan echter geen permanente opslag van dit soort bewakingsopnamen toe. Tenzij de opnames volledig geanonimiseerd zijn. Het grootste probleem is dat de AVG-definitie van persoonsgegevens vrij open en dubbelzinnig is. Het kan tientallen verschillende visuele kenmerken omsluiten die te vinden zijn op afbeeldingen en video’s, voornamelijk bij mensen en voertuigen. Zelfs de manier van lopen van een persoon (de snelheid en staplengte van een persoon tijdens het lopen) wordt tegenwoordig beschouwd als een persoonlijk gegeven, omdat het is bewezen dat dit helpt om een persoon te identificeren.

Het doel van de voorgestelde methode is om ervoor te zorgen dat vooral privacy en anonimiteit eenvoudig worden gegarandeerd. Dit terwijl alleen de informatie van de originele video’s die relevant is voor het deel van de crowd-analyse behouden blijven.

Dit onderzoek is daarom niet alleen relevant voor de context van het Paaspop festival. Ook voor andere toepassingen waar video’s worden opgeslagen die aan de AVG moeten voldoen, is dit onderzoek van belang. Als je de video volledig anonimiseert is dat de veiligste keuze, zelfs voor toepassingen waar enkel pseudonimisering genoeg is. Denk aan winkels en bedrijven die analyses willen uitvoeren op CCTV-systemen. Maar ook aan TV/videoproductiebedrijven of PR- en marketingteams die beeldmateriaal hebben opgenomen in de openbare ruimte. De resulterende methode stelt bedrijven in staat om zowel hoge economische boetes te vermijden als de privacyrechten van hun gebruikers te beschermen, op een geautomatiseerde en intuïtieve manier.

Wat waren de belangrijkste obstakels in jouw onderzoek?

Het belangrijkste idee achter de voorgestelde methode was om te proberen om 3D-informatie te extraheren uit een 2D-video. Deze informatie gebruiken we vervolgens om de scène in een nieuwe 3D-ruimte op te bouwen met geanonimiseerde modellen van de objecten. We zetten niet letterlijk het beeld van een persoon om naar 3D, maar de persoon wordt een algemeen ‘poppetje’ in de 3D-scene.

Het grootste probleem was dus het omzetten van de informatie van 2D naar 3D. In een 2D-bron ontbreekt het van nature aan alle 3D-informatie, dus het moet worden ingeschat. We gebruiken één camera, dat net zo werkt als één oog en daar proberen we bijvoorbeeld diepte, hoogte en de horizon bij te schatten door het met een tweede oog te voorspellen.

Een ander obstakel was dat de verschillende technieken die werden gebruikt, gebaseerd zijn op onderzoek dat nog in volle gang is. Technieken zoals objectdetectie en -segmentatie zijn al erg geavanceerd, maar blijkbaar nog steeds niet perfect. Andere technieken, zoals diepteschatting van 2D-beelden, bevinden zich nog in een vroeg stadium en de resultaten zijn tot nu toe zeer beperkt.

Info Support Research Center

Een van de ambities die Info Support heeft geformuleerd vanuit het Info Support Research Center is om AI en Machine Learning transparanter te maken, zodat gebruikers de modellen die we implementeren begrijpen en vertrouwen. Om dit te realiseren wordt er jaarlijks wetenschappelijk onderzoek gedaan binnen dit domein. …

Wat is het belangrijkste inzicht dat je hebt opgedaan?

Met betrekking tot het onderwerp zelf is het belangrijkste inzicht hoe ruim de definitie van persoonsgegevens is, vooral binnen de context van de EU en de AVG. Zelfs de kleinste details in een afbeelding kunnen worden beschouwd als persoonlijke gegevens. Het is moeilijk om een evenwicht te vinden tussen anonimiteit en het bewaren van informatie. Om volledige anonimiteit te garanderen, moeten we mogelijk informatie opofferen die relevant is voor de beoogde taak.

Wat betreft het AI-aspect: hoe moeilijk het is om machine learning-modellen te ontwikkelen voor bepaalde computervisiontoepassingen die echt kunnen leren aan de hand van verschillende invoerbeelden en scenario’s. Voor veel huidige problemen zijn er niet veel beschikbare gegevens die geschikt zijn. Daardoor gebruiken de meeste nieuwere algoritmen dezelfde gegevens en dezelfde benchmarks om zichzelf met elkaar te vergelijken. Dit  maakt het soms moeilijk om te weten of we een goed model maken.

Heb je een mening over waar videobewaking naartoe gaat?

Ik merkte bij het onderzoek dat er twee belangrijke kenmerken zijn bij bestaande privacy-behoudoplossingen voor afbeeldingen en video’s. Het eerste kenmerk is dat ze zich richten op het anonimiseren van een enkele persoonlijke identificatiegegevens. Met als gevolg dat als er toch nog wat persoonsgegevens zichtbaar zijn, de anonimiteit niet gegarandeerd is en dat dan de AVG nog steeds geldt. Het tweede kenmerk is dat alle bestaande technieken zijn gebaseerd op de verwerking of het manipuleren van een deel van de oorspronkelijke afbeelding of video. Het probleem hierbij is dat deze benaderingen te veel afhankelijk is van een nauwkeurige detectie van de persoonlijke gegevens. Als een persoonlijk gegeven niet correct wordt gedetecteerd, zelfs niet in een enkel frame in een video, zal het nog steeds zichtbaar zijn en kan het de identiteit van de persoon worden blootgelegd.

De redenering achter mijn methode is als volgt: als we een aparte videobron creëren, dan zorgen we dat de privacy altijd gegarandeerd is, zelfs als de detectie mislukt. De nieuwe bron bevat alleen maar modellen van objecten, zoals generieke poppetjes en voertuigen, zodat nooit per ongeluk een persoonsgegeven wordt overgezet. We  geven daarmee prioriteit aan privacy boven het behoud van mogelijk relevante gegevens.

Persoonlijk denk ik dat dit soort anonimiseringstechnieken populairder worden binnen bewakingssystemen. Bestaande privacy-behoudtechnieken kunnen worden gecombineerd om vervolgens een aparte videobron met anonieme representaties te creëren.

Blijf op de hoogte van AI met ons e-magazine


Meer informatie over hoe Info Support met uw gegevens omgaat, vindt u in de privacyverklaring.