Herkenning van digitale informatie

115
ONGERUBRICEERD ONGERUBRICEERD Brassersplein 2 Postbus 5050 2600 G B Del ft www.tno .nl T +31 15 28 5 7 0 00 F +31 15 28 5 7 0 57 info-ict@ tno.nl TNO-rapport Herkenning van Digitale Informatie Datum 31 maart 2010 Auteur(s) Reviewer Opdrachtgever NCTb Projectnummer 035.33396 Rubricering rapport Ongerubriceerd Titel Ongerubriceerd Samenvatting Ongerubriceerd Rapporttekst Ongerubriceerd Bijlagen Ongerubriceerd Aantal pagina's 115 (incl. bijlagen) Aantal bijlagen 1 Alle rechten voorbehouden. Niets uit dit rapport mag worden vermenigvuldigd en/of openbaar gemaakt door middel van druk, fotokopie, microfilm of op welke andere wijze dan ook, zonder voorafgaande schriftelijke toestemming van TNO. Indien dit rapport in opdracht werd uitgebracht, wordt voor de rechten en verplichtingen van opdrachtgever en opdrachtnemer verwezen naar de Algemene Voorwaarden voor onderzoeksopdrachten aan TNO, dan wel de betreffende terzake tussen de partijen gesloten overeenkomst. Het ter inzage geven van het TNO-rapport aan direct belanghebbenden is toegestaan. © 2010 TNO

Transcript of Herkenning van digitale informatie

Page 1: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD

Brassersplein 2 Po stbus 5050 2600 G B Delft w w w .tno .nl T +31 15 28 5 7 0 00 F +31 15 28 5 7 0 57 info -ic t@ tno .nl

TNO-rapport

Herkenning van Digitale Informatie

Datum 31 maart 2010 Auteur(s) Reviewer Opdrachtgever NCTb Projectnummer 035.33396 Rubricering rapport Ongerubriceerd Titel Ongerubriceerd Samenvatting Ongerubriceerd Rapporttekst Ongerubriceerd Bijlagen Ongerubriceerd Aantal pagina's 115 (incl. bijlagen) Aantal bijlagen 1 Alle rechten voorbehouden. Niets uit dit rapport mag worden vermenigvuldigd en/of openbaar gemaakt door middel van druk, fotokopie, microfilm of op welke andere wijze dan ook, zonder voorafgaande schriftelijke toestemming van TNO.

Indien dit rapport in opdracht werd uitgebracht, wordt voor de rechten en verplichtingen van opdrachtgever en opdrachtnemer verwezen naar de Algemene Voorwaarden voor onderzoeksopdrachten aan TNO, dan wel de betreffende terzake tussen de partijen gesloten overeenkomst.

Het ter inzage geven van het TNO-rapport aan direct belanghebbenden is toegestaan. © 2010 TNO

Page 2: Herkenning van digitale informatie

ONGERUBRICEERD

2 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 3: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 3 / 114

Samenvatting

Dit rapport bevat een breedteverkenning in het kader van het onderzoeksprogramma ‘Herkenning Digitale Informatie en Fingerprinting (HDIeF)’, dat de komende jaren zal lopen bij de NCTb. Op basis van dit rapport kunnen keuzes worden gemaakt voor de richting binnen het programma. Als zodanig vormt het één van de startpunten van het programma. Het herkennen van digitale informatie heeft betrekking op het ontdekken van relevante informatie in digitale data. Deze data kan bestaan uit verschillende modaliteiten zoals audio, beeld, video en tekst fragmenten, maar ook logdata van bijvoorbeeld internet verkeer. De enorme hoeveelheid informatie die vandaag de dag wordt gecreëerd en uitgewisseld, vooral dankzij het internet, maakt het ontdekken van relevante informatie tot het vinden van een speld in een hooiberg. Dit rapport beschrijft een aantal toepassingen van automatische herkenning van digitale informatie: • (Bijna)-identieke bestanden of delen daarvan • Verborgen boodschappen • Personen • Verdacht gedrag • Objecten, zoals logo’s of auto’s • Tekst in beeld/video • Opvallend internet-/netwerkverkeer • Netwerken van personen (sociale netwerken) • Taaluitingen Per toepassing worden één of meerdere technologieën beschreven. Per technologie worden de volgende aspecten beschreven: • Werkingsprincipes • Toepassingen • Spelersveld • Publieke benchmarks en prestaties • Uitdagingen en beperkingen van de techniek De technologieën die beschreven zijn in dit rapport zijn grofweg onder te verdelen in drie categorieën: 1 Het herkennen van een specifiek voorbeeld of item (identificatie/verificatie van

bestand, fragment, persoon, object, etc.) 2 Het herkennen van een specifiek concept (interpretatie/detectie van multimedia

content) 3 Het leggen van verbanden tussen materiaal (content linking, N-op-N relaties)

Page 4: Herkenning van digitale informatie

ONGERUBRICEERD

4 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Onderstaand figuur presenteert de relaties tussen de besproken toepassingen om iets (‘wat’) ergens in te herkennen (’waarin/waarvandaan’), met een bepaalde technologie (‘waarmee’). Met als doel: het herkennen van digitale informatie. De figuur is op groter formaat in Bijlage A opgenomen.

Herkenning van digitale informatie

Doel

Wat

Waarin

Hoe

Objec ten, z o alslo g o ’s, auto ty pes, lo c aties,

eig ennam en, etc .

Identiteit vanPerso nen

Verbo rg en bo o d-

sc happen

Bekende bestanden

G ebruikte o pnam e

apparatuur

Netw erken van (c rim inele) perso nen

Tekst in beeld/video

W eblo g s

Online (Hy ves, Tw itterLinkedIN, F ac eBo o k) So c iale netw erk

analy se

Video /fo toc am era o f

m o biel

PRNU

Steg ano g rafie / Steg analy se

Optic alc harac terrec o g nitio n (OCR)

Lo g data vanNetw erkverkeer

Deep Pac ketInspec tio n

Verdac ht g edrag / Radic alisering

Beelden vano bservatie-c am era’s

Sprekerherkenning

G espro ken c o ntent (bv. telefo o ntaps)

G ez ic ht in beeld

G ez ic htidentific atie

Lic haam skenm erkenin beeld

Num m erbo rdenvan auto ’s

Optic alc harac terrec o g nitio n (OCR)

SIF T/SURFfeatures

In beeld-m ateriaal

o p het internet

Audio /M uz iek

Tekstbestanden

M isbruik beeldm ateriaal

Illeg ale video o p Y o uTube o f

in beslag g eno m enharde sc hijf

Audiofing erprinting

Kleding in beeld

Bew eg ing s-identific atie

W aterm arking

Video -fing erprinting

Tekstfing erprinting

Dig itaalbeeldm ateriaal

Nam ed entityrec o g nitio n

Auteursc haps-herkenning

Sentim entherkenning

Spraakherkenning

Audiokanaal

Tekst

Tekst o phet w eb

G edrag s-herkenning

(g ew eld, ag ressie, etc ) SIF T/SURF

features

Em o tieherkenning (bo o sheid, etc )

Leeftijdherkenning

Do o r-z o ekbaar m aken AVm ateriaal

G elo g de o bservaties

Netw erk analy se to o ls

Relevantedo c um enten

G ro teho eveelhedendo c um enten

Taalherkenning

G eperso naliseerdfilteren

Taaltec hno lo g ie

Onderw erpsc lassific atie

De belangrijkste conclusies van dit rapport zijn: • Bestaande technologie is geoptimaliseerd voor een bepaald gebruik; een nieuw

toepassingsdomein legt nieuwe eisen op aan de technologie en is daarmee niet per definitie (direct) toepasbaar.

• Technologie die geïntegreerd is in commerciële producten is niet per definitie beschikbaar voor onderzoek en projectuitvoering.

• Een technologische innovatie is nog geen praktische oplossing die grootschalig uitgerold kan worden.

• (Gebrek aan) interoperabiliteit tussen verschillende patijen kan innovatieve oplossingen in de weg staan.

De belangrijkste aanbevelingen voor succesvolle toepassing van technologie voor herkenning digitale informatie zijn: • Wederzijds begrip tussen experts en stakeholders moet gestimuleerd worden. • Met nieuwe technologie Proof of Concepts uitvoeren die aansluiten bij het

toepassingsdomein • Met mature technologie benchmarks uitvoeren die aansluiten bij het

toepassingsdomein • Synergie tussen technologieën benutten door slimme combinaties van

technologieën en modaliteiten

Page 5: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 5 / 114

Inhoudsopgave Samenvatting.................................................................................................................. 3

1 Inleiding .......................................................................................................................... 7 1.1 Opbouw van dit rapport ................................................................................................... 7 1.2 Scope van dit rapport ....................................................................................................... 9

2 Technologische achtergrond ....................................................................................... 11 2.1 Manieren om een technologie te gebruiken ................................................................... 11 2.2 Indeling van technieken ................................................................................................. 13 2.3 Kwaliteitsaspecten ......................................................................................................... 14

3 Herkennen van bestanden of delen daarvan ............................................................. 17 3.1 Hashing .......................................................................................................................... 17 3.2 Fingerprinting ................................................................................................................ 19 3.3 Watermarking ................................................................................................................ 31

4 Versturen van geheime boodschappen (steganografie) en de detectie daarvan (steganalyse) ................................................................................................................. 39

4.1 Inleiding......................................................................................................................... 39 4.2 Werkingsprincipes ......................................................................................................... 39 4.3 Watermerken versus steganografie ................................................................................ 41 4.4 Steganalyse .................................................................................................................... 42 4.5 Uitdagingen.................................................................................................................... 43 4.6 Het spelersveld............................................................................................................... 43 4.7 Referenties ..................................................................................................................... 43

5 Herkennen van de gebruikte foto- of videocamera................................................... 45 5.1 Inleiding......................................................................................................................... 45 5.2 Beperkingen van de techniek......................................................................................... 45 5.3 Werkingsprincipes ......................................................................................................... 45 5.4 Toepassingen ................................................................................................................. 50 5.5 Het spelersveld............................................................................................................... 50 5.6 Publieke benchmarks en performance ........................................................................... 50 5.7 Uitdagingen.................................................................................................................... 51 5.8 Referenties ..................................................................................................................... 51

6 Herkenning van personen ........................................................................................... 53 6.1 Spreker identificatie in audio ......................................................................................... 53 6.2 Gezichtsherkenning ....................................................................................................... 61 6.3 Persoonsherkenning op basis van 3D lichaamsmaten.................................................... 67 6.4 Personen volgen op basis van uiterlijke kenmerken ...................................................... 71 6.5 Persoonsidentificatie op basis van beweging................................................................. 73 6.6 Herkenning van afwijkend of verdacht gedrag .............................................................. 75

7 Herkenning van objecten ............................................................................................ 77 7.1 Objectherkenning met SIFT of SURF features.............................................................. 77 7.2 Autotypeherkenning....................................................................................................... 77 7.3 Logoherkenning............................................................................................................. 81

Page 6: Herkenning van digitale informatie

ONGERUBRICEERD

6 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

8 Herkennen van tekst in beeld en video (OCR) .......................................................... 85 8.1 Inleiding......................................................................................................................... 85 8.2 Toepassingen ................................................................................................................. 85 8.3 Werking OCR technologie............................................................................................. 86 8.4 Het spelersveld............................................................................................................... 88 8.5 Referenties ..................................................................................................................... 90

9 Analyseren van netwerkverkeer: Deep Packet Inspection....................................... 91 9.1 Inleiding......................................................................................................................... 91 9.2 Toepassingen ................................................................................................................. 91 9.3 Beperkingen van de techniek......................................................................................... 92 9.4 Werkingsprincipes ......................................................................................................... 93 9.5 Het spelersveld............................................................................................................... 94 9.6 Publieke benchmarks ..................................................................................................... 95

10 Taal technologie ........................................................................................................... 97 10.1 Inleiding......................................................................................................................... 97 10.2 Werkingsprincipes ......................................................................................................... 97 10.3 Beperkingen van de techniek......................................................................................... 98 10.4 Toepassingen ................................................................................................................. 99 10.5 Het spelersveld............................................................................................................. 100 10.6 Publieke benchmarks en performance ......................................................................... 100 10.7 Referenties ................................................................................................................... 101

11 Analyse van sociale netwerken ................................................................................. 103 11.1 Inleiding....................................................................................................................... 103 11.2 Werkingsprincipes ....................................................................................................... 104 11.3 Het spelersveld............................................................................................................. 106 11.4 Publieke benchmarks en performance ......................................................................... 106 11.5 Referenties ................................................................................................................... 106

12 Conclusies ................................................................................................................... 109

13 Ondertekening............................................................................................................ 113 Bijlage(n) A Schematisch overzicht herkenning van digitale informatie

Page 7: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 7 / 114

1 Inleiding

Dit rapport bevat een breedteverkenning in het kader van het onderzoeksprogramma ‘Herkenning Digitale Informatie en Fingerprinting (HDIeF)’, dat de komende jaren zal lopen bij de NCTb. Het herkennen van digitale informatie heeft betrekking op het ontdekken van relevante informatie in digitale data. Deze data kan bestaan uit verschillende modaliteiten zoals audio, beeld, video en tekst fragmenten, maar ook logdata van bijvoorbeeld internet verkeer. De enorme hoeveelheid informatie die vandaag de dag wordt gecreëerd en uitgewisseld, met name dankzij het internet, maakt het ontdekken van relevante informatie tot het vinden van een speld in een hooiberg. Er is daarom een behoefte aan technologie die orde brengt in deze digitale chaos. Technologie die relevante informatie uit een database haalt, verbanden legt tussen een veelheid aan digitale bestanden, personen en objecten in die bestanden. Dit is essentieel in de strijd tegen cybercrime en opsporing van bepaalde strafbare feiten. Het is de verwachting dat in dit programma onderzoek en ontwikkeling zullen plaatsvinden, gericht op verbetering en vergroting van de toepasbaarheid van deze technologie. Dit rapport beschrijft een breed scala aan technologieën. Doel is in kaart te brengen wat er is, wat er kan en hoe de toepasbaarheid is. Dit rapport gaat in op technologische aspecten. Op het moment van schrijven is het nog onduidelijk wat de exacte toepassingsscenario’s zullen zijn.

1.1 Opbouw van dit rapport

In dit rapport komen een aantal toepassingen aan de orde; iedere toepassing wordt in een apart hoofdstuk beschreven. Voor iedere toepassing is één of meerdere technologieën beschikbaar. Van elke technologie wordt de globale werking en haar toepassing uitgelegd. Waar bekend worden performance indicators en de beperkingen van die technologie toegelicht. Tevens wordt waar mogelijk een indicatie gegeven wie de aanbieders en/of de experts zijn per technologie. De technieken kunnen op verschillende wijze worden gebruikt. Ze kunnen worden gebruikt om content te verifiëren of te identificeren, om data te interpreteren of juist informatie te detecteren. Tenslotte kan deze technologie worden ingezet om verbanden te leggen tussen stukken content. Hoofdstuk 2 zet de verschillende wijzen van gebruik op een rij. Hoofdstuk 3 beschrijft een drietal technologieën om digitale bestanden of fragmenten daarvan te kunnen herkennen: • Hashing: Een cryptografisch algoritme berekent op basis van de inhoud van een

digitaal bestand een korte code die kenmerkend is voor dit bestand. Op basis van deze hash-waarde kan dit bestand snel herkend worden. Het maakt niet uit wat voor soort bestand het is. Nadeel is, dat het veranderen van één enkele pixel van een foto leidt tot een compleet andere hash waarde.

Page 8: Herkenning van digitale informatie

ONGERUBRICEERD

8 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

• Fingerprinting: Een korte representatie van de inhoud van een bestand gebaseerd kenmerken die aansluiten bij de manier waarop mensen de inhoud van audio-visueel waarnemen of tekstbestand interpreteren. Hiermee kunnen delen of fragmenten van bestanden herkend worden. Deze technologie is robuust tegen kleine wijzigingen van de inhoud, doordat hij is geoptimaliseerd voor iedere modaliteit (tekst, audio, video). Er is niet één techniek die voor iedere modaliteit gebruikt kan worden voor zowel audio, video, tekst of data. Voor iedere modaliteit zijn specifieke varianten ontwikkeld.

• Watermarking: Een indicator die toegevoegd is aan een specifiek bestand. Deze technologie is robuust tegen een aantal wijzigingen van de content. Vervolgens is het nog steeds mogelijk de indicator uit te lezen, zodat bijvoorbeeld de originele bron aangetoond kan worden.

Hoofdstuk 4 beschrijft steganografie en steganalyse. Steganografie is technologie voor het geheim versturen van boodschappen. Doel van deze technologie is om te communiceren zonder dat een buitenstaander doorheeft dát er gecommuniceerd wordt. Steganalyse is hier sterk aan gerelateerd. Dit heeft betrekking op de detectie van verborgen boodschappen in communicatie. Dit laatste kan relevant zijn in het kader van de strijd tegen terrorisme en criminele activiteiten. Iedere sensor chip in een camera is uniek door imperfecties in het fabricageproces. Dit laat een uniek patroon achter in het geproduceerde beeldmateriaal. Hoofdstuk 5 beschrijft de principes die gebruikt kunnen worden om foto’s en video materiaal te herleiden tot de camera, die gebruikt is voor het maken van de opnames. Ieder mens is ook uniek, en kan op basis van unieke kenmerken geïdentificeerd worden. Hoofdstuk 6 presenteert diverse technieken om personen in audio visueel materiaal te herkennen: • Sprekerherkenning: herkenning van een individu op basis van kenmerken in het

spraaksignaal, • Gezichtsherkenning: herkenning van een individu op basis van zijn gezicht in een

beeld, • Herkenning op basis van kleding, • Herkenning op basis van karakteristieke gedragskenmerken, • Herkenning op basis van lichaamsverhoudingen. In hetzelfde hoofdstuk wordt ook kort stilgestaan bij het herkennen van verdacht of afwijkend gedrag in camera beelden op basis van de geïntroduceerde technieken. In het kader van het programma kan het relevant zijn om bepaalde objecten te herkennen in beeldmateriaal. In hoofdstuk 7 worden staan een tweetal toepassingen centraal: • Herkenning van het type auto’s, • Herkenning van logo’s. De onderliggende technologie kan ook andere soorten objecten herkennen. Belangrijk is dat het gaat om het herkennen van structuren en vormen op een plat vlak. Deze informatie kan in beeld onder verschillende hoeken en oriëntaties herkend worden. Een veelvoorkomend probleem is het extraheren van tekst uit beeldmateriaal. Dit staat bekend als Optical Character Recognition (OCR) en wordt beschreven in hoofdstuk 8.

Page 9: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 9 / 114

Denk bijvoorbeeld aan het herkennen van kentekenplaten van auto’s. Een aanverwant probleem is het extraheren van tekst uit een audio signaal (spraakherkenning); daar wordt in dit rapport niet nader op ingegaan. In het kader van cybercrime is het belangrijk om activiteiten te monitoren op het internet. Hoofdstuk 9 belicht een techniek om verkeersstromen op het internet te analyseren: Deep Packet Inspection (DPI). Hoofdstuk 10 schetst het brede veld van taal technologie, dat zich richt op de automatische analyse van ongestructureerde tekst. Deze technologie wordt vaak ingezet om de hoeveelheid tekst die handmatig geïnterpreteerd moet worden te minimaliseren. Tenslotte wordt het in kaart brengen van sociale netwerken beschreven in hoofdstuk 11. ‘Sociaal netwerk’ is een breder begrip dan de bekende netwerken zoals Hyves en LinkedIn. Hierbij kan ook gedacht worden aan een extremistisch netwerk, waarbij de deelnemers een gedeeld doel hebben. Centraal staan de structuur van het netwerk en het aan elkaar relateren van informatie in het sociale netwerk. Bijvoorbeeld het herkennen van korte schriftelijke uitingen onder diverse pseudoniemen die toegeschreven kunnen worden aan dezelfde auteur.

1.2 Scope van dit rapport

Dit rapport beperkt zich tot de enkele technologische aspecten van de genoemde toepassingen en technologieën. Aspecten die te maken hebben met de grootschalige toepassing van de technologieën is buiten beschouwing gelaten. Het ongecontroleerd toepassen van deze intelligente technologie op data kan leiden tot schending van privacy. Dit aspect is belangrijk en daar zal ook binnen het HDIeF programma aandacht voor zijn, maar staat ook buiten de scope van dit rapport.

Page 10: Herkenning van digitale informatie

ONGERUBRICEERD

10 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 11: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 11 / 114

2 Technologische achtergrond

In dit rapport komt een groot aantal technologieën aan de orde. Dit hoofdstuk heeft tot doel een aantal technische achtergrond concepten nader toe te lichten. In het algemeen kunnen de technieken, die in dit rapport aan de orde komen, op een aantal verschillende manieren worden gebruikt. Deze worden beschreven in hoofdstuk 2.1. Iedere herkenningstechnologie kent zijn beperkingen en maakt fouten. Hoofdstuk 2.2 maakt het onderscheid tussen technieken die een specifiek item herkennen (bijvoorbeeld het gezicht van persoon X), en technieken die een detectie doen (herkenning dat er een gezicht in beeld is) of een concept herkennen (bijv. een bepaald soort sentiment). In hoofdstuk 2.3 komen enkele criteria aan de orde om de prestatie van een technologie, of een specifieke configuratie of implementatie daarvan, uit te drukken.

2.1 Manieren om een technologie te gebruiken

De in dit rapport beschreven identificatie technologieën kunnen voor een aantal typische scenario’s worden ingezet. Deze paragraaf behandelt de belangrijkste ervan, met als voorbeelddomein het herkennen van personen op videobeelden.

2.1.1 Identificatie Identificatie is het kenbaar maken van de identiteit van een persoon. Identificatie geeft antwoord op de vraag: ‘wie is het?’. In de context van persoonsidentificatie op (video)beelden is identificatie het proces waarbij een afbeelding van een nog onbekend persoon vergeleken wordt met alle in een database aanwezige afbeeldingen van personen en hun gegevens. Als de gegeven persoon voorkomt in die database, kan het systeem de gegevens van die persoon (zoals naam, adres, etc.) opleveren. Indien de persoon niet bekend is in het systeem zal het systeem dit ook moeten aangeven. Zoals uit deze omschrijving blijkt, is er sprake van twee stappen. In de eerste stap wordt een collectie opgebouwd van bekend materiaal (bekende personen, bekend video materiaal etc.). Zie ook onderstaande figuur. Deze worden, voor zover mogelijk (afhankelijk van de toepassing), voorzien van beschrijvingen. Dit gebeurt vaak handmatig, maar kan soms ook (semi-) automatisch, uiteraard weer afhankelijk van de toepassing. In veel van de technieken wordt niet het ruwe materiaal gebruikt voor herkenning, maar een afgeleide daarvan (bijv. hash, fingerprint, kenmerken van het gezicht). Dit wordt in de figuur samengevat in de stap bewerking. Voor herkenning hoeft niet altijd het oorspronkelijke materiaal (audio-visueel signaal, pasfoto, etc.) opgeslagen te worden. In veel toepassingen is dit echter wel aan te raden, o.a. om te zorgen dat er later nog op een andere technologie kan worden overgestapt.

Page 12: Herkenning van digitale informatie

ONGERUBRICEERD

12 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Figuur 2-1 Eerste stap bij identificatie: het vullen van de database met de bekende items, afgeleide kenmerken en modellen, en de bijbehorende metadata.

In de tweede stap wordt het te identificeren materiaal vergeleken met het materiaal in de database, en geeft het systeem gegevens terug over het geïdentificeerde materiaal, indien succesvol. Dit wordt geïllustreerd in onderstaande figuur.

Figuur 2-2 Tweede stap bij identificatie: het identificeren van een onbekend item aan de hand van een database met bekende items.

2.1.2 Verificatie Bij verificatie wordt nagegaan of een persoon daadwerkelijk degene is die hij beweert dat hij is. In de context van video wordt bij verificatie een vooraf opgeslagen afbeelding van de persoon en de bijbehorende gegevens opgevraagd en automatisch (of met het menselijk oog) vergeleken met de persoon in kwestie. Verificatie geeft antwoord op de vraag: ‘is hij/zij persoon X?’ Verificatie is een één-op-één vergelijking. Hier komt geen database aan te pas. Onderstaande figuur illustreert het verificatie scenario. De stap bewerking kan bijvoorbeeld bevatten: het berekenen van een hash, een fingerprint, een ruispatroon van een camera etc.

Page 13: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 13 / 114

Figuur 2-3 Illustratie van verificatie (één-op-één vergelijking).

2.1.3 Linking Linking is een vorm van organiseren van alle beschikbare data, waarbij gelijksoortige data aan elkaar wordt gerelateerd. In de context van videobeelden worden bijvoorbeeld in een grote database van video’s groepen gemaakt van gelijksoortige video’s. Gelijksoortig kan betekenen dat er de beelden op elkaar lijken, of dat de beelden op dezelfde locatie zijn genomen, of dat er dezelfde persoon op de beelden te zien is. Het maakt het mogelijk om bij een gegeven video gemakkelijk gelijksoortige video’s op te leveren en kan als basis dienen voor een tool waarmee door een collectie kan worden ‘gebrowsed’.

2.1.4 Zoeken Zoeken is het proces waarbij een gebruiker een aantal criteria opgeeft (de ‘query’) en het systeem alle data (documenten, video’s) teruggeeft die aan die criteria voldoen. Een gebruiker kan bijvoorbeeld vragen om alle video’s die op een bepaalde datum op een bepaalde locatie genomen zijn. Het systeem controleert alle in de database aanwezige video’s volgens deze criteria, en geeft de video’s die eraan voldoen terug aan de gebruiker.

2.1.5 Filteren Filteren is het verwijderen van data uit een collectie volgens een vast of door de gebruiker gegeven criterium. Filteren is bijvoorbeeld nuttig wanneer een zoekvraag (zie vorige paragraaf) teveel resultaten oplevert. Een systeem kan dan alle video’s van voor een bepaalde datum bij voorbaat uitsluiten en niet als onderdeel van het resultaat teruggeven.

2.2 Indeling van technieken

De technieken die in dit rapport besproken worden, kunnen grofweg in drie categorieën worden verdeeld. 1 Het herkennen van een specifiek item (identificatie/verificatie van bestand,

fragment, persoon, object, etc.) Hieronder kunnen we technieken zoals hashing, fingerprinting, watermarking, logo herkenning etc. vatten. Belangrijk is dat met deze technieken uitsluitend items kunnen worden herkend die al eerder zijn voorgelegd aan het systeem. Doorgaans worden dit soort technieken dan ook gebruikt om twee items te vergelijken (verificatie, dwz. 1-op-1 vergelijking), of in combinatie met een database die de items bevat die herkend moeten worden (identificatie, dwz. 1-op-N vergelijking).

Page 14: Herkenning van digitale informatie

ONGERUBRICEERD

14 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

2 Het herkennen van een concept (interpretatie/detectie van/in multimedia content) Hierbij wordt niet een specifiek item herkend, maar een concept. Een voorbeeld is het herkennen van het concept ‘stoel’, in plaats van een specifieke stoel. Deze benadering vereist een model voor het te herkennen van concept. De complexiteit van het concept is bepalend in hoeverre het mogelijk is om een model te ontwikkelen. Een generiek concept herkennen zoals een ‘stoel’ is erg lastig. Daarentegen het detecteren van een gezicht gaat vrij goed. De uitkomst is de locatie van het gezicht in een beeld. Vervolgens kan met gezichtsidentificatie bepaald worden bij welk individu het gezicht hoort. Tenslotte zijn er veel succesvolle voorbeelden (bijv. sentiment) uit het tekstuele domein (zie ook hoofdstuk 10 en 11).

3 Het leggen van verbanden tussen materiaal (content linking, N-op-N relaties) Hierbij worden verbanden gelegd tussen items in een collectie materiaal. Een voorbeeld is het groeperen van foto’s op basis van welk persoon er op staat. Hierbij kan gebruik gemaakt worden van de technieken die in dit rapport beschreven zijn. De uitdaging is de strategie voor het linken van content. Hoe bepaal je op basis van welke kenmerken je gaat groeperen, hoe betrek je de gebruiker op een efficiënte wijze bij dit proces etc. We rekenen ook de technieken voor sociale netwerk analyse onder deze noemer.

De technieken die in één van bovengenoemde categorieën valt kan op verschillende wijzen worden gebruikt, zoals beschreven in hoofdstuk 2.1.

2.3 Kwaliteitsaspecten

Een automatisch systeem maakt altijd fouten. Er zijn twee typen fouten: iemand zal onterecht worden herkend, of juist niet worden herkend. De mate waarin een systeem deze type van fouten maakt kan uitgedrukt worden in de volgende twee begrippen: False Positive Rate (FPR) of False Accept Rate (FAR) is, in de context van paragraaf 2.1.2, de kans dat een persoon ten onrechte herkend wordt in een video: het systeem beweert dat de persoon in de video is te zien, terwijl dit in werkelijkheid niet het geval is. False Negative Rate (FNR) of False Rejection Rate (FRR) is, in de context van paragraaf 2.1.2, de kans dat een persoon ten onrechte niet wordt herkend in een video: het systeem beweert dat de persoon niet te zien is in de video terwijl hij/zij in werkelijkheid wel op de video te zien is. Automatische herkenning zal doorgaans gepaard gaan met een indicatie hoe zeker het systeem is dat de herkenning correct (of relevant) is. Dit kan uitgedrukt worden in een getal, de zgn. confidence score; hoe hoger de confidence score, des te zekerder is het systeem dat de herkenning klopt. In de context van paragraaf 2.1.2 zal de herkenning alleen succesvol zijn indien de confidence score hoger is dan een bepaalde drempel waarde. Als een hoge drempel wordt gehanteerd, zal alleen de meest zekere herkenning worden geaccepteerd. Indien een lage drempel wordt gehanteerd zullen bijna alle herkenningen worden geaccepteerd. Afhankelijk van de instelling van het systeem – drempelwaarde tov. confidence score – zal de nadruk komen te liggen op een van beide fouten.

Page 15: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 15 / 114

De termen Recall en Precision komen uit de Information Retrieval en zijn waardevolle kwaliteitsindicatoren in de context van paragraaf 2.1.4 waarin met een systeem naar video’s kan worden gezocht waarop een gegeven persoon te zien is. Precision is de verhouding tussen het aantal relevante resultaten (documenten, treffers), en het totaal aantal resultaten dat door het systeem is teruggeven. In de context van paragraaf 2.1.4 is Precision het door het systeem teruggeven aantal video’s waarop een gegeven persoon daadwerkelijk te zien is, gedeeld door het totaal aantal video’s dat wordt teruggegeven. Bij een lage Precision is in veel van de teruggegeven video’s de persoon niet te zien en is er dus sprake van veel irrelevante resultaten. Bij een hoge precision is in (bijna) alle teruggegeven video’s de persoon te zien en is er dus sprake van weinig of geen irrelevante resultaten. Recall is de verhouding tussen het aantal relevante gevonden documenten, en het totaal aantal relevante documenten, dat er mogelijk zijn. In de context van paragraaf 2.1.4 is Recall de verhouding tussen het aantal video’s dat door het systeem wordt teruggegeven waarin een gegeven persoon voorkomt, en het totaal aantal video’s in de gehele collectie waarin de persoon voorkomt. Een lage Recall betekent dat het systeem slechts enkele van de video’s waarop een persoon te zien is teruggeeft. Een hoge Recall betekent dat (bijna) alle video’s waarop de persoon te zien is wordt teruggegeven. Detectiesnelheid wordt bepaald door de tijd dat een systeem nodig heeft om tot resultaat te komen. Bijvoorbeeld in het geval van toegangscontrole: bij verificatie van personen bij binnenkomst van een voetbalstadion is het wenselijk dat het systeem voldoende snel werkt om congestie (en irritatie) te voorkomen. Snelheid is een relevant evaluatie criterium voor elk van de scenario’s in paragraaf 2.1. In veel gevallen zal er sprake zijn van een trade-off tussen snelheid en kwaliteit. In het algemeen kan worden aangenomen dat systemen met een hoge recall en een lage FPR en FNR zijn trager dan systemen die minder goed scoren op deze indicatoren. Veel van de technieken in dit rapport herkennen informatie die het systeem eerder gezien heeft. Kortom, herkenning op basis van referentiemateriaal. De volgende aspecten zijn van invloed op de herkenningskwaliteit: • Kwaliteit van het referentiemateriaal en het te herkennen materiaal

De kwaliteit van het materiaal in de database en van het te herkennen materiaal bepaalt voor een groot deel de kwaliteit van de herkenning. Uiteraard geldt in meer of mindere mate: hoe beter de kwaliteit, hoe beter de te verwachten herkenning zal zijn. Denk bij kwaliteit aan beeld resolutie, opname condities, etc.

• De lengte van het te herkennen materiaal in de database Kortere fragmenten (tekst, audio, video) zijn lastiger te beoordelen en leveren mindere kwaliteit identificatie of interpretatie op.

• Aantal items dat onderscheiden moet kunnen worden Hoe minder items het systeem uit elkaar moet kunnen houden, des te eenvoudiger het wordt. De praktijk laat zien dat het wenselijk is om relevante items te herkennen in grote hoeveelheden content.

Page 16: Herkenning van digitale informatie

ONGERUBRICEERD

16 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 17: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 17 / 114

3 Herkennen van bestanden of delen daarvan

Dit hoofdstuk beschrijft een drietal technieken om bestanden te herkennen. • Een hash is een korte digitale representatie van een digitaal item. Als de bits en

bytes van twee bestanden identiek zijn, zijn de hash waardes dat ook. Als er ook maar één bit verschillend is tussen de bestanden, dan zijn de hash waardes compleet verschillend.

• In sommige toepassingen is het niet nodig om precies hetzelfde item te vinden, maar gaat het juist om het vinden van gelijksoortige items, waarbij bij items hetzelfde bronmateriaal bevatten. Denk hierbij aan een video waar een logo in geplaatst is, of die omgezet is naar een ander bestandsformaat. Fingerprinting is een techniek waarmee dat kan. In tegenstelling tot een hash is een fingerprint bestand tegen (beperkte) wijzigingen in de inhoud van een bestand. Er bestaan fingerprinting technieken voor audio, beeld en video, en tekst. Een fingerprint is dus een compacte representatie afgeleid van de content.

• Een hash en een fingerprint zijn een directe afgeleide van een digitaal item. Soms kan het echter belangrijk zijn om twee items die niet op basis van hun fingerprint zouden kunnen worden onderscheiden toch uit elkaar te kunnen houden. Watermarking is een techniek om boodschappen te verbergen in audiovisuele bestanden. Hiermee kunnen dus in potentie wel twee bestanden met gelijke inhoud, maar verschillend watermerk, van elkaar worden onderscheiden. Dit is echter alleen mogelijk indien een watermerk met dit doel in een bestand is aangebracht.

3.1 Hashing

3.1.1 Inleiding Een hash is een korte representatie van een (mogelijk erg groot) digitaal item (video, bestand, document, etc.) Een hash kan gebruikt worden om op een efficiënte manier te achterhalen of twee items identiek aan elkaar zijn. Identieke items hebben namelijk dezelfde hashes. Als een item ook maar 1 bit verschilt van een ander item zal de hash van het ene item verschillen van die van de ander. In plaats van een item bit-voor-bit te vergelijken met een ander item, kan daarom gekeken worden of de hashes van de twee items identiek zijn, om zo op een efficiënte manier te bepalen of de twee items gelijk aan elkaar zijn.

3.1.2 Beperkingen van de techniek Zodra ook maar 1 bit verandert, levert de hash functie een compleet andere uitkomst. Hash functies kunnen daarom niet worden gebruikt om twee items te vergelijken die nagenoeg hetzelfde zijn. Als twee foto’s slechts in één pixel verschillend zijn, zullen ze niet aan elkaar gerelateerd kunnen worden door middel van een hash functie. Hiervoor bieden fingerprinting technieken (zie Hoofdstuk 3.2) uitkomst.

3.1.3 Werkingsprincipes Een hash functie is een procedure of wiskundige functie die, gegeven een item, een waarde teruggeeft die als hash kan dienen. Die waarde is vaak een gewoon getal, typisch vele malen kleiner in omvang (benodigde geheugenruimte) als het oorspronkelijke item. Een dergelijke waarde wordt 'hash' genoemd (zie boven) of ook wel 'hash waarde', 'hash code', of 'hash sum'.

Page 18: Herkenning van digitale informatie

ONGERUBRICEERD

18 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Het is mogelijk dat een hash functie twee verschillende items dezelfde hash waarde geeft, simpelweg omdat een hash in het algemeen korter is dan een item, en het aantal mogelijke hash waarden kleiner is dan het aantal mogelijke items. Als dat gebeurd is er sprake van een 'collision'. Goede hash functies verspreiden de items evenwichtig over het aantal mogelijke hash waarden om zo de kans op een collision te verkleinen. Voorbeelden van hash functies zijn Pearson hash functie [1], FNV (ook wel 'Fowler/Noll/Vo' genoemd) [2] en de Bernstein Hash. Als de complete set van items vantevoren vast staat kan een 'perfecte' hash functie worden gemaakt. Bij een perfecte hash functie zal nooit collision optreden: geen enkele combinatie van 2 items heeft dezelfde hash. Als de hash functie de items 'mapt' op een aaneengesloten range integers, wordt deze 'minimal' genoemd. Een 'minimal perfect hash functie' geeft bijvoorbeeld hashes van 0 tot n-1, met n het aantal items. Een functie die de maanden (januari, februari, .., december) mapt op de getallen 0 tot 11 is een voorbeeld van een minimal perfect hash functie. De meest bekende hash functies zoals MD5 en SHA-1 komen voort uit de cryptografie. Dit type functie is in staat om een item (video, document) van willekeurig lengte om te zetten naar een hash van vaste lengte door het item te verdelen in een vaststaand aantal blokken, en deze vervolgens individueel om te zetten naar een verkorte versie. Een hash code is typisch een 32 of een 64 bits code die wordt berekend over de inhoud van een document. De kans op een collision is extreem klein en hangt af van de lengte van de hash code. Voor dit type hash functie geldt dat voor een 32-bit hash code de kans op een collision gelijk is aan 2-32 = 2,3 10-10

3.1.4 Toepassingen Hash functies kunnen worden gebruikt om snel items terug te vinden. Door de hash als index in een database tabel te gebruiken kan, gegeven een item, snel worden bekeken of het betreffende item al in de database aanwezig is. Cryptografische hash functies kan ook gebruikt worden om de integriteit van een digitaal item vast te stellen.

3.1.5 Referenties [1] Peter K. Pearson, Fast Hashing of Variable-Length Text Strings, Communications

of the ACM 33(6), 677 (1990) [2] http://www.isthe.com/chongo/tech/comp/fnv/index.html

Page 19: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 19 / 114

3.2 Fingerprinting

Fingerprinting is een methode om bestanden of fragmenten te herkennen, die robuust is tegen (beperkte) wijzigingen in het bestand of fragment. In tegenstelling tot de hashes die in hoofdstuk 3.1 besproken zijn, verandert een fingerprint niet volledig wanneer er kleine wijzigingen in het bestand of fragment worden aangebracht. Indien een enkele pixel van een foto verandert de hash waarde volledig, terwijl de fingerprint nagenoeg hetzelfde blijft. Deze eigenschap van een fingerprint is uitermate belangrijk, omdat eenzelfde audio, beeld of videobestand op talloze verschillende wijze gepresenteerd kan worden. De bijhorende hashes zullen verschillend zijn; dit beperkt de toepasbaarheid van hashes. Het zoeken naar fingerprints die horen bij (bijna)-identieke bestanden is echter veel tijdrovender. Neem het identificatie scenario (hoofdstuk 2.1.1, figuur 2-2). Hierbij wordt bijvoorbeeld een onbekend videofragment herkend op basis van zijn fingerprint. Er moet nu niet alleen gezocht worden naar bekende video fingerprints die identiek zijn aan de fingerprint van het onbekende fragment, maar ook naar fragmenten die hier genoeg op lijken. Bij een hash kan alleen gezocht worden op hashes die identiek zijn; dit is eenvoudiger en dus sneller, maar biedt veel minder mogelijkheden. Bij de berekening van een fingerprint wordt rekening gehouden met de manier waarop een mens beelden waarneemt. Dit gebeurt om een inschatting te maken wat de perceptueel meest belangrijke kenmerken zijn van een audio-visueel bestand. Er bestaan fingerprinting technieken die specifiek ontwikkeld zijn voor audio, voor beeld/video, en voor tekst. Deze technieken worden elk in een aparte sectie behandeld.

3.2.1 Audio fingerprinting Een audio fingerprint is een compacte representatie die is afgeleid van de inhoud van het audio signaal. Een audio fingerprint kan gebruikt worden om een audio signaal snel te vergelijken met al bekende audio signalen. Ontwikkelingen op het gebied van digitale audio, en daarmee het illegaal kopiëren en verspreiden van audio, zijn de drijvende kracht geweest achter het onderzoek naar audio fingerprinting.

3.2.1.1 Toepassingen Bekende toepassingen zijn: • Detecteren van reclame uitzendingen (broadcast monitoring)

Er gaat veel geld om in advertenties. Wie betaalt voor het uitzenden van een advertentie bijvoorbeeld op de TV of radio, wil ook weten dat zijn advertentie uitgezonden is. Dit kan door een watermerk in de reclame aan te brengen. Broadcast monitoring systemen analyseren automatisch een aantal radio of TV zenders, en zoeken naar watermerken in de uitgezonden reclames. In geval van TV zenders kan uiteraard ook gebruik gemaakt worden van video fingerprinting. Watermarking is een alternatieve technologie die voor broadcast monitoring gebruikt kan worden.

• Muziekherkenning met mobiele telefoon Met deze dienst kan een gebruiker een stuk muziek dat bijvoorbeeld op de radio speelt laten identificeren door een stukje op te nemen en door te sturen naar een website. De dienst stuurt een bericht terug met daarin de informatie over het nummer, de artiest, album etc. Bekende voorbeelden zijn TrackID op SonyEricsson toestellen en Shazam op de Apple iPhone.

Page 20: Herkenning van digitale informatie

ONGERUBRICEERD

20 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

• Het automatisch metadateren van audio collecties Veel mensen hebben al hun audio digitaal, en downloaden ook steeds weer nieuw materiaal. Al met al kunnen dit onoverzichtelijke collecties worden. Er zijn wel programma’s om deze collecties te beheren maar die werken op basis van metadata zoals de artiest, naam van het liedje etc. Met audio fingerprinting kan alle relevante metadata via internet worden opgevraagd. Voordeel is dat alle metadata consistent is.

• Het uitlijnen van video materiaal van de dezelfde gebeurtenis Bij veel gebeurtenissen worden er diverse opnamen gemaakt. In deze toepassing worden al deze losse opnamen in de tijd op elkaar uitgelijnd op basis van het audio signaal. Dit kan door de audio fingerprints van de opnames met elkaar te vergelijken.

• Het weren van audio/video materiaal van websites middels een zwarte lijst Er bestaan vele websites waarop gebruikers hun eigen content kunnen uploaden. Het bekendste voorbeeld is YouTube. Het blijkt echter dat veel van de content die ge-upload wordt commercieel geproduceerde content is. Om te voorkomen dat de auteursrechten geschonden worden, kan een dergelijke website een zwarte lijst aanleggen met content die niet op de website terecht mag komen. Een dergelijk filter kan werken op basis van audio en/of video fingerprinting. Bij het uploaden wordt een fingerprint berekend en vergeleken met de fingerprints op de zwarte lijst.

3.2.1.2 Werkingsprincipes Er zijn vele audio fingerprinting methodes bekend uit de wetenschappelijke literatuur. Een goed overzicht van de verschillende audio fingerprinting technieken is te vinden in een survey van Cano et al. [1]. Enkele bekende systemen worden beschreven in Haitsma et al. [2], Wang [3], Audio Magic [4], Baluja et al. [5], Cano et al. [6], Burges et al. [7]. Op hoofdlijnen werken deze systemen als volgt. 1 Het signaal wordt eerst teruggebracht naar een eenvoudigere representatie.

Bijvoorbeeld mono op een lage sample frequentie. De fijne details van het signaal zoals de hoogste frequenties gaan hierbij verloren. Dit is ook de bedoeling. Vaak is een audio signaal verstoord door bijvoorbeeld compressie, ruis, of opname op een mobiele telefoon. De details zijn dan onbetrouwbaar om herkenning op te baseren, terwijl de grote lijnen naar verhouding het minst aangetast zijn.

2 Het audio signaal wordt in korte, overlappende segmenten verdeeld. In de literatuur staat zo’n segment bekend als een frame. De typische lengte van een audio frame varieert van 32 tot 500 ms, afhankelijk van het algoritme. De overlap tussen de frames varieert van 50-98%.

3 Op ieder frame wordt een of meerdere features (kenmerken) berekend. Meestal gebeurt dit in het frequentie domein. Dit is zeer sterk gerelateerd aan de manier waarop mensen geluid waarnemen. De diverse algoritmes verschillen onderling het meest in welke features gekozen worden om de fingerprint uit te berekenen. Veel gebruikte features zijn gebaseerd op de hoeveelheid energie in bepaalde frequentiebanden, de vorm van het frequentiespectrum, de locatie van pieken in het frequentie spectrum, of statistische eigenschappen van het frequentie spectrum. Meestal ligt de keuze voor de features vast. Sommige systemen kunnen echter getraind worden om een geoptimaliseerde set features te leren.

Page 21: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 21 / 114

4 Efficiënte representatie van de features De kenmerken uit ieder frame, of een selectie daarvan, worden efficiënt gerepresenteerd. De representatie van de kenmerken van een enkele frame wordt een sub-fingerprint.

In de meeste methodes bestaat een fingerprint uit een aaneenschakeling van sub-fingerprints. De fingerprint van een lang liedje is groter, dan die van een kort liedje. De grootte van een fingerprint van dus het best worden uitgedrukt in het aantal bits of bytes per seconde. Deze grootte varieert typisch van enkele bytes tot enkele kilobits per seconde. Er zijn ook algoritmes bekend die de fingerprint representeren als een serie getallen van vaste lengte, ongeacht de lengte van het audio signaal. Net zoals een hash waarde een vaste lengte heeft. Dit blijkt echter niet goed te werken voor audio fingerprinting. Bij een audio, maar ook een beeld- of video-, fingerprinting systeem zijn diverse trade-offs aan te wijzen. Twee belangrijke zijn de robuustheid van het systeem tegen de verstoringen in het audio signaal, en het vermogen om verschillende fingerprints uit elkaar te houden. Ook hier zijn de in hoofdstuk 2 geïntroduceerde FRR en FAR van toepassing. Wanneer we spreken over een systeem dat robuust is tegen verstoringen bedoelen we een de methode voor herkenning bestand is tegen bepaalde variaties is het signaal. Alle bovengenoemde stappen hebben als doel om de robuustheid tegen verstoringen te vergroten, de unieke karakteristieken van het audio signaal te benadrukken, perceptueel irrelevante delen van het signaal buiten beschouwing te laten en de representatie zo compact mogelijk te maken.

3.2.1.3 Publieke benchmarks en prestaties Er zijn geen publieke benchmarks bekend voor audio fingerprinting. In de TRECVID Content-Based Copy Detection (CBCD) taak is audio fingerprinting meegenomen als onderdeel van video fingerprinting (zie: Hoofdstuk 3.2.3, video fingerprinting). Vaak wordt gesteld dat audio fingerprinting robuuster is dan video fingerprinting. Hoewel dit sterk afhankelijk is van de toepassing, is het doorgaans eenvoudiger om een onderscheidende fingerprint voor audio te ontwerpen die robuust is tegen de gangbare verstoringen dan voor video.

3.2.1.4 Uitdagingen De meeste audio fingerprinting systemen hebben in meer of mindere mate moeite met verstoringen die voortkomen uit het versneld of vertraagd uitspelen van het audio signaal. In commerciële toepassingen komt dit type verstoringen vrij vaak voor. Radio DJs spelen liedjes vaak net iets sneller omdat ze dat aansprekender vinden; of reclames worden net iets sneller uitgespeeld omdat er dat een extra reclame kan worden uitgezonden.

3.2.1.5 Het spelersveld Diverse bedrijven bieden audio fingerprinting technologie aan, of diensten die gebruik maken van audio fingerprinting. De volgende tabel geeft een beknopte selectie.

Page 22: Herkenning van digitale informatie

ONGERUBRICEERD

22 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Tabel 3-1 Overzicht van aanbieders van audio fingerprinting technologie en diensten.

Aanbieder Website Civolution http://www.civolution.com Gracenote http://www.gracenote.com Shazam http://www.shazam.com Audible Magic http://www.audiblemagic.com Mufin http://www.mufin.com Auditude http://www.auditude.com Er vindt relatief weinig vernieuwend onderzoek naar audio fingerprinting plaats. In de universitaire wereld is Universiteit KAIST in Seoul actief. Ook enkele corporate research labs zijn actief; naast bovengenoemde bedrijven is Google Labs actief in dit veld.

3.2.1.6 Referenties [1] P. Cano, E. Batlle, T. Kalker, and J. Haitsma. A review of audio fingerprinting.

Journal of VLSI Signal Processing, vol 41, issue 3, 271 - 284, November 2005. [2] J. Haitsma and T. Kalker. A highly robust audio fingerprinting system. In 3rd

International Conference on Music Information Retrieval (ISMIR), October 2002. [3] A. Wang. An industrial strength audio search algorithm. In 4th Int. Conf. on

Music Information Retrieval (ISMIR), October 2003. [4] E. H. Wold, T. L. Blum, D. F. Keislar, and J. A. Wheaton. Method and apparatus

for creating a unique audio signature, November 2000. [5] S. Baluja and M. Covell. Audio fingerprinting: Combining computer vision & data

stream processing. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), volume 2, pages 213 – 216, April 2007.

[6] P. Cano, E. Batlle, H. Mayer, and H. Neuschmied. Robust sound modelling for song detection in broadcast audio. In Proc. 112th Int. AES Conv, 2002.

[7] C. J. C. Burges, J. C. Platt, and S. Jana. Distortion discriminant analysis for audio fingerprinting. IEEE Transactions on Speech and Audio Processing, 11(3):165 – 174, May 2003.

Page 23: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 23 / 114

3.2.2 Beeld en video fingerprinting

3.2.2.1 Inleiding Beeld en Video fingerprinting is een techniek die ingezet kan worden om kopieën van beeld- of videomateriaal op te sporen. De techniek werkt alleen op digitaal videomateriaal. Video fingerprinting is gebaseerd op een vorm van robuuste hashing, waarbij videomateriaal dat perceptueel wordt geïdentificeerd als zijnde afkomstig van hetzelfde originele materiaal een gelijke of vrijwel gelijke hash waarde oplevert. Bij video fingerprinting gaat het nadrukkelijk om algoritmiek die kijkt naar de inhoud van de videoframes en die op een robuuste manier met elkaar vergelijkt. Video fingerprinting technieken moeten dus typisch kunnen omgaan met zaken zoals re-encoding, veranderde resolutie, frame rate aanpassing het plaatsen van een logo etc. Ontwikkelingen in dit domein zijn vooral gestimuleerd door de media wereld, die er belang bij heeft verspreiding van illegale kopieën van videomateriaal tegen te gaan. Naast verschillen in cliplengte en aan te treffen transformaties, verschillen de genoemde toepassingsscenario’s ook in de eisen die worden gesteld aan systemen. De volumes van referentie en testmateriaal kunnen sterk verschillen. Als een systeem een groot volume aan referentie en testmateriaal real time moet kunnen worden verwerken, heeft dat consequentie voor de keuze van de architectuur en de nauwkeurigheid. In de evaluatie-sectie zal nader worden ingegaan op kwaliteitsmaten, maar op hoofdlijnen is het van belang dat er altijd een inverse afhankelijkheid bestaat tussen ‘false positives’ en ‘false negatives’. Dat betekent dat wanneer het systeem zodanig wordt getuned dat er geen of zeer weinig clips foutief als kopie worden gelabeld, dat er dan relatief veel kopieën zullen worden gemist en omgekeerd. De gewenste balans tussen ‘false positives’ en ‘false negatives’ hangt ook nu weer af van het toepassings-scenario. Met name voor de eerste twee toepassingsscenario’s zijn commerciële producten beschikbaar. Het feit dat de karakteristieken van de verschillende scenario’s zo sterk verschillen betekent dat producten die goed presteren voor een specifieke toepassing niet zo maar kunnen worden ingezet voor een andere toepassing. Bepaalde systemen werken bijvoorbeeld niet voor zeer korte clips.

3.2.2.2 Beperkingen van de techniek • Bij het ontwerp van een systeem voor kopiedetectie gebaseerd op video-

fingerprinting ontkomt men niet aan het stellen van prioriteiten op het gebied van ‘error rates’ (false positives vs false negatives), snelheid (berekening en matching van fingerprints) en de grootte van fingerprints.

• Door kennis van het type van voorkomende transformaties kan een fingerprintingsysteem worden geoptimaliseerd. Hierdoor is zijn soms aanpassingen nodig aan een fingerprinting systeem om het toepasbaar te maken in een ander domein.

• Door kennis van het gebruikte fingerprinting algoritme kunnen transformaties worden bedacht die de detectie weten te omzeilen.

Page 24: Herkenning van digitale informatie

ONGERUBRICEERD

24 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

3.2.2.3 Werkingsprincipes Video fingerprinting technieken zijn voor een groot deel gebaseerd op technieken voor het zoeken van kopieën van beelden (still images) en het framework voor temporele analyse dat eerder ontwikkeld is voor audio fingerprinting (zie sectie 3.1). Video fingerprinting systemen hebben in essentie dezelfde structuur als audio fingerprinting systemen. De meest in het oog springende verschillen zijn: feature extractie is niet gebaseerd op het frequentiedomein, maar maakt gebruik van temporele, spatiële, lokale en of globale kenmerken (features), zoals luminantie. Daarbij komt dat geproduceerde video eenvoudig en met grote betrouwbaarheid is te decomponeren in de samenstellende shots. Uitgebreidere informatie over de techniek van video fingerprinting is te vinden in een survey van Law-to et al. [1]. De belangrijkste technologische varianten zijn gebaseerd op globale of juist lokale features. Bij globale features wordt vaak het frame in blokken opgedeeld. Voor ieder blok wordt bijvoorbeeld een gemiddelde grijswaarde berekend die dan weer in de tijd en spatieel gemiddeld wordt. Dergelijke representaties kunnen eenvoudig vertaald worden in compacte bitpatronen. Een compacte representatie is gunstig voor een efficiënte matching. Een dergelijk aanpak reduceert de informatie in een videoframe tot slechts enkele tientallen bits. De aanpak kan toch goed werken voor vooral langere clips. Voor kortere clips lijkt het zinniger om de videoframes met lokale representaties zoals SIFT te coderen. Dergelijke representaties zijn kleur, rotatie en schaal invariant en zijn dus zeer robuust. Een lokale aanpak resulteert echter in minder compacte fingerprints en zal daarom langzamer zijn.

3.2.2.4 Toepassingen Er zijn echter meerdere toepassingen, ieder met eigen karakteristieken [1]: • Detectie illegale kopieën (media)

Het gaat vaak om relatief lange clips (bv complete feature films), typische transformaties zijn ‘camcording’ (het filmen van een projectie van een film) en allerlei vormen van re-encoding.

• Volgen van advertentiecampagnes op televisiekanalen Het gaat hier om het accuraat volgen of een bepaalde commercial volgens contract on-air is geplaatst. Ook het volgen van de campagnes van de concurrentie is belangrijk, met name om te detecteren of er wijzigingen zijn in de campagne (bijvoorbeeld in prijsstelling). Dit zijn vaak veel kortere clips. Deze toepassing wordt ook vaak geïmplementeerd op basis van watermarking technologie.

• Hergebruik van archiefmateriaal in documentaires, actualiteiten rubrieken. De moeilijkheid zit hier in het feit dat het originele materiaal door allerlei post productie technieken (overlays, kaders) moeilijker te onderscheiden is, bijvoorbeeld doordat een presentator op de voorgrond door het beeld loopt, waarop in de achtergrond archiefmateriaal wordt geprojecteerd. Ook moeilijker transformaties zoals picture-in-picture en cropping komen geregeld voor.

• Detectie van kinderporno (KP): Specifieke kenmerken van KP zijn: de grote hoeveelheid codecs, veel zeer korte clips, frame drops en logo insertion. Vaak worden compilatiefilms gemaakt van een groot aantal korte clips. Het is dan belangrijk om te onderzoeken welke onderdelen al wel bekend zijn en welke niet.

Page 25: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 25 / 114

3.2.2.5 Het spelersveld Er zijn een flink aantal Europese en Amerikaanse aanbieders van commerciële systemen en diensten voor kopie-detecties. De systemen/diensten richten zich vooral op het detecteren van kopieën op multimedia portalen zoals YouTube of op het volgen van advertentiecampagnes. Er zijn slechts enkele aanbieders voor niche markten zoals de detectie van KP materiaal. Veel van deze systemen zijn server-based, dat wil zeggen dat fingerprints van het referentiemateriaal gehost worden en dat er een client beschikbaar wordt gesteld waarmee fingerprints kunnen worden gemaakt, die dan vervolgens met de referentiedatabase kunnen worden vergeleken. Research vindt ook plaats bij instituten zoals INRIA in Frankrijk, en TNO. In de academische wereld zijn diverse partijen actief, waaronder in Nederland de TU Delft.

Tabel 3-2 Aanbieders van fingerprinting technologie en diensten

Aanbieder Website Civolution http://www.civolution.com Ipharro http://www.ipharro.com Audible Magic http://www.audiblemagic.com Advestigo http://www.advestigo.com Ziuz http://www.ziuz.com Auditude http://www.auditude.com Vobile http://www.vobileinc.com Yuvsoft http://www.yuvsoft.com Zeitera http://www.zeitera.com Vidyatel http://www.vidyatel.com Microsoft http://www.microsoft.com Vercury http://www.vercury.com INA http://www.ina-entreprise.com Enswers http://www.enswersinc.com Anvato http://www.anvato.com

3.2.2.6 Publieke benchmarks en performance Er zijn verschillende benchmarks beschikbaar voor content-based kopiedetectie. Movielabs (www.movielabs.com) is een organisatie die video fingerprinting systemen certificeert in opdracht van de grote filmstudio’s. Het betreft hier een gesloten activiteit. In 2007 is er door het EU FP7 network of excellence MUSCLE een kleine benchmark activiteit georganiseerd, dit model is in 2008 en 2009 door TRECVID/NIST in samenwerking met INRIA en TNO verder uitgebreid tot een benchmark met 10 video transformaties en verschillende applicatiescenario’s. In totaal participeerden 20 universitaire groepen in de benchmark. De geteste transformaties bevatten o.a. frame drops, compressie, verandering aspect ratio, camcording, picture-in-picture e.a.. In de TRECVID CBCD benchmark werd naast video fingerprinting ook aandacht besteed aan audio fingerprinting en de combinatie van beiden. Tests werden uitgevoerd met een synthetische dataset, om de robuustheid van fingerprinting algoritmen op een systematische manier te beproeven. Het is echter moeilijk om de resultaten op deze synthetische testdata te extrapoleren naar praktijkcases. Er zijn plannen om in 2010 de TRECVID CBCD nog verder te verfijnen door applicatie profielen te definiëren die beter passen bij de verschillende toepassingen. Op die manier kan beter inzicht worden verkregen in welke aanpak het beste werkt voor welke toepassing.

Page 26: Herkenning van digitale informatie

ONGERUBRICEERD

26 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

TRECVID CBCD meet de kwaliteit van systemen op basis van drie verschillende aspecten [2]: • detection quality wordt gemeten door de “Normalized Detection Cost Rate”, dit is

een gewogen gemiddelde van het aantal false positives per uur en de kans date en kopie niet wordt gedetecteerd.

• localization accuracy wordt gemeten door het harmonisch gemiddelde te nemen van de precision en recall van de overlap van het door het system gevonden kopiesegment en de “ground truth”. Een ideaal systeem heeft een accuracy van 1 (100%).

• processing speed wordt gemeten door de gemiddelde zoektijd per testclip te berekenen.

De performance hangt sterk af van toepassing en het materiaal. Afhankelijk van de toepassing is precision of recall belangrijker. Karakteristieken van het materiaal bepalen ook sterk de performance, denk hierbij aan kwaliteit (resolutie, ruis), inhoud (structuur), en hoeveelheid.

3.2.2.7 Uitdagingen De editie 2009 van de TRECVID CBCD benchmark heeft laten zien dat het eenvoudiger is om videomateriaal terug te vinden op basis van (getransformeerde) audio dan op basis van (getransformeerde) video. Dat betekent dat het in de praktijk van belang lijkt om ook het audiokanaal te analyseren bij het zoeken naar kopieën in multimedia. Waar liggen nog kennisvragen of technologische uitdagingen? • Strategie om audio en video fingerprinting te combineren • Effectief om kunnen gaan met zowel lange als zeer korte clips • Robuust omgaan met creatieve post-productie effecten • Kopie detectie op basis van onderdelen van clips (versleuteld, encrypted, deep

packet inspection, peer 2 peer) • Ontwikkelen van een realistische benchmark voor de verschillende

toepassingsscenario’s • Ontwikkelen van een architectuur om fingerprint systemen van verschillende

vendors in een multi laterale omgeving effectief te kunnen benutten.

3.2.2.8 Referenties [1] J. Law-To, L. Chen, A. Joly, I. Laptev, O. Buisson, V. Gouet-Brunet, N.

Boujemaa, and F. Stentiford. Video copy detection: a comparative study. In CIVR ’07: Proceedings of the 6th ACM international conference on Image and video retrieval, pages 371–378, New York, NY, USA, 2007.

[2] P. Over, G. Awad, T. Rose, J. Fiscus, W. Kraaij, and A. F. Smeaton. Trecvid 2008 - goals, tasks, data, evaluation mechanisms and metrics. In Proceedings of TRECVID 2008, 2009.

Page 27: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 27 / 114

3.2.3 Tekst fingerprinting

3.2.3.1 Inleiding Onderzoek suggereert dat maar liefst 30% van alle internetpagina’s geheel of gedeeltelijk kopieën zijn van elkaar (ook meerder URL’s voor dezelfde pagina). Niet alleen het internet maar vaak ook documentatie binnen bedrijven en overheid bevatten veel kopieën en documenten die ‘bijna-identiek’ zijn. Het bestaan van dit soort documenten is inherent aan de manier waarop documenten tot stand komen (vaak met meerdere versies) en waarop informatie wordt gerapporteerd (nieuwe informatie wordt toegevoegd aan bestaande documenten).

3.2.3.2 Beperkingen van de techniek Deze methode kan worden gebruikt voor alle talen waarbij documenten kunnen worden opgesplitst in kleinere delen zoals woorden. Het is echter niet mogelijk om documenten uit verschillende talen met elkaar te vergelijken.

3.2.3.3 Werkingsprincipes Er is geen duidelijke definitie over ‘document gelijkheid’ of de manier waarop dit gemeten zou moeten worden. Er zijn verschillende manieren waarop document gelijkheid kan worden gemeten: 1 letterlijke tekst 2 soortgelijke inhoud 3 metadata 4 soortgelijke schrijfstijl Bij gelijkheid op basis van de letterlijke tekst worden alle woorden uit een document gebruikt bij het meten of twee documenten (bijna) identiek zijn. Bij methoden die op deze manier documenten vergelijken zullen twee documenten die 1 woord van elkaar verschillen al niet meer 100% identiek zijn. Voor veel toepassingen gericht op het opsporen van duplicaten is dit de meest natuurlijke maat. Als twee documenten hetzelfde bestandsformaat hebben, dan kan hashing uitkomst bieden. Wanneer dit niet het geval is, of wanneer bijvoorbeeld de opmaak − en dus de bits en bytes van het bestand − anders zijn biedt tekst fingerprinting uitkomst, omdat die alleen op de daadwerkelijke tekst gebaseerd is. Vaak is het de bedoeling om op een meer robuuste manier teksten te vergelijken, zodat teksten die min of meer het zelfde zijn maar niet identiek, toch worden gekoppeld. Een manier om dat te doen is door de belangrijkste inhoudswoorden uit de tekst te extraheren (bijvoorbeeld eigennamen) Op deze manier worden documenten afgebeeld naar een gereduceerde representatie, wat het mogelijk maakt documenten over hetzelfde onderwerp (bijvoorbeeld een aanslag) aan elkaar te linken. Een mogelijkheid om dit proces nog verder te verbeteren is om documenten te representeren door conceptuele labels (“AFGHANISTAN” , “MISSILE ATTACK”, “TALIBAN”). De hierboven beschreven methoden baseren gelijkheid direct of indirect op de inhoud van documenten. Het is echter ook mogelijk om documenten op basis van beschikbare metadata te vergelijken (auteur, titel, datum van publicatie etc.). De mate waarin twee documenten dezelfde metadata bevatten bepaald dan de gelijkheid van documenten. Hierbij wordt er dus niet naar de daadwerkelijke inhoud gekeken waardoor twee totaal verschillende documenten wel als identiek kunnen worden bestempeld.

Page 28: Herkenning van digitale informatie

ONGERUBRICEERD

28 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

In het kader van historisch of forensisch onderzoek kan het belangrijk zijn om te beoordelen of een bepaald stuk tekst met een bepaalde mate van waarschijnlijkheid kan worden toegeschreven aan een bepaald persoon of organisatie. Deze toepassing heet “authorship attribution”, en zal worden besproken in hoofdstuk 10. Bijna-identieke documenten zijn documenten die veel overlap vertonen. Het gaat dan om documenten waarbij iets is toegevoegd of delen zijn veranderd. Aangezien het documenten betreft die niet lettervoorletter hetzelfde zijn kan er geen ‘full-text-hashing’ worden gebruikt om deze documenten te vinden. Het vinden van bijna-identieke documenten is gebaseerd op het vergelijken van substrings uit de documenten die doorzocht worden. Hoe meer substrings twee documenten delen hoe meer de documenten op elkaar lijken (en een hoge kans hebben om bijna-identiek te zijn). De substrings worden gehashd om ze kleiner te maken. De set hash-codes vormt de fingerprint van een document. Er zijn drie aspecten belangrijk voor substring gebaseerde bijna-identieke document detectie 1 Grootte van de substrings: De grootte van substrings heeft invloed op de detectie

kwaliteit van bijna-identieke documenten. Het gebruik van grote substrings kan leiden tot veel false-negatives terwijl kleine substrings kan leiden tot veel false-positives.

2 Het aantal substrings: Het aantal substrings heeft invloed op de detectie kwaliteit van bijna-identieke documenten. Gebruik van weinig substrings kan leiden tot veel false-positives

3 De keuze van substrings: Het is belangrijk om de juiste substrings te kiezen. Voorbeelden zijn: positie gebaseerd (bijv. eerste, laatste zin van een paragraaf), frequentie gebaseerd (tf-idf).

Onderzoek naar deze aspecten is gedaan door onder andere Brin et al. [1], Broder et al. [2], en Hoad et al. [3]. De meest gebruikte bijna-identieke document detectie methode is gebaseerd op zogenaamde ‘shingles’ overlappende substrings van 3 à 4 woorden. De overlap van de shingles van twee documenten bepaald hoe identiek twee documenten zijn. Twee documenten met hoge mate van overlap (>75%) zijn bijna identiek. De overlap van twee shingle sets wordt doorgaans berekend middels de Jaccard similarity coëfficiënt [4]. Het kan zijn dat een document een ander document geheel bevat. Dit is vaak het geval als een document een uitbreiding is op een ander document. In een dergelijk geval wordt de ‘containment score’ gebruikt in plaats van de Jaccard similarity coëfficiënt [4]. De shingle benadering om bijna-identieke documenten te vinden heeft twee nadelen: 1 De methode is relatief traag doordat documenten eerst moeten worden opgesplitst

waarna de ‘overlap’ moet worden uitgerekend. 2 fingerprints (shingle sets) van documenten kunnen groot zijn (afhankelijk van de

methode die gebruikt wordt om ze te representeren). De impact van deze nadelen kan echter sterk worden gereduceerd door de methode slim te implementeren en fingerprints te comprimeren. Als de fingerprints van al bekende documenten in een index worden opgeslagen is het mogelijk om zeer snel bijna-identieke documenten te vinden.

Page 29: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 29 / 114

Applicaties die bijna-identieke documenten detectie werken allemaal ongeveer op dezelfde manier: 1 Er wordt een index/database opgebouwd met fingerprints van bekende documenten

1.1 Documenten worden eerst omgezet naar tekst, hierbij worden de documenten meestal ook gestript van opmaak en afbeeldingen.

1.2 De tekst wordt opgesplitst in shingles en deze worden in de database opgeslagen.

2 Eén of meerdere documenten kunnen aan het systeem worden aangeboden waarna het systeem de overlap tussen het query-document en de documenten in de database uitrekent.

3 Het resultaat is een lijst met documenten en overlap scores. Hoe het resultaat er precies uitziet is sterk afhankelijk van het doel van de applicatie. Als het doel is om bijna-identieke documenten te vinden zal het resultaat bestaan uit alle documenten die meer dan ~85% overlap vertonen met het query-document. In het geval van plagiaat detectie zijn documenten met veel mindere mate van overlap interessant en zullen ook getoond worden. Het krijgen van een lijst met documenten en overlap scores is zelden het doel van de gebruiker. Vaak wil een gebruiker juist inzicht in de overeenkomsten en/of verschillen tussen twee documenten. Voor dit doel bevatten de meeste applicaties de mogelijkheid om de overeenkomsten en verschillen van documenten inzichtelijk te maken, vaak door de verschillende stukken tekst een andere kleur te geven. Er zijn ook veel losse tools die deze (zogenaamde diff) functionaliteit hebben. Door middel van bijna-identieke document detectie wordt aangegeven of een nieuw document lijkt op een al eerder gezien document. Met speciale software kunnen vervolgens de verschillen (of juist de overeenkomsten) tussen de documenten aan de gebruiker worden getoond.

Figuur 3-1: Visualisatie van de overeenkomsten en verschillen tussen twee teksten.

3.2.3.4 Toepassingen Het vinden van (bijna) identieke documenten wordt in verschillende sectoren en voor verschillende redenen toegepast. De belangrijkste toepassingen zijn:

Page 30: Herkenning van digitale informatie

ONGERUBRICEERD

30 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

• Opsporen van plagiaat Bijna-identieke document detectie wordt ook veel gebruikt om plagiaat op te sporen. Dit wordt dan met name gebruikt bij digitale bibliotheken en in het onderwijs. Grote onderwijsondersteunende pakketten zoals Blackboard hebben vaak ook plagiaatdetectie functionaliteit om te controleren of ingeleverd werk authentiek is. Hierbij wordt ingeleverd werk vaak onderling vergeleken; werk dat bepaalde overlap vertoond kan door de docent worden gecontroleerd op plagiaat. Er zijn ook systemen die ingeleverd werk vergelijken met verslagen etc. die op het internet te vinden zijn.

• Ondersteuning van informatie analisten Bijna-identieke document detectie wordt ook gebruikt door analisten die dagelijks veel documenten moeten doornemen. Een deel van deze documenten kan bijna-identiek zijn; in dergelijke gevallen is eigenlijk alleen het verschil met al eerder bekeken documenten interessant. Een concreet voorbeeld is het volgen van de berichten van persbureaus over een bepaald onderwerp. Eerder geschreven teksten worden vaak aangepast, uitgebreid en opnieuw uitgebracht. Dan zijn alleen de veranderingen (bijvoorbeeld hoeveelheid slachtoffers) interessant en is het niet nodig om de gehele tekst nogmaals door te moeten nemen.

• Besparen van opslag capaciteit voor zoekmachines of bedrijven Zoekmachines en bedrijven of instanties die grote archieven bijhouden gebruiken bijna-identieke document detectie voornamelijk om opslag capaciteit te besparen. Doordat minder informatie wordt opgeslagen kan ook het zoeken worden versneld.

3.2.3.5 Het spelersveld Onderstaande tabel biedt een kort overzicht van enkele bestaande producten en bijbehorende aanbieders.

Tabel 3-3 Overzicht van enkele tekst fingerprinting producten en bijbehorende aanbieders

Product Aanbieder Website Equivio Equivio http://www.equivio.com WCopyfind University of Virgina http://www.plagiarism.phys.virginia.edu/

Wsoftware.html Investigator CFL Software Limited http://http://cflsoftware.com/?page_id=10 Intellexir Categorizer

EffectiveSoft http://comparator.intellexer.com

Doc Cop DocCop http://www.doccop.com NDmetric Ontrack Engenium http://www.krollontrack.com/ndmetric/

3.2.3.6 Referenties [1] S. Brin, J. Davis, and H. Garcia-Molina. Copy detection mechanisms for digital

documents. In Proceedings of the Special Interest Group on Management of Data (SIGMOD 1995), pages 398–409. ACM Press, May 1995.

[2] A. Z. Broder, S. C. Glassman, M. S. Manasse, and G. Zweig. Syntactic clustering of the web. In Proceedings of WWW6 ’97, pages 391–404. Elsevier Science, April 1997

[3] T. Hoad and J. Zobel. Methods for identifying versioned and plagiarized documents. In Journal of the American Society or Information Science and Technology, Vol 54, I 3, 2003.

[4] P.-N. Tan, M. Steinbach and V. Kumar. Introduction to data mining, Addison Wesley, ISBN 0-321-32136-7, 2006.

Page 31: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 31 / 114

3.3 Watermarking

3.3.1 Inleiding Een watermerk is een methode om een boodschap onwaarneembaar te verbergen in een audio visueel bestand. Meestal wordt watermarking echter gebruikt om een identificatie nummer onwaarneembaar aan te brengen. De boodschap is echter wel detecteerbaar met een speciale watermerk detector (speciaal stuk software of hardware) die specifiek is voor de gebruikte watermerk methode. In dit opzicht is een digitaal watermerk vergelijkbaar met een watermerk zoals dit in bankbiljetten voorkomt; het valt niet op bij gewoon gebruik, maar door het tegen het licht te houden wordt het zichtbaar. Een watermerk wordt aangebracht in de content door kleine, door een gebruiker niet waarneembare, wijzigingen aan te brengen in de content zelf. Voor de meeste toepassingen mag het watermerk niet direct waarneembaar zijn, omdat dit de kwaliteit – en daarmee de waarde – van het audio-visuele materiaal omlaag haalt. Dit in tegenstelling tot informatie die naast de content zelf wordt opgeslagen, bijvoorbeeld in een file header. Er bestaan watermerken voor o.a. audio, video, beeld. In de wetenschappelijke literatuur wordt ook het watermerken van andere objecten, zoals tekst en 3D modellen besproken, maar dit is meer academisch van aard. Een goed overzicht van de state-of-the-art is beschreven in [1]. Een watermerk wordt in bijv. een video bestand verborgen. Dit heet embedding. Op een later moment wordt het watermerk gedetecteerd door een watermerk detector. Tussen het moment van aanbrengen van het watermerk, en het detecteren ervan, is de content – en daarmee het watermerk – vaak veranderd, bijvoorbeeld doordat het opnieuw gecodeerd is, geprint en opnieuw gescand, etc. Het watermerk wordt doorgaans zo ontworpen dat het bestand is tegen de meest voorkomende verstoringen. Het watermerk is dan in veel gevallen nog detecteerbaar, Dat de representatie van de content ten tijde van watermerkdetectie gewijzigd is kan vele oorzaken hebben. Het signaal is in de tussentijd bewerkt, bijvoorbeeld gecomprimeerd; of verstuurd over een kanaal waarin het signaal verstoord wordt, bijvoorbeeld een draadloos medium; of uitgespeeld en in een andere vorm weer opgenomen, bijvoorbeeld iemand die een analoge televisie uitzending opneemt in digitale vorm. Als we kijken naar de detectie van het watermerk in de content zijn er twee soorten watermerk detectoren te onderscheiden: 1 Geïnformeerde detector

In sommige applicaties zal de originele, ongewatermerkte, content beschikbaar zijn bij de watermerk detector.

2 Blinde detector In veel gevallen is het originele ongewatermerkte signaal niet beschikbaar bij de detector. Hierdoor is de toepasbaarheid van een dergelijke detector veel groter. Bij de detectie kan dan echter geen gebruik gemaakt worden voor voorkennis over het signaal, waarover later meer.

Page 32: Herkenning van digitale informatie

ONGERUBRICEERD

32 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Als er te veel of te grote wijzigingen worden aangebracht in de content zal het watermerk zichtbaar worden; dit is niet de bedoeling. Er is dus een spanningsveld (trade-off) tussen de hoeveelheid informatie in het watermerk, de robuustheid van het watermerk tegen verstoringen in de content, en de waarneembaarheid van het watermerk. Er zijn dus belangrijke trade-offs tussen de volgende eigenschappen van het watermerk systeem. Waar het accent op komt te liggen hangt af van de toepassing. 1 Grootte van de watermerk boodschap (data payload)

Het aantal bits aan informatie dat door middel van een watermerk in de content is aangebracht.

2 Waarneembaarheid van het watermerk in de content (fidelity) Een watermerk moet onwaarneembaar worden aangebracht in de content.

3 Detecteerbaarheid van het watermerk na bewerkingen of verstoringen in de content (robuustheid) In veel toepassingen moet een watermerk bestand zijn tegen verstoringen van de content. Deze verstoringen kunnen het gevolg zijn van allerlei bewerkingen op de content, zoals compressie, beeldverbetering, uitsnedes maken, verkleinen van het beeld etc. Tegen welke verstoringen, en in welke mate, het watermerk robuust moet zijn is afhankelijk van de toepassing. In veel toepassingen moet het watermerk robuust zijn tegen diverse verstoringen van de content. Echter, in sommige toepassingen is het juist de bedoeling dat het watermerk niet robuust is, maar dat het watermerk verdwijnt (ondetecteerbaar wordt) als de content bewerkt wordt.

4 De kans op een onterechte detectie van een watermerk (false positive rate) Er bestaat altijd een kans dat een watermerk gedetecteerd wordt in content waar geen watermerk in zit. Dit wordt een false positive genoemd. Hoe vaak dit gemiddeld voorkomt wordt de false positive rate genoemd. Zoals in iedere detector bestaat er een uitruil tussen de false positive rate en het aantal gemiste detecties. Een verlaging van de false positive rate gaat doorgaans gepaard met een verhoging van het aantal gemiste detecties.

5 Granulariteit De kleinste eenheid waarin nog betrouwbaar een watermerk gedetecteerd kan worden. Bijvoorbeeld het aantal seconden audio dat je nodig hebt om een watermerk te kunnen detecteren.

Voordat de boodschap in de vorm van een watermerk in de content wordt aangebracht, zal deze vaak extra beschermd worden met foutverbeterende codes. Hierdoor wordt de kans dat de inhoud van het watermerk, bijvoorbeeld een identificatienummer, verkeerd wordt afgelezen door de detector kleiner. Mocht de boodschap vertrouwelijk zijn, dan kan ook encryptie worden toegepast.

3.3.2 Toepassingen Bekende toepassingen van watermerken zijn: • Detecteren van reclame uitzendingen (broadcast monitoring)

Er gaat veel geld om in advertenties. Wie betaalt voor het uitzenden van een advertentie bijvoorbeeld op de TV of radio, wil ook weten dat zijn advertentie uitgezonden is. Dit kan door een watermerk in de reclame aan te brengen. Broadcast monitoring systemen analyseren automatisch een aantal radio of TV zenders, en zoeken naar watermerken in de uitgezonden reclames. Voor deze toepassing wordt ook audio of video fingerprinting gebruikt.

Page 33: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 33 / 114

• Het aanbrengen van copyright gegevens Hierbij stopt iemand een watermerk in een signaal om aan te geven of aan te kunnen tonen, dat hij de rechten op de content heeft.

• Het watermerk triggert een toepassing in een apparaat (device control) Hierbij is het watermerk de trigger voor een apparaat om een bepaalde actie uit te voren. Zo zijn er bedrijven die een watermerk in reclamefoto’s aanbrengen die bijvoorbeeld in een tijdschrift worden afgedrukt. Als je een foto neemt met je mobieltje van de pagina in het tijdschrift, en je mobieltje is uitgerust met een stuk software met daarin een watermerk detector, dan word je automatisch naar een bepaalde website geleid.

• Backwards compatible extra functionaliteit aan bestaande diensten toevoegen Als een voorbeeld van de ‘wet van de remmende voorsprong’ kan het introduceren van nieuwe diensten aan een reeds bestaande dienst gehinderd worden door het succes van de bestaande dienst. Meestal vereisen nieuwe diensten ook nieuwe software en/of hardware. Wanneer ineens nieuwe diensten worden toegevoegd aan het huidige portfolio wordt de dienst ontoegankelijk op bestaande apparatuur. Vaak is daarom een eis dat nieuwe diensten zodanig worden geïntroduceerd dat reeds in gebruik zijnde apparatuur de oude dienst gewoon kan blijven gebruiken, terwijl nieuwe daarvoor geschikte apparaten ook de nieuwe diensten kunnen gebruiken. Een watermerk kan hierbij de nieuwe dienst toevoegen aan het bestaande TV signaal. Een oud apparaat zonder watermerk detector heeft hier geen last van; een nieuw apparaat met watermerk detector kan van de nieuwe extra functionaliteit gebruik maken.

• Forensisch watermerk; traceren van content transacties Hierbij krijgt iedere kopie van de content zijn eigen, unieke watermerk. Wanneer een nieuwe bioscoopfilm aan recensenten wordt toegestuurd om te beoordelen, kan aan iedere kopie een unieke identificatie nummer worden toegevoegd. Wanneer een kopie op bijvoorbeeld het internet wordt aangetroffen, kan herleid worden welke kopie op het internet terecht is gekomen, en dus waar het lek zit.

• Toevoegen van additionele metadata aan content Additionele informatie, zoals de teksten behorend bij een liedje, worden aan het liedje toegevoegd. Indien de afspeel apparatuur met een watermerk detector is uitgerust, kan deze extra informatie worden weergegeven of anderszins gebruikt.

• Content authenticatie Bij een foto is het vaak de vraag of de foto (of ander signaal) wel in z’n geheel origineel is, of dat bepaalde elementen zijn verwijderd of toegevoegd. Een digitale handtekening (digital signature) van het beeld, bijvoorbeeld een hash code, blijft alleen intact indien het beeld niet bewerkt is. Echter, een dergelijke digitale handtekening zal altijd los blijven van het beeld, en kan dus worden verwijderd of vervangen. Een watermerk dat juist niet robuust is tegen bewerkingen, maar (lokaal) verdwijnt op plekken waar het beeld gemanipuleerd is, wordt een fragile (letterlijk: breekbaar) watermerk genoemd. In sommige gevallen kan een dergelijk watermerk ook aangeven waar in het beeld de wijzigingen zijn aangebracht.

In veel toepassingen is watermerken een onderdeel van een Digital Rights Management (DRM) systeem, naast bijvoorbeeld encryptie. DRM is een generieke term voor een waaier aan technologieën die gebruikt kan worden om de toegang tot, en consumptie van, digitale content en diensten te reguleren. Encryptie kan de content in zijn digitale vorm beschermen door het onleesbaar te maken (versleutelen).

Page 34: Herkenning van digitale informatie

ONGERUBRICEERD

34 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Echter, op een zeker moment moet de content ontcijferd worden om geconsumeerd te kunnen worden; een versleuteld betaal-TV programma moet bijvoorbeeld ontcijferd worden om op TV bekeken te kunnen worden. Vanaf dit moment is het een potentiële prooi voor illegale verspreiding. Wanneer het apparaat dat de content ontcijfert tevens een watermerk toevoegt met een identificatie nummer dat specifiek is voor de Set Top Box dat de content ontcijfert, bijvoorbeeld een serienummer, dan kan de illegaal verspreide content herleid worden tot de STB waar de content is “gelekt”. Een dergelijk watermerk wordt een forensisch watermerk genoemd. In de vakliteratuur wordt ook wel de term fingerprinting gebruikt, maar dit is verwarrend omdat de term fingerprinting meestal voor de eerder in dit rapport beschreven techniek wordt gebruikt. Met een watermerk kan extra informatie aan de content worden toegevoegd. Het watermerk blijft verbonden met de content indien de content geconverteerd wordt naar een analoog signaal. Dit in tegenstelling tot allerlei vormen van metadata dit alleen in digitale vorm beschikbaar zijn. Tevens blijft watermerk met de content verbonden indien de gebruikte encryptie is ontcijferd, bijvoorbeeld om de content af te spelen op een televisie scherm. In tegenstelling tot fingerprinting kunnen verschillende versies van dezelfde content met watermerken van elkaar onderscheiden worden.

3.3.3 Werkingsprincipes Een zeer eenvoudig voorbeeld van een watermerk is het veranderen van de Least Significant Bits (LSB) in een plaatje. Een plaatje bestaat uit een aantal beeldpunten (pixels). Ieder beeldpunt heeft een bepaalde waarde die de grijswaarde of de kleur van het beeldpunt aangeeft; deze waardes kunnen doorgaans in gehele getallen worden uitgedrukt. Door de waarde van een beeldpunt af te ronden naar een even waarde wordt een ‘0’ aangebracht; een oneven waarde van een beeldpunt representeert een ‘1’ in de watermerk boodschap. Hiermee kan dus in theorie een boodschap worden verborgen met een aantal bits gelijk aan het aantal pixels. Echter, een dergelijk watermerk is verre van robuust tegen verstoringen in het beeld. Zo zal compressie naar JPEG het watermerk ondetecteerbaar maken. Er zijn andere watermerk methodes bekend uit de literatuur die vele malen robuuster zijn dan deze methode, maar een lager aantal bits verbergen in de vorm van een watermerk. Een veelgebruikte techniek verbergt de watermerk boodschap in schijnbaar willekeurige (pseudo-) ruispatronen. Dit staat bekend onder de naam spread spectrum watermerken. Zo’n ruispatroon is niet geheel willekeurig, maar wordt door een computer gegenereerd op basis van een sleutel. Het gebruik van een sleutel is hierbij deels vergelijkbaar met cryptografie. De robuustheid van het watermerk tegen een aantal verstoringen kan vergroot worden door het eerste in amplitude te schalen alvorens het bij het originele signaal op te tellen. Hoe sterker het watermerk, hoe beter het watermerk waarneembaar wordt in het signaal. Dit laatste is doorgaans ongewenst. Er zijn verschillende methoden bekend om op vergelijkbare wijze grotere boodschappen in een signaal aan te brengen. Veelal wordt het watermerk niet bij het signaal zelf opgeteld, maar wordt het signaal eerst getransformeerd naar een geschiktere representatie, bijv. een frequentie domein in het geval van audio. Dit doet echter niet af aan het algemene werkingsprincipe. Aan de zijde van de detector wordt hetzelfde ruispatroon gegeneerd. Door het patroon te correleren met het signaal kan bepaald worden of het signaal dit watermerk bevat.

Page 35: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 35 / 114

Indien dit het geval is, zal de detector een hoge correlatiewaarde meten. Indien het watermerk niet in het beeld gevonden kan worden, zal de detector een late correlatiewaarde meten. Zoals bovenstaand voorbeeld al aangaf, brengt een watermerk kleine wijzigingen aan in het origineel. Door analyse van het origineel kunnen de wijzigingen aangebracht worden op locaties waar deze het minst opvallen. Aan de andere kant, is het belangrijk dat het watermerk aangebracht wordt in de visueel meest belangrijke delen van het origineel: deze zullen namelijk in bewerkingen zoveel mogelijk onaangetast blijven. Bewerkingen moet hier ruim geïnterpreteerd worden; het kan zowel bewuste acties gaan om de inhoud te wijzigen – denk aan logo, ondertitels, knippen-en-plakken, etc. – als om compressie, beeldverbetering, etc. Zo zal JPEG beeldcompressie de (hoogfrequente) details in het beeld laten verdwijnen; als het watermerk in deze hoogfrequente details was aangebracht zal het eveneens uit de content verwijderd worden. In dit voorbeeld is dus sprake van een uitruil tussen de waarneembaarheid van het watermerk met het blote oog, en de robuustheid van het watermerk voor JPEG compressie. Om het watermerk te kunnen detecteren en de boodschap af te kunnen lezen moet eerst bepaald worden waar in het signaal het watermerk gevonden kan worden. Bij een geïnformeerde detector die het originele, ongewatermerkte, signaal tot zijn beschikking heeft is dit eenvoudiger dan bij een blinde detector. De geïnformeerde detector weet namelijk waar het watermerk is aangebracht ten opzichte van de originele content, en kan de overeenkomstige locaties opzoeken in het gewatermerkte signaal. Een blinde detector zal op andere wijze op zoek moeten gaan naar de locatie van het watermerk. Een van de meest uitdagende verstoringen zijn geometrische verstoringen. Denk hierbij bijvoorbeeld aan het schalen van een beeld. Wanneer iemand een bioscoopfilm opneemt met een digitale camera zullen vaak perspectivische vervormingen optreden doordat hij zijn camera net een beetje scheef houdt. Als tweede voorbeeld valt te denken aan kleine subtiele vervormingen die kunnen optreden door het afdrukken en vervolgens weer inscannen van een foto of een document. Het watermerk zal meestal nog steeds in het signaal zitten, maar de preciese locatie van de informatie is gewijzigd op een manier die voor een (blinde) detector niet bekend is. Indien het origineel beschikbaar is bij de detectie kan geprobeerd worden de verstoring ongedaan te maken. Een alternatief voor het ongedaan maken van verstoringen is om het watermerk aan te brengen in een representatie van het signaal die ongevoelig is voor bepaalde verstoringen. In het geval van een bioscoopfilm, kan bijvoorbeeld het watermerk met een lage bitrate gerepresenteerd worden door veranderingen aan te brengen in de gemiddelde intensiteit van een aantal frames. Doordat het beeld in zijn geheel gewijzigd wordt, hebben vervorming van het perspectief en cropping geen invloed op de watermerk detectie. Hoe een watermerk in de praktijk wordt aangebracht hangt uiteraard ook af van het type signaal. Echter, de algemene werkingsprincipes zijn vergelijkbaar. Met name verschilt het type verstoringen waarvoor de menselijke waarneming gevoelig is. Het soort bewerkingen dat typisch plaatsvindt en de hoeveelheid samples die beschikbaar zijn om informatie in te verbergen.

Page 36: Herkenning van digitale informatie

ONGERUBRICEERD

36 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Zoals gezegd is de performance zeer sterk afhankelijk van de toepassing, het type signaal (bijvoorbeeld audio/beeld/video) en de keuzes die gemaakt worden in de trade-offs die eerder zijn beschreven.

3.3.4 Beperkingen van de techniek Om te kunnen functioneren, moet er eerst een watermerk in de content worden aangebracht. In bepaalde toepassingen kan de techniek niet worden toepast om reeds bestaande, ongewatermerkte content (legacy content) te herkennen. Met watermarking kan bijvoorbeeld een Beatles liedje op de radio alleen herkend worden, indien er een watermerk in is aangebracht. Er zullen echter altijd ook versies in omloop zijn waar geen watermerk in zit. Fingerprinting biedt dan een alternatief. Daarnaast kunnen onwelwillenden bewust proberen om een watermerk systeem te misleiden of misbruiken. We zullen dit een ‘aanval’ noemen. Bekende aanvallen op watermerk systemen zijn: • Het verwijderen van het watermerk uit het signaal

Wanneer er verschillende stukken content, bijvoorbeeld plaatjes, met hetzelfde watermerk beschikbaar zijn kan iemand het watermerk schatten op basis van deze beelden. Door het geschatte watermerk weer van het beeld af te trekken kan het watermerk ondetecteerbaar worden. Als het watermerk bestaat uit een repeterend patroon, bijvoorbeeld een vierkant ter grootte van een aantal pixels in een beeld, kan het watermerk ook geschat worden door de verschillende stukjes van het beeld te middelen.

• Ondetecteerbaar maken van het watermerk Zoals eerder opgemerkt, zijn veel watermerken gevoelig voor geometrische vervormingen. Of meer algemeen: verstoringen waarmee de synchronisatie tussen het watermerk en de detector verloren gaat. Het watermerk zit nog wel in de content, maar is voor de detector onvindbaar. Als een gewatermerkte audio signaal een beetje versneld afgespeeld wordt, en de gebruikte audio watermerk methode is hier niet robuust tegen, kan het watermerk door de detector niet gevonden worden. Veelal zal het watermerk weer detecteerbaar worden indien de versnelling ongedaan gemaakt wordt. Hetzelfde geldt voor het corrigeren van vervormingen van het perspectief in de opname wanneer iemand in een bioscoop de gewatermerkte film opneemt met een video camera.

• Herhaald proberen het watermerk ondetecteerbaar te maken (oracle attack) Indien iemand de beschikking heeft over de watermerk detector kan deze persoon proberen om het signaal een klein beetje te veranderen en zo het watermerk te verwijderen. Door herhaaldelijk kleine wijzigingen aan te brengen, en steeds te detecteren of het al gelukt is, kan iemand proberen om met zo min mogelijk verstoring het watermerk ondetecteerbaar te maken. Dit wordt een oracle attack genoemd.

3.3.5 Het spelersveld De volgende tabel bevat de namen van enkele bekende leveranciers van watermerk technologie en/of diensten.

Page 37: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 37 / 114

Tabel 3-3-4 Overzicht van enkele aanbieders van watermerk producten en/of diensten

Aanbieder Website Civolution http://www.civolution.com Verimatrix http://www.verimatrix.com Digimarc Corporation http://www.digimarc.com Verance http://www.verance.com MSI http://www.msi.com MarkAny http://www.markany.com Signum http://www.signumtech.com Fraunhofer http://www.fraunhofer.de Enkele van bovengenoemde partijen publiceren met enige regelmaat op wetenschappelijke congressen. In de academische wereld is watermarking nog steeds een actief onderzoeksgebied, hoewel minder dan aan het begin van het millennium. Destijds was er veel aandacht voor watermarking als technologie voor kopieerbeveiling. Wanneer we ons beperken tot Nederland en het Angelsaksische deel van de wereld zijn o.a. University College London, University of Illinois at Urbana Champaign (US), Purdue University (US), en de TU Delft actief in dit veld.

3.3.6 Publieke benchmarks Benchmarks van commerciële watermerk producten zijn voor zover bekend niet publiekelijk beschikbaar. Wel zijn er benchmarking tools in de academische wereld ontwikkeld. Voorbeelden zijn Stirmark, Certimark, WET en Audio WET. De laatste twee zijn online applicaties; voor het gebruik ervan dient toestemming van de betreffende beheerders verkregen worden.

3.3.7 Referenties [1] I.J. Cox et al., ‘Digital Watermarking and Steganography’. Morgan Kaufmann,

2nd edition, ISBN 978-0-12-372585-1, 2008

Page 38: Herkenning van digitale informatie

ONGERUBRICEERD

38 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 39: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 39 / 114

4 Versturen van geheime boodschappen (steganografie) en de detectie daarvan (steganalyse)

4.1 Inleiding

Bij steganografie gaat het om geheime, verborgen communicatie. Het doel is om een boodschap over te brengen, zonder dat iemand doorheeft dat je een boodschap overbrengt. In die zin staat het dus naast cryptografie; daar gaat het er o.a. om dat de boodschap niet leesbaar is voor een derde partij. Het gebruik van cryptografie springt erg in het oog, en het gebruik ervan kan ongewenste aandacht oproepen. Daarnaast verhult cryptografie niet het feit dát er gecommuniceerd wordt. Er zijn technologische varianten die sterk lijken op watermarking. Een watermerk mag vaak niet zichtbaar zijn vanuit het oogpunt van de kwaliteit van de content. Vaak is het juist algemeen bekend dat een signaal een watermerk kan bevatten; dit kan ook misbruik ontmoedigen. Bij steganografie is zelfs dat ongewenst. Gezien het doel van steganografie wordt het met name toegepast door mensen die niet betrapt willen worden. In de publiciteit is de meeste aandacht uitgegaan naar dissidenten in autoritaire regimes, criminelen, of terroristen; de laatste groep met name sinds 11 september 2001. Voor zover bekend zijn er geen statistieken over het gebruik van steganografie. De tegenhanger van steganografie is steganalyse. Deze techniek houdt zich bezig met het detecteren van verborgen boodschappen, met name in digitale bestanden. Indien de aanwezigheid van een boodschap ontdekt wordt, is de steganografie in feite al mislukt en de steganalyse geslaagd. Zodra de communicatie onderschept is kan gepoogd worden de boodschap te begrijpen dan wel te onderscheppen. Vaak echter zal de boodschap vercijferd worden dmv. encryptie. Een actueel overzicht van methodes en literatuur op het gebied van steganografie en steganalyse is te vinden in de boeken [1] en [2]. Steganografie en steganalyse zijn toepasbaar op audio, foto, video en tekst. In de literatuur gaat de meeste aandacht uit naar de toepassing van deze technologieën op beeldmateriaal, zo ook in dit rapport.

4.2 Werkingsprincipes

In steganografie worden diverse mogelijkheden om een boodschap te versturen onderscheiden. We illustreren ze hier aan de hand van het scenario dat een boodschap in een foto wordt verborgen: 1 De keuze van de foto representeert de inhoud van de boodschap

Vooraf worden afspraken gemaakt over welke boodschap gekoppeld is aan welke foto. In jargon heet dit het codebook. Iedere mogelijke foto heeft dus een bepaalde betekenis, die zowel bij de zender als bij de ontvanger op voorhand bekend moet zijn. Dit is meteen het zwakke punt van deze methode. Er moet op de een of andere manier gecommuniceerd worden wat de betekenis is van iedere foto. Als deze communicatie uitlekt, is de steganografie mislukt. Daarnaast is het aantal verschillende boodschappen wat hiermee gecommuniceerd kan worden in de praktijk vrij laag. Er kan ook voor gekozen worden om een boodschap te versturen die bestaat uit een aantal symbolen, bijvoorbeeld letters. Iedere foto representeert

Page 40: Herkenning van digitale informatie

ONGERUBRICEERD

40 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

dan een letter. Echter, in de praktijk kan dit argwaan opwekken doordat er veel foto’s verstuurd worden. Bovendien bezit taal een duidelijke structuur, zodat sommige letters vaker voorkomen dan anderen.

2 De foto wordt speciaal gemaakt op basis van de boodschap en wordt als zodanig

niet verder gewijzigd om de boodschap over te brengen. Bij deze methode wordt een foto speciaal gemaakt om een bepaalde boodschap over te brengen. De inhoud van de foto wordt dus als zodanig niet gewijzigd door het aanbrengen van de boodschap; immers de foto is de boodschap, net zoals bij de vorige methode. Een ander voorbeeld van deze methode is het voeren van gesprekken met daarin speciale codewoorden. Het gebruik van de codewoorden is van te voren afgesproken. De rest van het gesprek is in feite irrelevant; het gaat om het overbrengen van de codewoorden. Ook voor deze methode gelden dezelfde beperkingen als bij de vorige methode.

3 De boodschap is onwaarneembaar in een foto verborgen.

In de literatuur gaat de meeste aandacht uit naar het onwaarneembaar verbergen van boodschappen in een ander signaal, bijvoorbeeld een foto. Ook de meeste steganalyse tools en methodes zijn hierop gericht. Voordelen van deze methode zijn dat er meer vrijheid is om boodschappen over te brengen. Op voorhand wordt een bepaald algoritme of software pakket afgesproken om de boodschappen over te brengen. Welke boodschap overgebracht wordt, wordt uitsluitend beperkt door de opname capaciteit van het onderliggende signaal. In de vorige methode bepaalde in feite de grootte van het codebook de hoeveelheid over te brengen boodschappen. Hierdoor staan in de praktijk de betekenis van de mogelijke boodschappen op voorhand vast. Bij deze methode echter, kan bijvoorbeeld een kort tekstbericht verborgen worden in een foto; de inhoud van het tekstbericht is vrij te kiezen.

Een voorbeeld van steganografie waarbij een boodschap verborgen wordt in een tekstbestand is de website http://www.spammimic.com. Hier kan een korte boodschap zodanig per e-mail verstuurd dat het net lijkt op een spam e-mail. In het vervolg van deze tekst over steganografie zullen we ons beperken tot het onwaarneembaar verbergen van een boodschap in een ander signaal (methode 3). Er kunnen allerlei soorten boodschappen verborgen worden, van een tekst file tot een plaatje of een word document. Een boodschap wordt verborgen in een foto door de kleine wijzigingen in de representatie van die foto te wijzigen; en wel zodanig dat de wijzigingen niet opvallen. De wijzigingen kunnen niet alleen opvallen door naar de foto te kijken. Met name kunnen deze wijzigingen opvallen door de statistische eigenschappen van bepaalde kenmerken van de foto te analyseren. Zie ook de sectie over steganalyse. Er is veel bekend over wat een natuurlijk gedrag is van de pixels of andere representaties van een foto. Er zijn vele bronnen van variatie in de representatie van een foto. Denk hierbij aan ruis, compressie artefacten etc. Echter, sommige steganografische algoritmes brengen de boodschap zodanig aan dat de typische statistische karakteristieken van een foto gewijzigd worden. Een voorbeeld hiervan is LSB embedding. Deze techniek is ook beschreven in het hoofdstuk over watermerken.

Page 41: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 41 / 114

Bekende steganografische methodes zijn F5 [4] en OutGuess [5]. Beide verbergen de boodschap in de JPEG representatie van een beeld, en wel zodanig dat de belangrijkste karakteristieken van die representatie behouden blijven. Een andere stroming probeert juist om de wijzigingen die worden aangebracht te laten lijken op die van typische verstoringen in het beeld zoals ruis. Belangrijk is dat de ontvanger van de foto met de verborgen boodschap weet waar hij de boodschap moet zoeken. Met andere woorden: welke pixels of coëfficiënten in het beeld bevatten de boodschap. Dit wordt de selectie regel genoemd. Vaak hangt deze af van bijvoorbeeld een password die bepaald in welke pixels en in welke volgorde de boodschap wordt verborgen. Er zijn ook methodes die op basis van de foto zelf bepalen waar de boodschap het beste verborgen kan worden. Hoe minder wijzigingen aangebracht hoeven te worden om een boodschap in een beeld te verbergen hoe beter. Immers de wijzigingen zijn potentieel detecteerbaar. Matrix embedding is een manier om de hoeveelheid wijzigingen te beperken.

4.3 Watermerken versus steganografie

Zoals eerder reeds is gesteld zijn er diverse overeenkomsten tussen watermarking en bepaalde steganografie technieken. Daarnaast zijn er ook overeenkomsten in toepassing. Beide verbergen een boodschap in een ander signaal. In het geval van watermarking is de boodschap vaak gerelateerd aan de inhoud van de content; denk aan copyright informatie, een forensisch watermerk content te traceren, broadcast monitoring etc. Indien bij steganografie een boodschap verborgen wordt in een foto, is de boodschap doorgaans niet gerelateerd aan de foto. De foto wordt slechts zodanig gekozen dat de keuze geen argwaan zal wekken bij iemand die de communicatie onderschept. De boodschap is ook vaak veel groter. Met steganografie kan men als doel hebben om een compleet document te verbergen, terwijl het bij veel toepassingen van watermarken gaat om het aanbrengen van een korte identifier. Daarnaast is het, technisch gezien, in de ene foto eenvoudiger om een boodschap te verbergen dan in de andere. In geval van watermerk toepassingen ligt het commerciële belang bij de foto zelf. Als het technisch lastig is om de foto onwaarneembaar te watermerken, kan er besloten worden om de foto wel of niet te watermerken, het watermerk minder robuust te verankeren in het beeld, of de perceptuele kwaliteit van het beeld te degraderen door de aanwezigheid van het watermerk. Er is immers een uitruil tussen de waarneembaarheid en de robuustheid van het watermerk. In geval van steganografie ligt het belang bij de boodschap, niet de foto zelf. Er kan gewoon een andere foto genomen worden om de boodschap over te brengen. Tenslotte speelt bij watermerken de robuustheid van het watermerk tegen allerlei vormen van processing een belangrijke rol. Bij steganografie is dit doorgaans niet het geval. Een watermerk mag doorgaans niet waarneembaar zijn, om de content niet te degraderen. In geval van steganografie kan de wijziging van het signaal best waarneembaar zijn, zolang deze wijziging maar niet detecteerbaar is (opvalt). Een boodschap kan bijvoorbeeld verborgen worden door de kleur van iemand z’n trui te veranderen. Dit maakt niet uit zolang het maar niemand opvalt.

Page 42: Herkenning van digitale informatie

ONGERUBRICEERD

42 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

4.4 Steganalyse

Er wordt onderscheid gemaakt tussen twee soorten steganalyse 1 Gerichte steganalyse

In geval van gerichte steganalyse is er een vermoeden welk steganografisch algoritme is gebruikt. De steganalyse richt zich dan of onder deze aanname is vast te stellen of er een verborgen boodschap is, en zo ja welke. Zo kan er steganografische software op een in beslag genomen PC zijn aangetroffen. Als bekend is wat het werkingsprincipe van de software is, of als er andere sporen zijn aangetroffen van het gebruik van deze software, kan gericht op zoek gegaan worden naar een verborgen boodschap.

2 Blinde steganalyse Bij blinde steganalyse zijn er geen aanwijzingen of er sprake is van een verborgen boodschap, laat staan met welk algoritme. In dit geval is het vinden van een verborgen boodschap dus ook veel lastiger dan in het geval van gerichte steganalyse.

Blinde steganalyse gaat op zoek naar statistisch waarneembare afwijkingen in de karakteristieken van het bewerkte beeldmateriaal. Er is namelijk op voorhand het nodige bekend van de karakteristieken van “natuurlijk” beeldmateriaal. Belangrijke aanwijzingen zitten doorgaans in het histogram. Een histogram laat zien hoe vaak een bepaalde waarde, bijvoorbeeld van een grijswaarde in een zwart-wit foto, voorkomt. Er wordt dus gekeken naar de statistiek van bepaalde eigenschappen van een foto, en de verwachte statistiek van een gemiddelde (typische) foto. Wijkt de waargenomen statistiek af van de verwachting, dan is het vermoeden dat er een verborgen boodschap in zit. In steganalyse wordt veel gebruik gemaakt van classifiers; dit zijn technieken uit de patroonherkenning en machine learning. In deze specifieke toepassing is een classifier een systeem dat het onderscheid kan leren tussen een signaal met, en een signaal zonder verborgen boodschap. Dit gebeurt op basis van een aantal voorbeelden waarvan bekend is of er wel of niet een verborgen boodschap in is verborgen. Voor het goed kunnen uitvoeren of ontwikkelen van steganalyse is een goed begrip nodig van de methodes voor steganografie en statistiek. Tevens kunnen er zwakke punten bekend zijn van sommige specifiek steganografie methodes, die uiteraard benut kunnen worden in steganalyse. JPEG compressie verdeelt het beeld eerst in blokken. Vervolgens wordt ieder blok efficiënt opgeslagen. Als een boodschap direct in het JPEG domein is aangebracht, kan gekeken worden naar de eigenschappen van de informatie in deze blokken, of op de randen van de blokken. In dat laatste geval is de verwachting dat de randen van de blokken geaccentueerd zijn door het aanbrengen van de boodschap. Uit de literatuur zijn enkele vuistregels bekend [1]: • Het is moeilijker om boodschappen op te sporen kleine plaatjes dan in grote

plaatjes; er zijn namelijk voldoende pixels nodig om statistische aanwijzingen te vinden voor het gebruik van steganografie.

• Het is makkelijker om verborgen boodschappen op te sporen in kleurenplaatjes dan in zwart-wit plaatjes; van kleurenplaatjes is namelijk nog meer bekend wat de (statistische) kenmerken van een ‘typisch’ kleurenplaatje zijn. Het is dan ook moeilijker om al deze eigenschappen in tact te laten, zodat het geen argwaan wekt.

Page 43: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 43 / 114

• Het is moeilijker om een verborgen boodschap op te sporen in een plaatje met veel ruis (bijvoorbeeld gedigitaliseerd materiaal) of textuur, dan in foto’s met relatief grote gebieden met dezelfde kleur.

4.5 Uitdagingen

In principe is het steganalyse reeds geslaagd als er vastgesteld kan worden dat er een boodschap verborgen is in bijvoorbeeld een plaatje. Echter, men zal ook vaak geïnteresseerd zijn in de inhoud van de boodschap. Vaak wordt dit bemoeilijkt doordat onbekend is welke steganografische software gebruikt is. Tevens kan de boodschap beveiligd zijn dmv. encryptie. Hierdoor zijn de voorbeelden van succesvolle steganalyse in de praktijk vaak beperkt tot gerichte steganalyse waarbij er reeds concrete aanwijzingen zijn dat er bepaalde software gebruikt is.

4.6 Het spelersveld

Er zijn naar schatting enkele honderden steganografische software pakketten verkrijgbaar op het internet [3]. Het aantal steganalyse pakketten is beduidend minder. Bekende leveranciers zijn o.a. WetStone (http://www.wetstonetech.com) en SARC (http://www.sarc-wv.com). Er zijn diverse wetenschappelijke conferenties waarop aandacht besteed wordt aan steganografie en steganalyse. Er vindt onderzoek plaats aan o.a. de University Binghamton (SUNY, VS), en de universiteit van Magdeburg (Dld).

4.7 Referenties

[1] I.J. Cox et al., ‘Digital Watermarking and Steganography’. Morgan Kaufmann, 2nd edition, ISBN 978-0-12-372585-1, 2008

[2] J. Fridrich, Steganography in Digital Media; Principles, Algorithms, and Applications. ISBN 978 0 521 19019 0, Cambridge University Press, 2010

[3] http://www.wetstonetech.com/cgi-bin/shop.cgi?view,1,faq [4] A. Westfeld, High capacity despite better steganalysis (F5 – a steganographic

algorithm). In proceedings of the 4th International Workshop on Information Hiding, Vol 2137 of LNCS, 2001.

[5] N. Provos, Defending against statistical steganalysis, 10th USENIX Security Symposium, 2001.

Page 44: Herkenning van digitale informatie

ONGERUBRICEERD

44 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 45: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 45 / 114

5 Herkennen van de gebruikte foto- of videocamera

5.1 Inleiding

Het doel van deze techniek is de identificatie van een uniek, individueel exemplaar foto- of videocamera aan de hand van sensorkarakteristieken als ruis en slechte pixels. Bij camerabeelden is er altijd sprake van ruis. In het geval van een goede camera, bij goede belichting, is er sprake van weinig ruis, en bij minder goede camera’s en minder licht zal er meer ruis zijn. Vaak is bij goede omstandigheden de ruis normaal gesproken niet zichtbaar. Dit komt doordat het menselijk oog met op beeldscherm minder verschillende tinten waar kan nemen dan de 256 (2 tot de 8e) verschillende waarden welke normaal gesproken gedigitaliseerd worden. Voor hoge kwaliteit camera’s, welke met meer dan 8 bits worden gedigitaliseerd, is dit nog meer van toepassing. In dit hoofdstuk wordt met name aandacht besteed aan de karakteristieken van camera ruis en het schatten ervan.

5.2 Beperkingen van de techniek

De techniek heeft een verzameling beelden van dezelfde camera nodig. Een enkel beeld kan vaak alleen voldoen als dat een compleet uniform beeld is (bijvoorbeeld een opname met de lenskap op de camera), omdat anders signaal en ruis niet van elkaar kunnen worden gescheiden. Dit betekent dat een video of een verzameling foto’s (van dezelfde camera uiteraard) nodig is om de identificatie te doen. De hoeveelheid materiaal bepaalt het succes op identificatie: meer en diverse opnames maken de kans groter.

5.3 Werkingsprincipes

De techniek werkt door aan de hand van een video of verzameling losse beelden van dezelfde camera een schatting te maken van de ruispatronen van een camera. Neem als voorbeeld de zogenaamde fixed-pattern noise (FPN) van de camera. Het FPN patroon is uniek voor een individuele camera en kan als een fingerprint worden gebruikt. Naast het vaste ruispatroon kunnen ook andere sensorkarakteristieken gebruikt worden zoals camerapixels die slecht werken zoals knipperende en dode pixels. De ruis van een camera hangt in het algemeen af van: • Klasse en type camera • Hoeveelheid licht • Camera instellingen (diafragma, sluitertijd, gain, zoom, …) • Specifieke camera Vanuit een beeld of een beeldserie is camera ruis te meten en te karakteriseren. Op basis hiervan kan dan worden bepaald welke klasse / type / specifieke camera gebruikt is om een bepaalde opname te maken.

Page 46: Herkenning van digitale informatie

ONGERUBRICEERD

46 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Bij een camera zijn de volgende ruisbronnen en aberraties mogelijk aanwezig en mogelijk op te sporen: 1 Temporele ruis.

Dit is ruis die van beeld tot beeld anders is; de ruis heeft dus ook geen vaste structuur die typerend is voor de camera. Temporele ruis wordt overwegend veroorzaakt door twee bronnen: a. Poisson ruis

Poisson ruis (of shot noise) is een direct verschijnsel van het kwantum gedrag van het inkomend licht, waarbij licht in individuele fotonen worden geteld. Kenmerkend voor Poisson ruis is dat de hoeveelheid ruis samenhangt met de wortel uit de hoeveelheid licht.

b. Electronica ruis Electronica ruis is een verzameling van verschillende ruisbronnen in het uitleescircuit van de camera. Kenmerkend is dat de electronica ruis een normale verdeling heeft, en onafhankelijk is van de hoeveelheid licht.

De verhouding tussen de hoeveelheid Poisson ruis en elektronica ruis kan gemeten worden door te kijken hoeveel de hoeveelheid ruis varieert met de hoeveelheid licht (door de ruis in donkere en lichte beeldpartijen te meten). Deze verhouding zegt iets over het type camera, de hoeveelheid licht en indien instelbaar, de sluitertijd en diafragma van de camera.

2 Digitalisatie ruis

In principe kan de digitalisatie stap ook als een ruisbron gezien worden. In de praktijk is deze niet te onderscheiden van de electronica ruis.

3 Fixed-pattern noise. Dit is ruis die van beeld tot beeld hetzelfde is. Fixed-pattern noise, ook wel non-uniformity ruis genoemd, is waarschijnlijk het meest karakteristiek voor een specifiek exemplaar van een camera. In Figuur 1 is een voorbeeld van fixed pattern noise te zien, met zichtbaar verschillende typerende onderdelen: gevoeligheidsverschillen over de opname chip, horizontale en verticale structuren door verschillende gevoeligheden in verschillende uitlees en aanstuur kanalen, bad pixels. Kenmerkend is dat al deze verschijnselen afwijkingen zijn binnen het productie proces van een camera. Dit in tegenstelling tot temporele ruis en digitalisatie ruis.

Fixed pattern noise kan uit een beeldserie geschat worden met een Scene Based Non-Uniformity Correction proces. In het rechterbeeld van Figuur 5-1 is het resultaat te zien na correctie van het linkerbeeld; de geschatte non uniformity (in principe het verschil tussen deze twee beelden) is een unieke handtekening van deze specifieke camera.

Page 47: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 47 / 114

Figuur 5-1: Voorbeeld van een (infrarood) beeld met (links) en zonder (rechts) fixed-pattern noise [1].

Fixed pattern noise is het meest opvallend bij Thermisch Infrarood camera’s. Bij CMOS camera’s (zoals veel in mobiele telefoons zitten) is het vaak ook nadrukkelijk aanwezig. Bij CCD camera’s (zoals in veel video en foto camera’s) is het vaak goed onderdrukt, maar zeker bij hoog dynamisch bereik camera’s nog steeds goed waarneembaar.

Veel camera’s zullen intern een correctie mechanisme hebben voor fixed pattern noise. Het grootste deel wordt dan weggerekend. De resterende fixed pattern noise is vaak afhankelijk van omgevingscondities waarin een camera wordt gebruikt, met name temperatuur en de hoeveelheid ontvangen licht.

Vlekken/stof op de lens en/of de opname chip zijn eigenlijk ook fixed pattern noise!

4 Vignetting.

Dit is een verloop in gevoeligheid over het beeldvlak. Vignettering is het verlopen van de hoeveelheid licht van het centrum naar de rand van het beeld. Dit is een eigenschap van het camera/lens ontwerp, en als zodanig iets waarmee een type camera kan worden herkend. Wordt eventueel beïnvloed door camera settings, waaronder diafragma en zoom.

5 Out-of-focus

Out-of-focus is een verschijnsel waardoor niet de hele scene tegelijkertijd scherp wordt gezien. Dit is een eigenschap van het camera/lens ontwerp, en als zodanig iets waarmee een type camera kan worden herkend. Wordt eventueel beïnvloed door camera settings, waaronder diafragma en zoom.

6 Motion blur

Motion blur is een verschijnsel waardoor (snel) bewegende objecten niet scherp gezien kunnen worden. De hoeveelheid is een functie van de snelheid van het object, en de opname snelheid van de camera. Aan dit laatste kunnen eventueel verschillende camera’s worden onderscheiden.

Page 48: Herkenning van digitale informatie

ONGERUBRICEERD

48 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

7 Compressie artefacten

Bij meer en meer camera systemen is een vorm van compressie aanwezig. Typerend zijn hierbij blokvormige patronen, vaak met een grote van 8x8 pixels. De hoeveelheid en soort van compressie is vaak typerend voor een bepaald type camera.

In de praktijk zal een camera systeem altijd meer of minder mate last hebben van de bovengenoemde ruisbronnen. Wel moet worden opgemerkt dat wanneer er een of meerdere bronnen erg domineren, het bepalen van de andere ruisbronnen erg lastig kan worden. In de praktijk zal onder goede belichtingsomstandigheden de digitalisatie ruis en de compressie artefacten vaak het bepalen van andere ruisbronnen erg lastig maken. Figuur 5-2 tot Figuur 5-5 laten beelden zien min of meer standaard camera’s van moderne mobiele telefoons van een homogeen vlak. Bij al deze figuren is het contrast zodanig verhoogd dat de ruis duidelijk zichtbaar wordt. Duidelijk te zien is dat de twee verschillende telefoons (de Sony Ericsson en de Nokia) een heel anders ruis patroon hebben. In Figuur 3 tot Figuur 5 is te zien dat bij verschillende lichtniveaus de hoeveelheid ruis verschilt, maar dat het soort ruis redelijk hetzelfde blijft.

Figuur 5-2: sub-beeld van Sony Ericsson C902. Te zien zijn individuele ruis pixels, en een shading in intensiteit en kleur van onder naar boven.

Page 49: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 49 / 114

Figuur 5-3: sub-beeld van een Nokia 6300. Te zien zijn kleurvlekken en compressie artefacten.

Figuur 5-4: sub-beeld van zelfde Nokia 6300, nu met minder licht. te zien zijn kleur vlekken, compressie artefacten, shading, en wat fixed pattern ruis.

Page 50: Herkenning van digitale informatie

ONGERUBRICEERD

50 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Figuur 5-5: Sub-beeld van zelfde Nokia 6300 onder zeer weinig licht condities. Vergeleken met vorige wordt de Fixed Pattern Noise, zich manisfesterend in verticale structuren, steeds duidelijker.

5.4 Toepassingen

Aan de hand van het ruispatroon is de forensische identificatie van een specifieke camera, dan wel van het camera type mogelijk. Vergelijkbare technieken kunnen worden gebruikt voor het herkennen van een bepaalde scanner, of een bepaalde printer. Voorbeelden van vragen in een forensische context zijn: − is deze foto met deze (in beslag genomen) camera gemaakt? − welke foto’s zijn nog meer met deze camera gemaakt? − welke foto’s zijn met dezelfde camera gemaakt? Waarschijnlijk wordt het geschatte ruispatroon nog het meest gebruikt door camerafabrikanten om hun camera’s daarvoor te corrigeren [5]. Tenslotte kunnen de ruiskarakteristieken ook gebruikt worden om te kijken of een deel van het beeld mogelijk gemanipuleerd is. Een aanwijzing hiervoor kan zijn dat een bepaald stuk van het beeld afwijkende ruiskenmerken heeft tov. de rest van het beeld.

5.5 Het spelersveld

TNO heeft een state-of-the-art algoritme om o.a. real-time het FPN patroon te schatten en slechte camerapixels te identificeren [5]. Voor het schatten van ruispatronen is verder de TU Delft een speler. Op het gebied van vergelijken van camera ruispatronen, en het matchen daarvan, zijn de University Binghamton (SUNY, VS) en Purdue University (VS) actief.

5.6 Publieke benchmarks en performance

Er zijn geen publieke benchmarks bekend.

Page 51: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 51 / 114

5.7 Uitdagingen

De technieken om het vaste ruispatroon te vinden worden door veel camerafabrikanten uiteraard ook gebruikt om hun camera’s doorvoor te corrigeren: • Vast ingebakken in camera: in fabriek wordt de FPN gemeten en in een

correctietabel in de camera gezet. • Adaptief: met een real-time analyse wordt het FPN onderdrukt. Deze correctietechnieken maakt het uiteraard moeilijk om het patroon te vinden. Daarnaast gebruiken veel foto- en videocamera’s compressie om beelden en/of video op te slaan. Compressie kan uiteraard van invloed zijn omdat deze vaak de voor de mens niet waarneembare beeldkenmerken onderdrukt, dat kan ook het FPN zijn. Tenslotte is het betrouwbaar herleiden van ruispatronen tot specifieke camera’s een uitdaging, zeker wanneer de hoeveelheid mogelijke camera’s en fotomateriaal groot is.

5.8 Referenties

[1] K. Kurosawa, K. Kuroki and N. Saitoh. “CCD fingerprint method-identification of a video camera from videotaped images”. In Proceedings of the International Conference on Image Processing, Pages 537 – 540, 1999.

[2] J. Lukãš and J. Fridrich, “Digital camera identification from sensor pattern noise,” IEEE Trans. Information Forensics and Security, vol. 1, no. 2, pp. 205-214, Jun., 2006.

[3] M. Kharrazi, H. T. Sencar and N. Memon, “Blind source camera identification,” Proc. ICIP, 2004.

[4] S. Bayram, H. Sencar, N. Memon and I. Avcibas, “Source camera identification based on CFA interpolation,” Proc. ICIP, 2005.

[5] TNO product leaflet: “Signal Conditioning Image Enhancement Tool”. [6] Klamer Schutte, Dirk-Jan de Lange, Sebastiaan P. van den Broek, “Signal

conditioning algorithms for enhanced tactical sensor imagery”, Infrared Imaging Systems: Design, Analysis, Modeling, and Testing XIV. SPIE, Vol., 5076, pp. 92-100 (2003).

Page 52: Herkenning van digitale informatie

ONGERUBRICEERD

52 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 53: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 53 / 114

6 Herkenning van personen

Dit hoofdstuk introduceert een breed scala aan technieken die gebruikt kunnen worden voor het herkennen van personen. Het betreft hier veelal identificatie van specifieke personen, beter bekend als biometrie. Daarnaast presenteert dit hoofdstuk detectie van verdacht gedrag en het volgen van personen op basis van uiterlijke kenmerken. Deze technologie maakt gebruik van specifieke kenmerken van personen die gedetecteerd worden in data zoals audio signalen of in beelden. Dit gaat een stap verder dan fingerprinting technologie, omdat daar voornamelijk gebruik wordt gemaakt van statistisch kenmerken van de data. Voor persoonsherkenning worden meer semantische kenmerken gebruikt.

6.1 Spreker identificatie in audio

6.1.1 Inleiding Automatische sprekerherkenning betreft technieken om automatisch informatie te vergaren omtrent de identiteit van de spreker op basis van stemgeluid (het audiomateriaal). Het valt onder het bredere vakgebied van de spraaktechnologie, en moet niet worden verward met spraakherkenning, waarbij het gaat om wat er gezegd wordt.1 Bij sprekerherkenning gaat het om wie er spreekt. Sprekerherkenning heeft een lange geschiedenis, de eerste serieuze onderzoeken begonnen zo’n 40 jaar geleden door pionierswerk van met name George Doddington (toen bij Texas Instruments, VS) en Sadaoki Furui (NTT, Japan). De afgelopen vijftien jaar geniet het onderzoeksgebied van een stijgende interesse, vooral vanwege de toepassingsmogelijkheden binnen het domein van de inlichtingen, opsporing en terrorismebestrijding. Niet onbelangrijk zijn de toepassing in de bankwereld, telecom en corporate ICT omgevingen, waarvoor commerciële aanbieders al een tiental jaren sprekerherkenningstechnologie leveren. In deze sectie zullen we aangeven wat van belang is voor de toepassing in criminaliteitsbestrijding.

6.1.2 Beperkingen van de techniek Automatische sprekerherkenning werkt op basis van een spraaksignaal. Dit is onderhevig aan vele vormen variatie, zowel bij de productie (de stem) als bij het overbrengen (akoestiek, opnamekwaliteit). Het gevolg is dat we statistische analysetechnieken moeten gebruiken, en we daarom geen exacte uitspraken kunnen doen omtrent de identiteit van een stem. Net als vele andere (spraak)herkenningstechnologieën wordt sprekerherkenning uitgevoerd in een Bayesiaanse waarschijnlijkheidsrekening: er wordt onderscheid gemaakt tussen de a priori waarschijnlijkheid van de identiteit van een spreker, en de bijdrage die het audiomateriaal als ‘bewijs’ levert. Deze bijdrage wordt wel de aannemelijkheidsverhouding genoemd, die aangeeft wat de verhouding is van de aanwijzingen vóór en tegen het feit dat een bepaalde spreker2 spreekt. Essentieel is dat alleen deze aannemelijkheidsverhouding kan worden bepaald, voor de absolute kans is kennis over de a priori waarschijnlijkheid nodig die per definitie buiten het domein van de automatische sprekerherkenning ligt.

1 In de populaire media wordt wel gesproken over stemherkenning, maar hier wordt soms spraakherkenning en soms sprekerherkenning mee bedoeld. 2 Bijvoorbeeld een verdachte van een strafbaar feit, zoals een verbale bedreiging

Page 54: Herkenning van digitale informatie

ONGERUBRICEERD

54 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Om een concreet voorbeeld te geven: als men een bepaalde spreker zou willen identificeren op basis van zijn stem uit een beperkte set van 6 sprekers (vergelijk de Oslo-methode die wel gebruikelijk is bij een getuigenconfrontatie ofwel line-up) dan moeten deze zes een a priori waarschijnlijkheid worden toegekend van bijvoorbeeld 1/6. In feite geldt deze beperking voor alle statistische biometrische technieken, automatische sprekerherkenning is een gebied waarbij we ons hier zeer van bewust zijn. Omdat we met spraaksignalen te maken hebben kan de toepasbaarheid van sprekerherkenning variëren van geval tot geval, omdat de kwaliteit van het signaal beperkt kan zijn door verstoring, ruis, spectrale filtering en codering (bijvoorbeeld GSM telefoon), achtergrondlawaai. Ook de hoeveelheid beschikbaar materiaal kan onvoldoende zijn, bijvoorbeeld door zeer korte duur of monotone inhoud (alleen “eh”s en “ah”s).

6.1.3 Werkingsprincipe Om de manier van werken te kunnen begrijpen moeten we eerst vastleggen wat precies de taak van sprekerherkenning is. Het blijkt dat voor bijna alle toepassingen de taak gereduceerd kan worden tot de volgende vraag: gegeven twee opnamen met spraak, komt deze dan van dezelfde of verschillende sprekers? Meestal noemen we één van de opnamen het trainingsfragment, en de ander het testfragment. Van het trainingsfragment wordt een model gemaakt, waarin de typische eigenschappen van de spreker worden opgeslagen. Vervolgens wordt de spraak van het tweede fragment, het testsegment, “gepast” op het model en een getalsmatige score geeft dan aan in hoeverre de sprekers van beide segmenten op elkaar lijken: een hogere score betekent meer bewijs voor de hypothese dat het om één en dezelfde spreker gaat. Als deze score nu goed gekalibreerd is, kan deze gebruikt worden als die hierboven beschreven aannemelijkheidsverhouding. Vervolgens kan tot een besluit “verschillend” of “dezelfde” worden gekomen door te kijken of de score een bepaalde drempel heeft overschreden.3 Een goed overzicht van technieken wordt gegeven in [1]. Om een model te kunnen maken worden verschillende kenmerken uit het spraaksignaal gebruikt. De meest gebruikte kenmerken zijn zogenoemde spectrale eigenschappen. Deze beschrijven de “instantane klank” en kunnen zeer veelvuldig worden bepaald (typisch 100× per seconde) waardoor al heel snel een patroon kan worden gevormd. In de praktijk gebruikt men generatieve modellen als Gaussian Mixture Models (GMMs), waarbij we dan nog weer specifiek kijken naar in hoeverre het patroon afwijkt van een “gemiddeld” patroon dat een willekeurige spreker beschrijft. Een belangrijke alternatieve klasse van modellen vormen de discriminatieve modellen, en met name de Support Vector Machines (SVMs). Hierin wordt gezocht naar beschrijvingen waarin de spreker zich onderscheidt van de “dichtstbijzijnde” alternatieve sprekers die gekozen zijn uit een grote verzameling van achtergrondsprekers. Recentelijk is gebleken dat met name een slimme combinatie van beide modellen zeer succesvol is. Behalve spectrale eigenschappen worden ook andere gegevens uit het spraaksignaal berekend die kenmerkend zijn voor de spreker. Voorbeelden zijn de woordgebruik, prosodie (intonatie en ritme) en zelfs conversatiegedrag (interruptiegedrag, verbale terugkoppeling). Deze kenmerken worden wel van “hoger niveau” genoemd, omdat ze uit het lagere niveau van klanken worden samengesteld. In het algemeen geldt dat deze kenmerken minder frequent zijn (vergelijk 2-3 woorden/seconde met de 100

3 Voor een zinvol besluit op basis van minimale kans op fouten is weer de a priori waarschijnlijkheid nodig.

Page 55: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 55 / 114

spectra/seconde) en daarom meer trainingsmateriaal vergen om goed te presteren. Je zou kunnen zeggen dat deze sprekereigenschappen zijn aangeleerd, tegenover de puur spectrale kenmerken die vooral geassocieerd zijn met de fysieke afmetingen van het keel-mondkanaal. Hoewel ze op zichzelf niet tot zulke goede prestaties leiden als de spectrale eigenschappen, geven deze hogere orde eigenschappen belangrijke additionele informatie waardoor, in combinatie met de spectrale eigenschappen, betere systemen worden verkregen. De uitdaging van automatische sprekerherkenning zit hem voornamelijk in het om kunnen gaan met de (ongeziene) variatie die voor kan komen in het spraakmateriaal. Om hier mee om te kunnen gaan moeten sprekermodellen “breder” worden gemaakt en kunnen derhalve “overlappen” met andere modellen, waardoor gemakkelijker fouten kunnen worden gemaakt. Een manier om voor een bepaalde toepassing de prestaties te verbeteren bestaat daarom uit het verminderen van een deel van de variatie. De bekendste is de beperking van de vrijheid in wat er gezegd wordt: als precies bekend is wat een spreker zegt, dan kunnen de modellen als het ware veel “strakker” om de klanken heen gelegd worden waardoor specifiekere modellen ontstaan en beter onderscheid tussen sprekers gemaakt kan worden. Deze manier van opereren is bekend als tekstafhankelijke sprekerherkenning. Een manier om precies te weten wat er gezegd wordt, is de spreker opdragen om een bepaald woord of zinnetje te zeggen, bijvoorbeeld een cijferreeks. Toepassingen voor telefonisch bankieren werken typisch op deze manier: de gebruiker werkt mee, en weet dat zijn/haar stem gebruikt wordt voor verificatie of authenticatie.4 Anders is het voor toepassingen in fraudedetectie, zoeken en filteren en datamining: hierin kan de spreker niet worden opgedragen bepaalde woorden te zeggen, de spreker zal niet eens beseffen dat zijn/haar spraak gebruikt wordt voor herkenning. In dit geval gebruiken we tekstonafhankelijke sprekerherkenning, dit is moeilijker en we zullen wat langere spraaksegmenten nodig hebben. Voor criminaliteitsbestrijding is tekstonafhankelijke technologie een vereiste. Er bestaat ook een tussenvorm: hierin worden de woorden herkend met spraakherkenning of woordspotting, en wordt tekstafhankelijke sprekerherkenning toegepast op de herkende woorden. Dit noemen we woord-geconditioneerde sprekerherkenning. Het kan alleen werken als (toevallig) dezelfde woorden in zowel trainings- en testsegment voorkomen.

6.1.4 Toepassingen Sprekerherkenning valt onder de bredere paraplu van biometrische technologieën. Andere technologieën zijn o.a. gezichts-, vingerafdruk-, iris-, retina- en handschriftherkenning. Daarom liggen toepassingen op vergelijkbare gebieden. Bij authenticatie wordt sprekerinformatie gebruikt als ondersteunend materiaal voor de echtheid van de auteur van een document of actie (vergelijk met het zetten van een handtekening). Gerelateerd zijn toepassingen voor verificatie waarbij het geluid van de stem ter controle van de identiteit van de gebruiker dient (vergelijk met het laten zien van je paspoort). Een geheel ander toepassingsgebied is zoeken en filteren, waarbij het gaat om het ‘behapbaar’ maken van grote hoeveelheden informatie, door automatisch interessante sprekers een hogere prioriteit te geven bij het verwerken. Bij fraudedetectie is het doel om misbuik van persoonsidentiteiten naar boven te brengen, ook weer met het idee om bij het meest kansrijke topje van de ijsberg te beginnen. Tenslotte zijn er

4 Volgens bronnen bij PerSay, een commerciële aanbieder van sprekerherkenningstechnologie, wordt 90% van de markt gevormd door tekstafhankelijke herkenning.

Page 56: Herkenning van digitale informatie

ONGERUBRICEERD

56 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

toepassingen in de datamining waarbij automatisch gesprekken worden gegroepeerd op basis van de deelnemers. De belangrijkste commerciële toepassingen liggen in authenticatie/verificatie bij telefonisch bankieren, telefonische diensten en corporate ICT (bijvoorbeeld het stroomlijnen van een password-reset). Recentelijk komt ook de markt op voor fraudedetectie bij thuiszorgapplicaties. Tegenwoordig komen er ook meer toepassingen voor justitie en politie.5 Hierin gaat het vooral om opsporing (het vinden van verdachten en bewijsmateriaal), maar er komen zo langzamerhand applicaties beschikbaar voor het bepalen van de bewijskracht van bewijsmateriaal. Gerelateerd aan deze toepassingen ter bestrijding van criminaliteit zijn de toepassingen voor inlichtingen en opsporingdiensten van de overheid. Hierbij gaat het ook weer om tekstonafhankelijke sprekerherkenning voor het zoeken in en filteren van grote volumes aan gesprekken. Vanwege het geclassificeerde karakter zijn hier niet heel erg duidelijke cijfers beschikbaar over de huidige toepassing van sprekerherkenningstechnologie. We kunnen echter wel een indicatie krijgen van wat bijvoorbeeld de Amerikaanse overheid de afgelopen vijftien jaar aan investeringen in dit vakgebied hebben gedaan. Alleen al aan het opnemen van testdatabases voor het evalueren van sprekerherkenningssystemen zijn één tot enkele miljoenen dollars per jaar besteed. Sinds de gebeurtenissen van 11 september 2001 is de interesse van de verschillende diensten geïntensiveerd en zijn de evaluaties uitgebreider en gevarieerder geworden.

6.1.5 Het spelersveld Wereldwijd zijn er een aantal commerciële aanbieders van sprekerherkennings-technologie. Eén van de bekendste is PerSay uit Israel, die zeker ook een aantal klanten in Nederland kent. Andere aanbieders zijn Nuance uit de VS en Loquendo uit Italië, waarbij sprekerherkenning één van de vele aangeboden spraaktechnologieën is. Een recente speler die zich vooral richt op de forensische toepassingen is Agnitio uit Spanje. Deze bedrijven leveren goed integreerbare producten en hebben ook kennis van telefonie- en computerplatformen. Een tweede ring van bedrijven legt zich toe op de implementatie van specifieke producten en diensten, waarbij de sprekerherkenningssystemen van derden (PerSay, Nuance) wordt gebruikt. De ontwikkeling van sprekerherkenningssystemen ligt bij onderzoeksinstituten en universiteiten, en dit gebeurt vrijwel helemaal in het kader van de regelmatig terugkerende evaluaties van sprekerherkenningssystemen zoals die door het NIST (National Institute of Standards and Technology) in de VS worden georganiseerd (zie hieronder). Hierin zijn belangrijke partijen traditioneel MIT Lincoln Labs en SRI uit de VS, maar de laatste jaren zijn dit vooral partijen uit Europa en Azië, waaronder BUT (Tsjechië), Polito (Italië), TNO (Nederland), CRIM (Canada), IIR (Singapore). Het onderzoek richt zich helemaal op tekstonafhankelijke sprekerherkenning over een telefoonlijn, en de laatste jaren ligt de nadruk op robuustheid tegen variaties in transmissiekanaal, gesproken taal en microfoon/akoestiek. In Nederland is TNO een actieve speler, waarbij de nadruk ligt op specifieke oplossingen voor de overheid. TNO presteert telkens zeer goed in NIST benchmark evaluaties, en heeft een sterk netwerk met ontwikkelaars in de academische wereld en de industrie (Agmitio, Loquendo, PerSay, Phonexia), een actieve rol in evaluaties en uitstekende relaties met NIST. Daarnaast is de Radbout Universiteit actief in dit veld.

5 Een van de eerste toepassingen is parole monitoring waarbij voorwaardelijk gevangenen zich regelmatig telefonisch moeten melden. Hierbij wordt de lokatie van de beller langs andere wegen gecontroleerd, wat natuurlijk in het tijdperk van mobiele telefoons lastiger is geworden.

Page 57: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 57 / 114

6.1.6 Publieke benchmarks en prestaties Zoals hierboven beschreven stimuleert de Amerikaanse overheid het onderzoek in de sprekerherkenning met het sponsoren van evaluaties van systemen door NIST [2]. Zij doen dit door het organiseren van tweejaarlijkse (voorheen jaarlijkse) benchmarktests waarbij telkens nieuw spraakmateriaal wordt opgenomen om laboratoriumsystemen aan de tand te voelen. Door het vaststellen van de taak, de evaluatiemaat en het testmateriaal leggen zij een belangrijke stempel op de richting van onderzoek. Doordat steeds meer (recentelijk 40) partijen mee doen en hard werken aan de ontwikkeling van hun systemen om zo goed mogelijk te scoren, en evaluatiemateriaal, resultaten en methoden in principe voor alle deelnemers toegankelijk zijn, krijgt de Amerikaanse overheid hun investeringen vele malen terugbetaald. Omgekeerd is het voor een kennisorganisatie essentieel om te participeren, om de ontwikkelingen in de taak, databases en technologie op de voet te kunnen volgen. Als gevolg van de benchmarktests is er in de laatste jaren dan ook enorme vooruitgang geboekt in het omgaan met variatie in transmissiekanaal en sessie (verschillende telefoontoestellen, en -lijnen, conditie van de spreker, onderwerp van gesprek) met de ontwikkeling van nieuwe algoritmes, waarvan Joint Factor Analysis van Patrick Kenny de meest succesvolle kan worden genoemd. De prestaties van de beste systemen variëren van ongeveer 2% fouten voor telefoongesprekken met ongeveer 2 minuten spraak in het Engels tot ongeveer 5% wanneer verschillende talen in train- en testgesprek worden gesproken. Wanneer de spraakfragmenten slechts 10 seconden duren, neemt dit percentage toe tot ongeveer 15% voor de beste systemen. We rapporteren hier vrijelijk “het percentage fouten”---we bedoelen hier formeel de Equal Error Rate, het percentage fouten bij gelijke percentages vals positieven (zelfde spreker herkennen bij verschillende test- en trainspreker) en vals negatieven (verschillende sprekers herkennen als test- en trainspreker dezelfde zijn). Dit is een maat voor hoe goed een systeem in het algemeen sprekers kan onderscheiden. Voor specifieke toepassingen, bijvoorbeeld zoeken in audioarchieven, wil je juist heel lage percentages vals positieven hebben (van de orde van 0,1% of minder) en accepteer je meer vals negatieven. Bij andere toepassingen, zoals fraudedetectie, wil je juist weer lage percentages vals negatieven. De voorkeur voor een laag percentage vals positieven of negatieven kan worden gemaakt aan de hand van een zogenaamde DET-plot (Detection Error Trade-off), de standaard manier om de prestaties van een sprekerherkenningssysteem weer te geven in een grafiek, zie hieronder. Door een bepaalde drempelscore te kiezen, kan een willekeurig punt op de prestatiecurve worden gekozen.

Page 58: Herkenning van digitale informatie

ONGERUBRICEERD

58 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Figuur 6-1: DET plot die de relatie tussen vals positieven (false alarms) en vals negatieven (misses) laat zien, voor drie systemen. De zwarte curve is het systeem dat wordt gevormd door de rode curve (een JFA systeem) en de groene (een dot-scoring systeem) te fuseren. Op het punt bij het zwarte cirkeltje is het systeem zo ingesteld dat ongeveer 0.2% vals negatieven zijn bij iets minder dan 5% vals positieven, dit is een instelling die nuttig is voor fraudedetectie.

Behalve de regelmatig terugkerende NIST sprekerherkenningsevaluaties worden zo nu en dan andere evaluaties gehouden met een nadruk op een wat andere toepassing. Zo hebben in 2003 het NFI en TNO een evaluatie van ruim 10 systemen wereldwijd gehouden, waarbij het testmateriaal bestond uit fragmenten van telefoontaps die in Nederlandse opsporingsonderzoeken gedaan zijn [3]. De resultaten waren dat de prestaties iets minder zijn in vergelijking met de NIST evaluatie uit 2004. Recentelijk is in Europa de Italiaanse “EVALITA’09” evaluatie gehouden onder zeven systemen wereldwijd. De DET-plot hierboven is van de Radboud Universiteit submissie (in samenwerking met TNO) in de langere duur train- en testcondities voor EVALITA’09. Dit systeem had een van de beste resultaten.

Page 59: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 59 / 114

6.1.7 Uitdagingen Hoewel er in de afgelopen jaren enorme vooruitgang is geboekt, en de technieken ook al geruime tijd worden toegepast, zijn er nog steeds uitdagingen. Zo hebben we in het bovenstaande steeds stilzwijgend aangenomen dat er in een training- of testfragment maar één spreker te horen is. Dit is niet altijd het geval, in de praktijk worden telefoongesprekken vaak “mono” opgenomen zodat beide partijen in de conversatie “door elkaar” praten. We moeten dan eerst de twee sprekers scheiden (segmenteren), een taak die in het Engels Speaker Diarization heet, en waarbij uiteraard technieken verwant aan sprekerherkenning worden gebruikt. Ook in dit gebied is er activiteit in Nederland, bij TNO, en de Universiteiten van Twente en Nijmegen. Zoals ook eerder al aangegeven is het omgaan met variatie in transmissiekanaal een taai probleem, waar---mede door de focus van de afgelopen NIST evaluaties---ook al geweldige prestatieverbeteringen zijn geboekt. Het kunnen herkennen van een persoon op de radio die je slechts één maal (in het trainingsfragment) gehoord hebt met een slechte verbinding GSM, is nu eenmaal lastig. Hiermee in verband staat het probleem van de calibratie---de precieze toekenning van betekenis aan de herkenningsscore in termen van een aannemelijkheidsverhouding. Dit is met name van belang in bijvoorbeeld de bewijsvoering in een forensische context. Als de opnamecondities van het bewijs niet goed bekend zijn (kanaal, microfoon, akoestiek) dan het moeilijk om voor deze ene verdachte een gekalibreerde gelijkenisscore te geven. Het probleem van calibratie verdwijnt als je alleen geïnteresseerd bent in een rangorde, zoals bij zoeken in audio archieven. Zoals je zoekt met Google op het web, ben je dan geïnteresseerd in de meest relevante telefoongesprekken, de vraag of de opgeleverde resultaten werkelijk relevant of niet zijn kun je dan als gebruiker zelf snel bepalen. Als laatste uitdaging willen we hier een specifieke applicatie noemen: het linken van fragmenten op basis van sprekeridentiteit. Hierbij is de taak om van een grote hoeveelheid audiosegmenten die van dezelfde spreker bij elkaar te groeperen, en verschillende sprekers in aparte groepen. Deze applicatie heeft toepassingen op vele gebieden, en kan volledig automatisch antwoord geven op vragen als: hoeveel personen (zijn hier in de zaal, op dit radionet, gebruiken deze telefoon), wie praat er met wie: wat is de communicatiestructuur en wat zijn de communicatiepatronen. Automatisch linken wordt moeilijker naarmate er meer gesprekken en meer verschillende sprekers zijn. Deze applicatie wordt met een combinatie van sprekerherkenning en speaker diarization aangepakt. Door gebrek aan beschikbaarheid van heel grote, consistent geannoteerde, dataverzamelingen zijn er nog geen systemen ontwikkeld die goed blijven werken als de schaalgrootte blijft groeien.

6.1.8 Referenties [1] Bimbot et. al, “A tutorial on text-independent speaker verification”, EURASIP

journal on applied signal processing, page 430 – 451, issue 4, 2004. [2] Alvin Martin and Craig Greenberg, “NIST 2008 speaker recognition evaluation:

Performance across telephone and room microphone channels”, Proceedings of Interspeech, September 2009.

[3] David A. van Leeuwen, Alvin F. Martin, Mark A. Przybocki and Jos S. Bouten, “NIST and TNO-NFI evaluations of automatic speaker recognition”, Computer, Speech and Language 20, pages 128 – 158, issues 2-3, volume 20, april-july 2006.

Page 60: Herkenning van digitale informatie

ONGERUBRICEERD

60 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 61: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 61 / 114

6.2 Gezichtsherkenning

6.2.1 Inleiding Een gezichtherkenningssysteem heeft als doel om (automatisch) een persoon te identificeren op basis van kenmerken van z’n gezicht [8].

6.2.2 Werkingsprincipes In een gezichtsopname worden karakteristieke punten gedetecteerd, per punt worden locale beeldkenmerken berekend en die worden voor herkenning gebruikt. Er zijn verschillende methodes en algoritmes ontwikkeld voor het bepalen van de kenmerken. Elk gezichtherkenningssysteem werkt volgens onderstaand schema: 1 Beeldacquisitie

Eerst wordt een beeld verkregen met daarin het gezicht. Het kan hierbij gaan om een stilstaand beeld, een frame uit een videostroom of een beeld uit een database zijn.

2 Gezichtsdetectie In deze stap worden de plaats en grootte van de aanwezige gezichten gedetecteerd. Meestal wordt nog op basis van de ogen de oriëntatie van het gezicht bepaald. Voor sommige toepassingen is het al voldoende om te detecteren of er een gezicht in beeld is. In dat geval eindigt het proces met deze detectie stap zoals geïntroduceerd in hoofdstuk 2.

3 Normalisatie De grootte en oriëntatie van het gezicht worden geschaald naar een standaard grootte en oriëntatie. Verder wordt gecorrigeerd voor belichtingsinvloeden.

4 Kenmerkextractie In deze stap worden de relevante beeldkenmerken bepaald die representatief zijn voor een gezicht. Hier zitten de essentiële verschillen tussen de diverse leveranciers.

5 Vergelijking Hierbij worden de gevonden kenmerken, die samen een template vormen, vergeleken met het template van één of meer referentiegezichten in de database, zoals die zijn opgeslagen tijdens enrollment.

6 Terugmelding De terugmelding hangt af van het type onderzoek dat gedaan wordt: verificatie of identificatie, zoals geïntroduceerd in hoofdstuk 2

6.2.3 Toepassingen In de meeste toepassingen is er eerst sprake van een enrollment procedure. Hierbij wordt onder gecontroleerde omstandigheden een opname van het gezicht gemaakt, die later als referentie gebruikt wordt. In verificatietoepassing, zal de persoon die een document met zijn biometrische kenmerken moeten overleggen, die vervolgens met de opname van zijn gezicht op dat moment wordt vergeleken. Echter, in sommige toepassingen is dit niet mogelijk. In geval van opsporing aan de hand van videobeelden zijn er geen beelden uit een enrollment procedure beschikbaar. Gezichtsherkenning kan op verschillende manieren ingezet worden, afhankelijk van het doel van de toepassing:

Page 62: Herkenning van digitale informatie

ONGERUBRICEERD

62 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

1 Toegangscontrole Het systeem laat alleen mensen door indien de vergelijking met een bestaand referentiebeeld succesvol is. Meestal vindt dit plaats op basis van verificatie. Iedereen die toegang mag hebben heeft eerst een enrollment procedure doorlopen. Het voordeel van verificatie is dat de betrouwbaarheid van het systeem sterk toeneemt door gebruik van voorkennis over wie zich heeft aangemeld en het feit dat een persoon mee zal willen werken.

2 Watchlists In dit geval identificeert het systeem volautomatisch mensen. Van iedereen die in beeld komt wordt geprobeerd de identiteit vast te stellen. Deze informatie kan bijvoorbeeld worden gebruikt om de operator automatisch te alarmeren in het geval van ongewenste bezoekers. Een zwakte van deze set-up is dat om het systeem tegen te werken je uitsluitend automatische herkenning hoeft te verstoren Verschil met toegangscontrole is dat mensen worden geïdentificeerd op basis van niet geconditioneerde opnames, waardoor het probleem complexer is.

3 Interactieve identificatie als onderdeel van surveillance. In dit geval is er een operator die één of meer toezichtcamera’s bedient. In het geval van verdacht of ongewenst gedrag kan hij besluiten om de identiteit van een verdachte persoon op te vragen. Dit kan door het gezicht aan te klikken en het gezichtherkenningssysteem te vragen op welke personen de verdachte het meeste lijkt. Aan de hand van de suggesties van het systeem bepaalt de operator de identiteit van de verdachte.

4 Double dipping Hierbij wordt biometrie gebruikt om te checken of iemand die een aanvraag doet voor bijv. een paspoort sociale zekerheid of asiel, al in een database voorkomt en dus niet tweemaal gebruik kan maken dezelfde dienst.

5 Opsporing Vinden van specifieke personen in beeldmateriaal. Hier heb je meestal geen enrollment. Eigenlijk zit je hier vaak meer te zoeken naar overeenkomsten in beeldmateriaal. Voorbeelden zijn: opnamen van bewakingscamera's (ook bij pinautomaten), personen die bijdragen aan ongewenst videomateriaal, etc. Naast specifieke template gebaseerde gezichtsherkenning, ook technieken als beeldvergelijking en video-fingerprinting zijn hier inzetbaar. Vaak zul je hier een semi-automatsche aanpak kiezen: de techniek maar een voorselectie van relevant feiten en beeldmateriaal, en de mens de laatste zeggenschap geven.

6 Consumententoepassingen In diverse consumenten software en diensten wordt gezichtsherkenning gebruikt om de collectie op personen doorzoekbaar en sorteerbaar te maken. Bekende voorbeelden zijn Apple iPhote ’09 en Windows Live Photo Gallery, Google Picasa (Google heeft Neven Vision, een topspeler op gezichtsherkenning overgenomen), en plug-ins voor Facebook. Bij de laatste kun je een bericht krijgen als iemand anders op Facebook een foto plaatst waar jij in voorkomt. De gebruiker annoteert zelf enkele foto’s waar gezichten in gedetecteerd zijn, waarna het systeem op zoek gaat naar meer foto’s van dezelfde persoon. De gebruiker traint het systeem verder door aan te geven welke foto’s correct zijn geïdentificeerd, en welke niet. Deze training neemt de rol in van de enrollment procedure. Ook spelcomputers worden uitgerust met o.a. gezichtsherkenning (Microsoft project Natal).

7 Verbanden leggen binnen beslag genomen beeld collecties Het doorzoeken van een grote in beslag genomen collectie digitale dragers op de aanwezigheid van bijvoorbeeld kinderporno kost veel tijd. Het doorzoekbaar maken van een collectie beeld- en video materiaal. Hierbij kan gezichtsherkenning gebruikt

Page 63: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 63 / 114

worden om – net als in consumententoepassingen – verbanden te leggen tussen foto’s waarin dezelfde personen in voorkomen. Echter, in tegenstelling tot consumenten die hun eigen foto’s annoteren, zullen personen op het beeldmateriaal juist vaak onbekend zijn.

6.2.4 Publieke benchmarks en prestaties Het is lastig om een algemene indicatie van de prestatie van gezichtsherkenningsystemen te geven omdat het type applicatie en de bijbehorende randvoorwaarden substantiële invloed op de prestatie hebben. Een systeem presteert bijvoorbeeld onder gecontroleerde omstandigheden in een binnensituatie met medewerking significant beter dan een systeem dat zonder medewerking buiten moet functioneren. Enrollment is een kritisch punt voor de haalbare prestaties. Dit geldt voor alle vormen van biometrie, maar vooral voor gezichtsherkenning. Omgevingsfactoren zoals verlichting, houding, attributen (bril, pet, etc.) en gezichtsuitdrukking hebben grote invloed op de automatische herkenbaarheid van een persoon. Desalniettemin is uit recent onderzoek gebleken dat onder variërende belichtingsomstandigheden automatische gezichtsherkenningssystemen beter presteren dan getrainde mensen [7]. De Face Recognition Vendor Test (FRVT2006 [1]) is een uitgebreide, onafhankelijke test die door het National Institute of Standards and Technology (NIST) georganiseerd wordt. Gegeven het grote aantal gezichten dat is gebruikt in de test betreft het dé referentietest op dit gebied. Er wordt met verschillende data en scenario’s gewerkt, bijvoorbeeld verschillende belichtingscondities en resoluties. In 2006 is de eerste test met 3D opnames uitgevoerd, en een vergelijkende test om te bepalen hoe goed de gezichten door een mens worden herkend. Vele commerciële aanbieders hebben deelgenomen aan de test. Deze tests zijn de meest uitgebreide test op het gebied van gezichtsherkenning en de deelnemers gebruiken deze test ook vaak als referentie voor hun systeem. Opvallend is de enorme verbetering in prestaties die zichtbaar is tussen de 2D testen in 2002 en 2006. Verder bleek dat onder sommige omstandigheden verschillende systemen beter vergelijkbaar of beter presteren dan een mens. Om een indruk te geven van de prestaties: het doel van de FRVT2006 was om FRR van 2% te bereiken bij een FAR van 0,1% bij gecontroleerde belichting6. Zie hoofdstuk 2 voor deze performance definities. In 2006 bleken de best presterende systemen dit te kunnen voor hoge tot zeer hoge resolutie (ca.110-400 pixels tussen de ogen), net niet voor lage resolutie (ca. 75 pixels tussen de ogen). Opgemerkt moet worden dat de belangrijkste redenen voor verbeteringen tussen 2002 en 2006 (hogere resolutie beelden, betere belichting, en de herkenningstechnologie zelf) lang niet voor alle toepassingen inzetbaar zijn. De FRVT2006 geeft een goede indruk van de theoretisch maximaal haalbare prestaties. Echter, om een indruk te krijgen van de prestaties in de praktijk zijn praktijktesten nodig, zoals gepresenteerd in [3,4,5]. Wat betreft prestaties op basis van 3D modellen is veel minder bekend dan voor 2D gezichtsherkenning. Er draaien al concrete toepassingen op basis van 2D technologie in de praktijk en er is veel gedaan aan onafhankelijke benchmarking en evaluatie.

6 Voor uitleg van de begrippen FRR en FAR, zie hoofdstuk 2.3.

Page 64: Herkenning van digitale informatie

ONGERUBRICEERD

64 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

De organisatoren van de Face Recognition Vendor Test [1] verwachten dat met gelijke hoeveelheid pixels/datapunten de 3D gezichtsvergelijking beter gaat presteren dan in 2D, maar de 2D opnametechniek ontwikkelt zich razendsnel. De verwachting is wel dat de combinatie 2D/3D de 2D gezichtsvergelijking voorbij streeft [5]. De kracht van de 2D vergelijking wordt daarbij aangevuld door de pose onafhankelijkheid van de 3D opname. Dit is mede aangetoond in een recent vergelijkingsonderzoek [6].

6.2.5 Uitdagingen Ter verbetering van de performance van gezichtsherkenning zijn de volgende technische uitdagingen geïdentificeerd: • Indien de opnames geconditioneerd worden gemaakt is de performance beter.

Anderzijds impliceert dit de uitdaging om onder complexere omstandigheden tot een goede herkenningsperformance te komen. Denk hierbij aan variaties van belichting, niet frontale invalshoeken op het gezicht, lage resolutie beelden.

• Het blijkt dat gezichtsherkenningssystemen gevoelig zijn voor look-alikes. Als de gebruikersgroep voornamelijk uit broers, zussen, tweelingen etc. bestaat is de kans op valse herkenning hoger dan bij een groep gebruikers zonder familiebanden. Dit wordt bevestigd door ervaringen van consumenten op de toepassing van gezichtsherkenning in foto collecties. Het onderscheiden van look-alikes is ook voor de grensbewakers een grote uitdaging.

• In sommige gevallen zijn gezichtsherkenningssystemen te frauderen met een goede foto van een bepaald persoon. Of deze fraudepoging lukt, is afhankelijk van de opstelling van het systeem. Bijvoorbeeld zal het onder toezicht niet mogelijk zijn om een foto te presenteren i.p.v. het eigen gezicht. Sommige systemen hebben ook een zogenaamde livelinessdetector. Hierbij worden meerdere opnames gemaakt en moet een persoon met de ogen knipperen. Ook met een 3D opname kan op deze manier geen fraude worden gepleegd.

Het gezicht is vaak zichtbaar in beeld en videomateriaal en is daarom een goed aanknopingspunt bij het herkennen van personen, en het verifiëren van de identiteit. Daarnaast zijn mensen gewend aan identificatie via het gezicht (paspoort) waardoor de techniek makkelijk geaccepteerd wordt. Voor toegangscontroles etc. is het een voordeel dat het zeker onder toezicht niet mogelijk is om een namaakbiometrie (een foto, of een laptopscherm met een bewegend gezicht) aan te bieden. Tenslotte is het een techniek die snel kan worden toegepast. Een belangrijk nadeel van gezichtherkenning is de grote afhankelijkheid van de omstandigheden. Bij variabele belichting zal het systeem zeer wisselend kunnen presteren, zoals ook blijkt uit de FRVT2006[1]. Idealiter zijn de lichtomstandigheden bij afname te allen tijde identiek. Bij gebruik onder buitenomstandigheden zal afscherming van direct zonlicht en plaatsing van kunstlicht noodzakelijk zijn wat additionele kosten met zich mee zal brengen. Dit impliceert dat het systeem niet flexibel is te verplaatsen naar een andere locatie zonder aandacht te besteden aan het licht. Ten slotte kan het gezicht relatief sterk onderhevig aan verandering zijn. Sterke gewichtsverandering, groei bij kinderen en adolescenten en de gevolgen van ziekte kunnen een sterk effect hebben op het gezicht en daarmee het biometrische proces negatief beïnvloeden.

Page 65: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 65 / 114

Wanneer gezichtsherkenning wordt toegepast in het kader van opsporing en cybercrime zijn er aantal aandachtspunten, die voortkomen uit het feit dat gezichtsherkenning hier niet gebeurt onder gecontroleerde omstandigheden: • Er vindt geen enrollment plaats • Je hebt de belichting niet in de hand wat zijn de correctie mogelijkheden • Je hebt niet bij voorbaat medewerking; mogelijk moet je hierdoor extra corrigeren

voor pose • Je hebt niet altijd voorkennis over de te verwachten identiteit (verificatie) • 3D opnames zijn vaak niet beschikbaar Vaak zal onder dit soort minder gecontroleerde omstandigheden gezichtsherkenning meer gebruikt als selectietool, zodat niet alle materiaal met de hand hoeft te worden bekeken. Omdat 2D gezichtsherkenning tegen grenzen aanloopt als het gaat om variatie in pose en verlichting staat het onderzoek naar 3D gezichtsherkenning midden in de belangstelling. Deze technologie bepaalt de identiteit van een persoon op basis van de vorm van het hoofd. Omdat deze karakteristiek niet beïnvloed wordt door verlichting of pose is de 3D aanpak veelbelovend als het gaat om herkenning van personen in moeilijk te controleren omstandigheden. Het verkrijgen van 3D data is minder triviaal dan bij 2D gezichtsherkenning, waar een camera volstaat. In principe worden op dit moment rond 3D twee strategieën ontwikkeld en toegepast: 1 Opnemen van het gezicht in 3D (met stereo camera, structured light, projected grid

of laser range finders). 2 Genereren van 3D informatie op basis van één of meer 2D beeld(en).

6.2.6 Het spelersveld Een uitgebreid overzicht van aanbieders van gezichtsherkenning kan gevonden worden op http://www.face-rec.org/vendors/. Het onderstaande overzicht is hierop gebaseerd. We maken onderscheid tussen aanbieders van Software Development Kits (SDKs) en aanbieders van applicaties. In Nederland wordt op het gebied van biometrie samengewerkt binnen het Nederlands Biometrie Forum (NBF) (op Europees niveau: het Europees Biometrie Forum). Verder zijn het NFI, en de daaraan gelieerde werkgroep gezichtsvergelijking, en de Universiteit van Twente actief; wanneer het gaat om 3D gezichtsherkenning zijn TNO en de Universiteit van Utrecht actief. In de VS zijn o.a. de San Jose State University en Michigan State University actieve spelers.

Tabel 6-6-1 Commerciële aanbieders van SDKs voor gezichtsherkenning

Aanbieder Website Acsys biometrics http://www.acsysbiometrics.com/ Animetrics Inc. http://www.animetrics.com/ Ayonix, Inc. http://www.ayonix.com/ Betaface.com http://www.betaface.com/ Cognitec Systems GmbH http://www.cognitec.com Cross Match Technologies, Inc. http://www.crossmatch.com/ Cybula Ltd. http://www.cybula.com/ Geometrix, Inc. http://www.geometrix.com/ L-1 Identity Solutions, Inc. http://www.l1id.com/ Neurotechnologija http://www.neurotechnologija.com/ OmniPerception, Ltd. http://www.omniperception.com/

Page 66: Herkenning van digitale informatie

ONGERUBRICEERD

66 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Pittsburgh Pattern Recognition http://www.pittpatt.com/ Sensible Vision, Inc. http://www.sensiblevision.com/

Tabel 6-6-2 Commerciële aanbieders van applicaties voor gezichtsherkenning

Aanbieder Website Airborne Biometrics Group, Inc. http://www.facefirst.com/ Aurora http://www.facerec.com Avalon Biometrics Intern. http://www.avalonbiometrics.com/ Csystems Advanced Biometrics http://www.ex-sight.com/ ID One, Inc. http://www.idoneinc.com/ IITS, S.L. http://www.iits.es/english/index.html JAD Communication & Security http://www.jadcs.com/ Kee Square S.r.l. http://www.keesquare.com/ Sagem Morpho http://www.morpho.com/ TAB Systems http://www.tab-systems.com/ VDG http://www.vdg-security.com/ x-pin.com GmbH http://www.x-pin.com/ XID Technologies Pte Ltd. http://www.xidtech.com/

6.2.7 Referenties [1] Phillips, P. J., Scruggs W.T., Flynn, P.J., Boweyer, K.J., Schott, C.L., Sharpe, M.,

The Face Recognition Vendor Test 2006 and Iris Challenge Evaluation 2006 Large-Scale Results, www.frvt.org, March 2007.

[2] Untersuchung der Leistungsfahigkeit von biometrischen Verificationsssystemen -BioP II, May 2005, http://www.bsi.de/literat/studien/biop/biopabschluss2.pdf

[3] UK Passport Service Biometrics Enrollment Trial, May 2005.www.passport.gov.uk/downloads/ UKPSBiometrics_Enrollment_Trial_Report.pdf

[4] Biometric Test Results, National Physical Laboratory en Deloitte, presentatie op 19 oktober 2006 op Biometrics2006 in London

[5] P. Jonathon Phillips, Patrick J. Flynn, Todd Scruggs, Kevin W. Bowyer, Jin Chang, Kevin Hoffman, Joe Marques, Jaesik Min, William Worek.Overview of the Face Recognition Grand Challenge. IEEE Conference on Computer Vision and Pattern Recognition 2005.

[6] Performance Evaluation of Multibiometric Face Recognition Systems. [7] Alice J. O’Toole, P. Jonathon Phillips, Fang Jiang, Janet Ayyad, Nils Pe´nard, and

Herve´ Abdi. Face Recognition Algorithms Surpass Humans Matching Faces over Changes in Illumination. PAMI, VOL. 29, NO. 9, 2007.

[8] http://nl.wikipedia.org/wiki/Biometrische_gezichtsherkenning

Page 67: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 67 / 114

6.3 Persoonsherkenning op basis van 3D lichaamsmaten

6.3.1 Inleiding Antropometrie (leer van de lichaamsmaten) vertelt dat ieder persoon uniek is in de zin dat hij of zij een bij elkaar unieke verzameling lichaamsmaten heeft. Dat betekent dat gegeven een verzameling gemeten lichaamsmaten een persoon geïdentificeerd zou kunnen worden aan de hand van deze informatie, als biometrische toepassing. Naast persoonsherkenning kan uit de verzameling gemeten lichaamsmaten allerlei andere informatie worden bepaald, bijvoorbeeld het geslacht (man of vrouw) of een schatting van de leeftijd aan de hand van de lengte. Tevens biedt deze technologie mogelijkheden om het gedrag van mensen vast te stellen als deze metingen in de tijd worden gedaan.

1-20 Infraorbitale height,

standing, left.

1-22 Radiale-stylion

length, left

1-23 Sleeve outseam length,

left

Figuur 6-2: Een drietal voorbeeld lichaamsmaten.

6.3.2 Beperkingen van de techniek De grootste beperking is dat het zeer moeilijk is om uit beeldmateriaal van een persoon de lichaamsmaten voldoende nauwkeurig te meten om persoonsidentificatie mogelijk te maken. De oorzaken hiervoor liggen in de volgende aspecten: • fysieke aannames in de modellering van de lichaamsmaten, • ijking van de camera’s met de 3D wereld, • koppeling van meerdere 2D camera’s om tot 3D meting te komen. Lichaamsmaten zijn vaak moeilijk automatisch te meten in visueel materiaal, omdat de maten uitgaan van een mens zonder kleding. De maten zijn van oorsprong uiteraard maten die met de hand kunnen worden gemeten (zie ook Figuur 6-2). Kleding verhult echter de meeste lichaamsmaten zodanig dat visueel slechts onnauwkeurig deze maten kunnen worden gemeten. Dit probleem kan worden omzeild door een camera te nemen die op een andere golflengte kijkt. TNO heeft in afgelopen jaren gewerkt aan de radiometer camera om op deze beelden biometrie toe te passen zonder dat je gehinderd wordt door kleding of vermomming [1].

Page 68: Herkenning van digitale informatie

ONGERUBRICEERD

68 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Figuur 6-3: Opnamen van personen met radiometer camera.

Om uit een beeld een schatting van afstanden te kunnen maken moet een zogenaamde calibratie van de camera worden uitgevoerd om te bepalen hoe de camera de 3D wereld op een 2D beeld projecteert. Voor bekende statische camera’s (bijvoorbeeld op een station of bij een uitgaansgebied) is dat geen probleem. Calibratie van een onbekende camera is daarentegen een stuk lastiger.

Figuur 6-4: Camera calibratie: een camerabeeld is een 2D projectie van de 3D werkelijkheid.

Om een betere schatting van de lichaamsmaten te maken zijn vaak meerdere camera’s kijkend naar dezelfde persoon noodzakelijk. Dit kan disambigue situaties oplossen (armen deels zichtbaar) en ook meer maten meten.

Figuur 6-5: Meerdere camera’s lossen disambigue situaties op en meten meer maten.

6.3.3 Werkingsprincipes Globaal zijn er twee aanpakken: • Detectie van lichaamspunten in het beeld, • Het passen van een flexibel 3D mensmodel op een persoon in beeld, rekening

houdend met zijn of haar houding.

Page 69: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 69 / 114

Figuur 6-6: Voorbeeld van het passen van een 3D mensmodel in een beeld.

6.3.4 Toepassingen Het detecteren van lichaamspunten wordt meestal toegepast om gezichten in beelden te detecteren. De detectoren kijken naar specifieke kenmerken van het gezicht (dat kunnen betekenisvolle kenmerken als ogen of mondhoeken zijn maar soms ook niet) om deze te vinden. De mensmodel gebaseerde aanpakken zijn geschikt voor een breed scala aan toepassingen, bijvoorbeeld: • security: herkenning van persoonshouding met surveillance camera’s, • sport: videoanalyse van sporttrainingen, bijvoorbeeld zwemmen, • kledingindustrie: automatisch bepalen van een kledingmaat aan de hand van

meerdere camera’s.

Figuur 6-7: Voorbeeld 2D sportanalyse.

)( LEθ

),,( LSLSLS ψθφ

),,( TTT ψθφ

)( REθ

),,( RSRSRS ψθφ

Page 70: Herkenning van digitale informatie

ONGERUBRICEERD

70 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Figuur 6-8: Voorbeeld 3D gedragsanalyse.

6.3.5 Het spelersveld Tabel 6-3 presenteert een aantal bedrijven met producten die onder andere op het gebied van surveillance zijn uitgezet. Tevens wordt kort aangegeven welke opties ieder product biedt. De tabel is gebaseerd op publiek beschikbare bronnen (internet pagina’s en product folders). In de Nederlandse onderzoekswereld zijn o.a. TNO en de Universiteit van Amsterdam actief in dit veld.

Tabel 6-3 Overzicht van enkele bedrijven met producten voor people detection, tracking en tracing.

Aanbieder, product Mot

ion

dete

ctio

n O

bjec

t det

ectio

n O

bjec

t cla

ssifi

catio

n O

bjec

t tra

ckin

g Pe

ople

det

ectio

n Pe

ople

trac

king

Pe

ople

trac

ing

Peop

le c

ount

ing

Face

reco

gniti

on

Veh

icle

det

ectio

n V

ehic

le tr

acki

ng

Veh

icle

trac

ing

Even

t det

ectio

n (tr

igge

ring)

B

ehav

iour

det

ectio

n

American Dynamics v v v v Eagle Vision, SPI Scout v v v v v v v v IntelliVision, Intell. Video Adv. v v v v v v v v Proximex, Surveillint v v v TrueSentry, TrueAnalytics v v v v v v v v v v v v v VidSys, VidShield v v v v v v v v

6.3.6 Publieke benchmarks en prestaties Er zijn geen publieke benchmarks bekend. Op het moment halen deze technieken geen goede performance vanwege alle beperkingen.

6.3.7 Uitdagingen De grenzen van de techniek zijn dat een (visueel licht) camera niet door kleding heen kan kijken. Het is moeilijk om in een 3D model rekening te houden met een deel lichaam en een deel kleding.

6.3.8 Referenties [1] A. Salah et al. ‘Biometrie; Identificatie op afstand’, intern TNO rapport.

Page 71: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 71 / 114

6.4 Personen volgen op basis van uiterlijke kenmerken

6.4.1 Inleiding Met deze techniek kan dezelfde persoon in verschillende camera’s herkend worden en aan elkaar gekoppeld worden. Daarmee wordt het mogelijk wordt het gevolgde traject van een persoon te reconstrueren. Op basis hiervan kunnen voorspellingen gedaan worden over het vervolgtraject, maar ook terugzoeken waar hij vandaan is gekomen. Het bijzondere van deze manier van “tracing” is dat de camera’s geen overlap vereisen en de herkenningstechniek (tot op zekere hoogte) invariant is voor de aanzichthoek. De meest voor de hand liggende toepassing is surveillance.

6.4.2 Beperkingen van de techniek Personen worden herkend op basis van uiterlijke kenmerken. Dit impliceert dat onder andere de kleding van mensen wordt gebruikt als onderscheidende factor. Inherent daaraan is dat het systeem relatief eenvoudig te saboteren is door van kleding te wisselen. Kleding als belangrijkste kenmerk kent nog een andere beperkende factor. De aanwezige verscheidenheid aan kleding bepaalt het discriminatief vermogen van het systeem. Op militair terrein is het dus bijvoorbeeld moeilijk toepasbaar. Een andere complicatie levert kleding wanneer het aanzicht van een persoon van verschillende kanten erg verschilt (denk hierbij aan tassen, sjaals, openhangende jassen, etc.).

6.4.3 Werkingsprincipes Op basis van het beeld van een persoon (die met behulp van een segmentatietechniek uit een videostroom verkregen wordt), worden onderscheidende kenmerken bepaald (zoals de kleur of het patroon van de trui of broek). Deze kenmerken worden verzameld in een multi-dimensionaal histogram, dat vergeleken kan worden met de histogrammen van voorbeeldafbeeldingen of eerdere verschijningen. Op deze manier worden de meest gelijkende persoon geselecteerd. Gheissari et al. [1] evalueerde drie verschillende methoden voor het herkennen van personen gebaseerd op een globale regio aanpak, lokale invariante kenmerken en een graaf aanpak. Alle drie de methoden gebruiken kenmerken die zowel de kleur als de structuur van de persoon en kleding beschrijven. Hamdoun et al. [3] gebruiken meerdere beelden van een persoon in een video om identieke personen te vinden. De beelden worden geselecteerd door de desbetreffende persoon te volgen in de video. Elk persoon wordt beschreven met een verzameling lokale kenmerken die worden berekend uit de geselecteerde beelden. Gray et al. [2] gebruiken het AdaBoost algoritme om de meest karakteristieke kleur en textuur kenmerken voor het herkennen van personen te leren uit voorbeelden. De kenmerkselectie wordt gedaan door het systeem te trainen op voorbeelden van beeldparen met tweemaal dezelfde persoon en beeldparen met verschillende personen.

6.4.4 Toepassingen Hoewel de techniek nog niet veel wordt toegepast in praktijksituaties, is het uitermate geschikt binnen de beveiligingsbranche voor het volgen van personen tussen (niet-overlappende) camera’s.

Page 72: Herkenning van digitale informatie

ONGERUBRICEERD

72 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

6.4.5 Het spelersveld In tabel 6-3 zijn een aantal bedrijven met producten voor persoonsherkenning op basis van uiterlijke kenmerken gepresenteerd.

6.4.6 Publieke benchmarks en performance De performance van verschillende methoden wordt voornamelijk gerapporteerd in de vorm van publicaties. Deze publicaties gebruiken veelal publieke datasets zoals de ViPeR dataset. Voor praktische toepassingen is er een i-LIDS keurmerk, dat uitgegeven wordt door de Home Office Scientific Development Branch in Groot-Brittannië. Er zijn verschillende certificaten voor people tracking en tracing. De laatste is relatief nieuw en het is ons niet bekend of er al een vergeven is. Het Nederlandse bedrijf Observision heeft bijvoorbeeld het “Sterile Zone Monitoring”-certificaat ontvangen. De performance is afhankelijk van de grootte van de database. Die wordt bepaald door het aantal camera’s, het aantal te volgen personen en het aantal personen dat in beeld is. Een persoon volgen in een rustig winkelcentrum is eenvoudiger dan een persoon volgen op een festival. State-of-the-art technieken halen herkenningspercentages van 20% op een realistische database van 300 personen, of 40% op een database van 70 personen.

6.4.7 Uitdagingen De techniek is sterk afhankelijk van de instellingen van de aanwezige camera’s. Hierin moet voldoende detail in kleur en contrast aanwezig zijn voor een goede werking van de herkenning algoritmiek. De uitdaging is om de technologie steeds verder te verfijnen, zodat ook in lagere kwaliteit beeldmateriaal personen nog steeds gevolgd kunnen worden.

6.4.8 Referenties [1] Gheissari, N. et al., Person reidentification using spatiotemporal appearance. IEEE

conference on Computer Vision and Pattern Recognition, pp. 1528- 1535, 2006. [2] Gray, D. and Tao, H., Viewpoint invariant pedestrian recognition with an

ensemble of localized features. European Conference on Computer Vision, LNCS vol. 5302, pp. 262-275, 2008.

[3] Hamdoun O. et al. Person re-identification in multi-camera system by signature based on interest point descriptors collected on short video sequences. 2nd ACM/IEEE International Conference on Distributed Smart Cameras, 2008.

[4] VIPeR: Viewpoint Invariant Pedestrian Recognition, University of California, Santa Cruz, USA, http://vision.soe.ucsc.edu/node/178.

Page 73: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 73 / 114

6.5 Persoonsidentificatie op basis van beweging

6.5.1 Inleiding Kleine variaties in de loopstijl van mensen kunnen worden gebruikt als een biometrisch kenmerk om mensen te identificeren en herkennen. Het grote voordeel van loopstijl biometrie (in het Engels: ‘gait analysis’) met behulp van een camera is dat het van een afstand kan gebeuren. Biometrie met andere modaliteiten (bijvoorbeeld gezicht, iris, vingerafdruk) vraagt medewerking van de persoon en een kleine afstand van sensor tot de persoon. Herkenning op basis van beweging kan gebruikt worden in surveillance (handhaving) en forensische (opsporing) toepassingen. Persoonsidentificatie gebaseerd op loopstijl is van redelijke recent in vergelijking met de meer klassieke biometrie aanpakken zoals iris scans of vingerafdrukken.

6.5.2 Beperkingen van de techniek Uiteraard heeft herkenning op basis van beweging beperkingen. De belangrijkste is dat loopstijl biometrie geen identificatie kan geven op het niveau van vingerafdrukken, state-of-the-art gezichtsherkenning en irisscan. Maar het was bijvoorbeeld wel doorslaggevend in een bankroof zaak in Denemarken: een rechtbank vond loopstijl biometrie op video een waardevol middel.

6.5.3 Werkingsprincipes Persoonsherkenning op basis van beweging en videoanalyse werkt globaal door het extraheren van verschillende klassen visuele kenmerken: • spatio-temporeel: staplengte stapbreedte, loopsnelheid, stapfrequentie • kinimatisch: hoekrotatie van de heup, knie en enkel Deze kenmerken worden gecorreleerd met kenmerken uit een database met verschillende personen. Loopstijl analyse voor biometrie kent een aantal technologische varianten die verschillen in de sensor die gebruikt wordt: • analyse gebaseerd op videocamera’s • analyse gebaseerd op een druksensor op de vloer • analyse gebaseerd op draagbare sensoren

6.5.4 Het spelersveld Onbekend.

6.5.5 Publieke benchmarks en performance Er zijn geen publieke benchmarks bekend. In oudere publicaties werden veelbelovende herkenningspercentages gemeld zoals wordt gerapporteerd in [1]. Deze waren echter gevonden op beperkte groepen personen. Recentere studies met grotere databases (meer dan 100 personen) laten nog steeds de mogelijkheid zien dat de loopstijl als biometrie kenmerk kan worden gebruikt. Bijvoorbeeld, Sarkar et al. gebruikten een database van 122 personen en 1870 opnames en haalden een herkenningspercentage van 78%. Later hebben andere auteurs dit verbetert tot 95%.

Page 74: Herkenning van digitale informatie

ONGERUBRICEERD

74 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

6.5.6 Uitdagingen De grenzen van de techniek worden door de volgende factoren beïnvloedt: • Externe factoren, zoals aanzichthoeken (van voren of opzij), belichtingscondities

(dag/nacht), binnen of buitencondities (zonnig, regenachtig), kleding van de personen, conditie van het loopoppervlak (hard, zacht, droog, nat, gras, beton, vlak).

• Interne factoren: veranderingen in natuurlijke loopstijl door ziekte (voetblessures, Parkinson) of andere fysiologische veranderingen zoals ouderdom, dronkenschap, zwangerschap, gewichtsverlies, etc.

6.5.7 Referenties [1] Zeno J. Geradts, Jurrien Bijhold, Menno Merlijn, Gert de Groot, Use of gait

parameters of persons in video surveillance systems, Proceedings SPIE Vol. 4709, p. 12-20, Investigative Image Processing II, July, 2002

Page 75: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 75 / 114

6.6 Herkenning van afwijkend of verdacht gedrag

6.6.1 Inleiding Gewelddadig of terroristisch gedrag voorkomen begint bij het detecteren van afwijkend gedrag van mensen in groepen. Dit gedrag is onderzocht en in kaart gebracht. Door patroonherkenning en beeldanalyse wordt afwijkend gedrag opgespoord in camerabeelden. Deze sectie presenteert een oplossing dat een combinatie is van technologie uit de voorgaande drie secties. TNO identificeerde voor verschillende scenario's afwijkend gedrag. We onderscheiden: • gedrag dat afwijkt, ongeacht de locatie; • gedrag dat afwijkt op een bepaald soort locatie, bijvoorbeeld wel op een station,

maar niet in een stadion; • gedrag dat afwijkt op specifieke plekken, bijvoorbeeld bij de ingang van een

overheidsgebouw. Al die gedragingen hebben we in clusters geordend: mensen, attributen en gedrag. Binnen de groep 'mensen' onderscheiden we vervolgens bijvoorbeeld lichaamstaal, lichaamshouding en uiterlijk; onder 'attributen' kijken we naar het type en de plaats van de bagage.

6.6.2 Werkingsprincipes Ook zonder beveiligingsprofessionals kunnen camera's afwijkend gedrag signaleren. De daarvoor benodigde intelligente technologie is ontwikkeld in het TNO project “Hostile Intent”. Meer details over deze technologie kan gevonden worden in [1] en [2]. Patroonherkenning helpt bij het opsporen en beoordelen van afwijkend gedrag. Doordat het systeem de kleuren van kleding herkent, kan het iemand terugzoeken in camerabeelden. Gedrag dat de camera's kunnen detecteren: • toename van drukte • mensen die wegrennen (Figuur 6-10a) • groepen die opbreken en uit elkaar gaan, of mixen in de menigte • personen die iets verdacht bij zich hebben (Figuur 6-10b) • wilde bewegingen • groepsconfrontaties

Page 76: Herkenning van digitale informatie

ONGERUBRICEERD

76 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

a. b. Figuur 6-10a: groep rennende mensen gedetecteerd; b: persoon met en zonder verdacht pakket gedetecteerd. Afwijkend gedrag kan als volgt worden geordend: mensen lichaamshouding overdreven nonchalant lichaamstaal starre blik uiterlijk zonnebril binnen ophouden attributen type bagage tas met vochtplekken plaats van bagage ergens bovenop mismatches tussen bagage en gewicht gedrag omgang met bagage steeds checken of alles goed zit interactie met beveiliging inconsistente antwoorden geven verdacht gedrag na een aanslag filmen wat er gebeurt

6.6.3 Publieke benchmarks en prestaties Zowel binnen TRECVID als op conferenties zoals ICPR lopen wedstrijden om geautomatiseerd bepaald gedrag te herkennen, zie bijvoorbeeld http://cvrc.ece.utexas.edu/SDHA2010/. Het is een veld dat volop in ontwikkeling is. Er zijn nog weinig benchmark gegevens bekend. Wel kan gesteld worden dat het een uitdagend onderwerp is dat de aandacht van de wetenschappelijke wereld heeft.

6.6.4 Referenties [1] Burghouts et al., "Automated indicators for behavior interpretation", Int'l Conf. on

Crime Detection and Prevention, 2009. (parts also have been published in SPIE Defence & Security, 2009).

[2] Burghouts, G.J., Marck, J-W, "Reasoning about threats: from observables to situation assessment", IEEE T SMC: Pattern Recognition for Anti-terrorism Applications (submitted, 2010).

Page 77: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 77 / 114

7 Herkenning van objecten

Dit hoofdstuk introduceert objectherkenning aan de hand van twee toepassingen: autotypeherkenning en logoherkenning.

7.1 Objectherkenning met SIFT of SURF features

Objectherkenning maakt gebruik van SIFT [2] of SURF [3] features. Dit zijn twee vergelijkbare benadering voor objectherkenning. Deze aanpak heeft een groot aantal voordelen, waaronder dat het invariant is voor belichting, schaal en aanzichthoek van het object. Globaal werkt objectherkenning als volgt:

1. In een beeld (foto of videoframe) worden de karakteristieke punten gezocht. Dit zijn punten met een unieke geometrie, een typisch plaatje heeft tussen de paar honderd en paar duizend karakteristieke punten afhankelijk van de kwaliteit en resolutie.

2. Voor elk punt wordt de lokale omgeving van het punt beschreven. Zo'n beschrijving van een karakteristiek punt bestaat uit 128 bytes die het punt en zijn context coderen. Dit zijn de SIFT of SURF features.

3. Om een object te zoeken in een verzameling van foto's of video’s wordt voor iedere foto de karakteristieke punten en hun beschrijvingen berekend. Daarna worden deze punten gezocht in de verzameling punten van de foto's of video's door de puntbeschrijvingen (vectoren van 128 getallen) een voor een met elkaar te vergelijken en voor een objectpunt het dichtstbijzijnde punt in de puntenverzameling van de foto's te zoeken.

4. Na selectie op afstand levert deze zoekactie een aantal potentiële correspondenties op tussen objectpunten en punten uit de verzameling. Deze correspondenties worden verder bekeken of zij voldoen aan de eisen voor herkenning van een object. Hierbij wordt gekeken of er een voldoende aantal punten is voor herkenning en of de correspondenties met elkaar in overeenstemming zijn qua geometrie (onderlinge posities van de punten).

7.2 Autotypeherkenning

7.2.1 Inleiding Autotypeherkenning biedt de mogelijkheid om het type van een auto in een camerabeeld of video te herkennen. Bijvoorbeeld te herkennen dat de auto in beeld een BMW of een Volkswagen is, of in sommige gevallen zelfs verder dat het een BMW 3 serie is of een Volkswagen Golf.

Page 78: Herkenning van digitale informatie

ONGERUBRICEERD

78 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Figuur 7-1: Autotypeherkenning: 1e kolom: input beeld met BMW, 2e kolom: gesorteerde resultaten vanuit database, waarbij het eerste beeld in de kolom het meest overeenkomt. 3e kolom: input beeld met VW, 4e kolom: gesorteerde resultaten uit database. De vier beelden in de 2e kolom zijn alle het resultaat van een input die bestaat uit het eerste beeld uit de eerste kolom. Het inputbeeld is vier maal weergegeven in de eerste kolom om de overeenkomende locale beeldkenmerken weer te kunnen geven middels de groene lijnen.[1]. Hetzelfde geldt voor de beelden in de 3e en 4e kolom.

Met deze technologie zijn verschillende zaken mogelijk: • Opsporing door Politie van een witte BMW in video van verkeerscamera’s. • Identificeren van valse kentekenplaten of gestolen auto’s. Met deze technologie kan gecontroleerd worden of de combinatie kentekenplaat met auto correct is op basis van de RDW gegevens.

7.2.2 Werkingsprincipes Het werkt vergelijkbaar als de logoherkenningstechnieken in sectie 7.2. In die sectie worden meer details van deze technologie gepresenteerd. De objectherkenningstechnieken zijn voornamelijk gebaseerd op SIFT en SURF kenmerken [2,3]. Globaal zijn de volgende stappen in de applicatie te onderscheiden 1. een fotodatabase opbouwen (offline) 2. auto uit input beeld uitknippen (online) 3. auto in database herkennen (online)

Page 79: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 79 / 114

Figuur 7-2: Offline een fotodatabase opbouwen met meerdere aanzichten.

Figuur 7-3: Real-time segmentatie van kleurenfoto naar uitsnede met auto alleen.

Autotypeherkenning kan verschillende kenmerken typen gebruiken. De populairste varianten zijn de SIFT en SURF kenmerken. In het algemeen vindt SURF minder kenmerken dan SIFT maar zijn de herkenningsprestaties vergelijkbaar.

Figuur 7-4: Twee technologische varianten: SIFT kenmerken (links) of SURF kenmerken (rechts).

7.2.3 Beperkingen van de techniek De voornaamste beperking is dat de herkenningstechnologie uitgaat van 2D aanzichten en een auto een 3D object is. Dat betekent dat met een foto van de voorkant van een auto niet de achterkant van de zelfde auto kan worden herkend. Om een bepaald type auto vanuit alle aanzichthoeken goed te herkennen moeten dan ook foto’s van alle

Page 80: Herkenning van digitale informatie

ONGERUBRICEERD

80 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

aanzichthoeken in de fotodatabase zitten. Daarnaast is hierbij het probleem dat voornamelijk de voorkant van een auto zeer karakteristiek is; een zijaanzicht is lastiger te herkennen als van een bepaald autotype.

7.2.4 Het spelersveld Er zijn verschillende commerciële en academische partijen die software systemen. Deze worden gepresenteerd in tabel 7-1.

7.2.5 Publieke benchmarks en performance Er zijn geen publieke benchmarks bekend. Zoals al deels bij de sectie over de beperkingen van de technieken geschetst, hangt de performance sterk af van de volgende aspecten: • aanzicht van de auto in het input beeldmateriaal (voorkant vaak het best) • compleetheid van de fotodatabase (verschillende aanzichten en kleuren) • kwaliteit van input beeldmateriaal • keuze tussen automerk (VW) of ook type (VW Golf), of subtype (VW Golf 2001) Bij een ideale situatie (vooraanzicht, goede kwaliteit video en complete fotodatabase) zijn redelijk tot goede resultaten te verwachten.

7.2.6 Uitdagingen De grenzen van de technieken liggen vooral bij het input materiaal: veel auto’s lijken op elkaar en het is vooral moeilijk om goede performance te krijgen voor aanzichten die niet van voren zijn.

7.2.7 Referenties [1] R.J.M. den Hollander, “Car image matching based on local features”, internal

TNO report. [2] D.G. Lowe, Distinctive image features from scale-invariant keypoints, IJCV,

2004. [3] H. Bay, T. Tuytelaars and L. Van Gool, SURF: Speeded Up Robust Features,

ECCV, 2006.

Page 81: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 81 / 114

7.3 Logoherkenning

7.3.1 Inleiding Logoherkenning biedt de mogelijkheid om een logo te identificeren in beeldmateriaal. Figuur 7-5 laat een voorbeeld van zien het herkennen van een logo tijdens een sportwedstrijd.

Figuur 7-5: Voorbeeld softwarepakket voor logoherkenning in video of TV uitzendingen.

7.3.2 Werkingsprincipes De meeste softwarepakketten voor logoherkenning gebruiken zogenaamde ‘geometrie’ kenmerken van beelden om soortgelijke tot identieke beelden terug te vinden. Deze geometrie kenmerken zijn specifieke delen van het beeld die zo gecodeerd worden dat zij gemakkelijk kunnen worden gebruikt om andere voorbeelden te vinden, zie het voorbeeld van het Quaker pak hieronder:

Page 82: Herkenning van digitale informatie

ONGERUBRICEERD

82 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Figuur 7-6: zoekbeeld en resultaten.

De geometrie aanpak heeft grote voordelen, voornamelijk dat het ongevoelig is voor: • Schaling van het beeld (andere resolutie) • Rotatie van het beeld (andere 2D hoek) • Gezichtspunt van het beeld (2D affine transformatie, bijvoorbeeld perspectief) • Belichting • Achtergrond De meeste softwarepakketten voor logoherkenning gebruiken voornamelijk zogenaamde ‘geometrie’ kenmerken. De twee belangrijkste oplossingen maken gebruik van SIFT [1] of SURF [2] kenmerken.

Figuur 7-7: Karakteristieke geometriepunten.

Figuur 7-8: Herkenning onder verschillende aanzichthoeken.

Bij herkenning worden de mate van gelijkheid (quality of match) en transformatie van aanzichthoek teruggegeven. De herkenning kan ook meerdere objecten aan en op een standaard PC draait het met een snelheid van bijna real-time video (afhankelijk van de videogrootte en de framerate). De herkenning gebruikt standaard geen kleurinformatie.

Page 83: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 83 / 114

7.3.3 Beperkingen van de techniek Algemeen voorkomende beperkingen van de geometrie oplossing: • Logoherkenning is vaak alleen geschikt voor 2D logo’s: voor zoiets als een

voetbalshirt moet de herkenning er rekening mee houdt dat het 3D is en in stukken 2D herkend moet worden.

• Meerdere logo’s kunnen niet altijd tegelijkertijd worden herkend. De meeste tools gebruiken de volgende kenmerken niet: • Kleur: de kleur van een object is niet alleen afhankelijk van het object zelf maar ook

van de ‘kleur’ van de externe lichtbronnen. Dit maakt het kenmerk erg gevoelig voor veranderingen in de scene en achtergrond en daarom minder geschikt om daar gericht naar te zoeken.

• Vorm (buitenomtrek van het object, silhouet): de buitenomtrek of silhouet is vaak niet bijzonder genoeg (vierkant, rond, etc.) en ook moeilijk automatisch te bepalen. Het is daarom minder geschikt om beelden te vergelijken.

• Tekst: tekst wordt in de geometrie aanpak niet specifiek als tekst gelezen (dat is het werk van OCR pakketten) maar het levert wel heel goede geometrie kenmerken op (onafhankelijk van fontgrootte, etc.) voor herkenning.

Uiteraard kunnen vaak deze kenmerken soms wel worden aangezet (bijvoorbeeld kleur) of uit een andere tool (OCR) worden gehaald.

7.3.4 Toepassingen De meest voorkomende toepassingen zijn: • Monitoren van TV uitzendingen (bijvoorbeeld voetbalwedstrijden) in detail (waar,

hoe groot en hoe vaak) op de exposure van een merknaam. • Volgen van media op het gebied van reclame, communicatie, media planning en

marketing. • Visuele inspectie van producten onder de winkelwagen in supermarkten (kratten

bier, kattengrind) of voor zelfscan kassa’s zonder gebruik te maken van barcodes. In de context van OOV zou gedacht kunnen worden aan het herkennen en volgen van specifieke Arabische logo’s. Voor de meeste tools zijn er verschillende manieren hoe deze toepassing wordt geïmplementeerd. Dit is afhankelijk van waar de herkenning daadwerkelijk plaats vindt. Er zijn twee richtingen: • Lokale (decentrale) herkenning: beeld herkenning draait totaal op eigen PC

platform, • Centrale herkenning: beeld herkenning draait op een internet server, communicatie

via een web interface. Het hangt van de applicatie en grootte van de zoekverzameling af wat handig is. Een lokale applicatie op een mobiele telefoon met een fotodatabase van alle filmposters ooit is niet handig, daar past beter een web service.

7.3.5 Het spelersveld Er zijn verschillende commerciële en academische partijen die software systemen aanbieden die specifieke objecten, bijvoorbeeld (bedrijfs)logo’s, kunnen herkennen en zoeken in (grote) verzamelingen van foto’s en/of video’s. Hieronder volgt een kort overzicht van leveranciers van technologie of producten voor objectherkenning met

Page 84: Herkenning van digitale informatie

ONGERUBRICEERD

84 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

licentietype. In de tabel wordt een onderscheid gemaakt tussen commerciële licentie (C), open source voor niet-commercieel gebruik (OS NC), en open source voor commercieel gebruik (OS C).

Tabel 7-1. Overzicht software pakketten met SIFT of SURF implementaties.

Aanbieder Website Licentie model

OmniPerception Magellan http://www.omniperception.com/ C SpikeNet http://www.spikenet-technology.com/ C Evolution Robotics, Inc. http://www.evolution.com/core/ViPR/ C MILPIX http://www.milpix.com/en/ C Kooaba http://www.kooaba.com/ C Joanneum/ HS-ART C TNO C ETH SURF http://www.vision.ee.ethz.ch/~surf/index.html OS NC Lowe SIFT http://people.cs.ubc.ca/~lowe/keypoints/ OS NC OpenCV SURF http://sourceforge.net/projects/opencvlibrary/ OS NC De licentiemodellen voor het gebruik van de tools zijn vaak flexibel: • gebruikslicentie (alleen gebruik tool) • ontwikkellicentie (verdere eigen ontwikkeling van de tool) • bedrag voor gebruik per:

− herkenning − maand, jaar (abonnement) − als percentage (extra) omzet − als percentage winst op eigenproduct − als percentage verkoopprijs eigen product

• bedragen met of zonder support

7.3.6 Publieke benchmarks en performance Er zijn geen publieke benchmarks bekend voor logoherkenning. De performance van logoherkenning is erg hoog. Dit wordt veroorzaakt door het feit dat de gekozen features erg robuust zijn. Afhankelijk van de toepassing en beeldmateriaal zijn zeer hoge detectieratio’s (95% tot 100%) mogelijk met lage aantallen vals alarmen.

7.3.7 Uitdagingen Hoewel de gebruikte technieken voor logoherkenning ‘invariant’ zijn voor belichting en aanzichthoek zitten daar uiteraard beperkingen op in de meeste implementaties en producten. Deze hangen af van het materiaal (logo en te doorzoeken beelden). Al te scheve aanzichthoeken (meer dan 45 graden) en schalingen van meer dan 4 maal het origineel zijn moeilijk. Verder is de techniek bedoeld voor het herkennen van 2D logo’s. Het herkennen van een 2D logo op een voetbalshirt of op een blikje is lastiger en vereist specifieke aanpassingen.

7.3.8 Referenties [1] David G. Lowe, "Object recognition from local scale-invariant features,"

International Conference on Computer Vision, September 1999, pp. 1150-1157. [2] Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool, "SURF: Speeded Up

Robust Features", Computer Vision and Image Understanding (CVIU), Vol. 110, No. 3, pp. 346-359, 2008

Page 85: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 85 / 114

8 Herkennen van tekst in beeld en video (OCR)

8.1 Inleiding

Herkenning van tekst in beeld is beter bekend als OCR wat staat voor Optical Character Recognition. Veelal wordt deze technologie toegepast voor het herkennen van machinaal geproduceerde karakters. Voor specifieke toepassingen wordt ook handgeschreven tekst herkend. In dat geval wordt gesproken over ICR wat staat voor Intelligent Character Recognition. Logischerwijs is handgeschreven tekst vele malen lastiger te herkennen dan machinaal geproduceerde tekst. OCR technologie wordt al onderzocht sinds het begin van de vorige eeuw (patent Gustav Tauschek, 1929). Daarom heeft deze technologie niet het meest innovatieve karakter, maar is het nog altijd een belangrijke technologie om automatisch tekstuele metadata te genereren bij visuele content.

8.2 Toepassingen

De volgende cases illustreren de mogelijkheden van deze technologie: • Databank Digitale Dagbladen (Koninklijke Bibliotheek)

De Koninklijke Bibliotheek (KB) heeft een scanstraat, waar 10 mensen alle nationale, lokale, regionale en koloniale kranten uit het verleden digitaliseren [1]. Deze digitale beelden wordt vervolgens door de OCR technologie omgezet naar tekst, waarna deze wordt opgeslagen. Dit resulteert in een archief dat eenvoudig doorzocht kan worden. De OCR oplossing is onder andere door Autonomy [2] geleverd. Probleem is dat verschillende kranten verschillende lettertypes en woordgebruik hanteren, waarbij verschillende herkenners stemmen en de meest voorkomende stem voor een woord wint.

• Tekst in video (Nederlandse Publieke Omroepen) Op TV of in video materiaal op het internet komt veel tekst voor. Denk hierbij aan ondertitels, programma-aankondigingen, captions met de naam van de presentator of een geïnterviewde of de aftiteling. Dit zijn teksten die redactioneel zijn toegevoegd aan het beeld. Daarnaast is er tekst die gewoon in het beeld aanwezig is. Denk hierbij aan een opname voor het plaatsnaambord “Delft” of aan de herkenning van kentekenplaten in een videostroom. De praktijk wijst uit dat vooral ondertitels goed te herkennen zijn zoals figuur 8-1 laat zien. Die zijn uiteindelijk ook geoptimaliseerd om gelezen te worden. Terwijl de tekst die vrij in het beeld staat de meest complexe variant is om goed te herkennen. In deze context wordt OCR technologie gebruikt om automatisch metadata te genereren bij visuele content. De teksten kunnen vervolgens gebruikt worden om de content doorzoekbaar te maken. Denk anderzijds aan technologie die de ondertitels gebruikt om voor te lezen aan slechtzienden of dyslecten.

• Adressen op poststukken (TNT) Dit is een complex, maar traditioneel tekstherkenningsprobleem waarbij geschreven tekst herkend moet worden. Het bedrijf PrimeVision [3] uit Delft levert state-of-the-art oplossingen over de hele wereld. In het geval van adressen kan veel voorkennis te gebruikt worden bij de herkenning. Een poststuk in Nederland heeft bijvoorbeeld een postcode die bestaat uit 4 letters en 2 getallen. Deze voorkennis is geïntegreerd in het herkenningsproces om daarbij het aantal herkenningsfouten te minimaliseren.

Page 86: Herkenning van digitale informatie

ONGERUBRICEERD

86 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

a.

b.

c .

Figuur 8-1: a) Een origineel videoframe met een ondertitel in beeld. b) Na een preprocessing stap zijn de potentiële posities met tekst geïdentificeerd door middel van de groene rechthoeken, waarbij het originele beeld is getransformeerd naar een grijswaarden beeld met zwarte tekst tegen een witte achtergrond. c) Binnen deze rechthoeken is de tekst herkend door middel van FineReader. Vervolgens is deze tekst beschikbaar als te bewerken tekst.

8.3 Werking OCR technologie

Voor alle cases geldt dat het herkennen van tekst in beeld een proces is dat bestaat uit grofweg twee stappen. Schematisch ziet dit proces er als volgt uit:

PreprocessingCommercieel

of open sourceOCR pakket

Kleurenbeeld

W aarsc hijnlijke tekst reg io m et z w arte tekst

o p w itte ac hterg ro nd

Herkende tekst

Recentelijk heeft TNO experimenten met verschillende pakketten uitgevoerd wat een aantal vuistregels heeft opgeleverd: • OCR technologie kan tekst herkennen als de tekst voldoende groot is. Een

belangrijk aspect is het aantal pixels dat een font hoog is. Uit recente TNO experimenten bleek dat tekst met font grootte van meer dan 30 pixels goed te herkennen is, waarbij font grootte als volgt gedefinieerd is:

Technologie> 30 pix els

Deze vuistregel levert de volgende implicatie voor het digitaliseringproces. Hierin moet de resolutie zodanig gekozen worden, dat de tekst beschikbaar is met voldoende groot font. Beeld resolutie is uiteindelijk belangrijker dan bijvoorbeeld de benodigde opslagcapaciteit per beeld, want de resolutie is bepalend voor de performance. Er zijn cases bekend, waarin onvoldoende domeinkennis beschikbaar

Page 87: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 87 / 114

was, waardoor is gekozen voor binaire digitalisering in verband met opslagcapaciteit, waarna de OCR technologie niet werkte.

• Met betrekking tot de herkenningsperformance van geroteerde tekst laten de

pakketten een vergelijkbaar beeld zien. Voor een rotatie tot ongeveer ±4˚ is de herkenningsperformance vergelijkbaar met geen rotatie. Dit is te verklaren doordat de herkenners ook cursieve tekst herkennen. Bij grotere rotatie neemt de herkenningsperformance snel af, zoals het volgende figuur illustreert:

Technologie

Technologie

Technolo

gie

Technolo

gie

G o ed te herkennen

Slec ht te herkennen

• OCR software vereist inputbeelden, waarbij de tekst zwart is tegen een witte

achtergrond. Veel beelden zoals video of tijdschriften bevatten veel kleur. Om deze tekst te herkennen moeten deze beelden getransformeerd worden naar een grijswaardenbeeld. Dit is lastig, omdat de tekst kleur veelal niet van tevoren bekend is, waardoor de transformatie naar zwarte tekst tegen witte/lichte achtergrond lastig is.

• Korte stukken tekst zijn lastiger te herkennen dan lange stukken tekst. Stel dat het woordje “ja” geïsoleerd in het beeld staat, dan is dat vele malen lastiger te herkennen dan een lange zin, omdat er relatief weinig bewijs beschikbaar is dat er tekst aanwezig is in het beeld. In eerste instantie wordt altijd het gebied geïdentificeerd dat waarschijnlijk tekst bevat. Vervolgens wordt deze tekst herkend met een OCR software. Voor sommige toepassingen kan het alleen al relevant zijn om te weten of er tekst in beeld is en waar. Dit doet bijvoorbeeld PrimeVision met complexe post, het laat zien waar de adres tekst in beeld zit, die vervolgens handmatig door TNT medewerkers herkend wordt.

• De pakketten waar TNO mee geëxperimenteerd heeft, zijn getest met Nederlandse en Engelse tekst. De pakketten zijn voornamelijk getraind op het westerse alfabet. Dat betekent dat niet alle pakketten in staat zijn om bijvoorbeeld Arabische of Chinese tekst te herkennen. Bijvoorbeeld FineReader van ABBYY is in staat om 186 talen te herkennen.

• Indien bekend is in welke taal een stuk tekst geschreven is, dan is het mogelijk om op basis van taal karakteristieken de tekst te corrigeren. Een bekende OCR fout is de verwisseling van karakters zoals bijvoorbeeld de –i- en de –l-. Deze fouten kunnen relatief eenvoudig gecorrigeerd worden in het tekst domein, op basis van karaktervolgorde. Bijvoorbeeld het woord “blj” dat bestaat niet, maar wel het woord “bij” zoals onderstaande afbeelding illustreert.

Page 88: Herkenning van digitale informatie

ONGERUBRICEERD

88 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

bij blj bija. b.

Figuur 8-2a: De OCR stap met een herkenningsfout. b) Correctiestap op basis van een Nederlands taalmodel.

• De praktische uitdaging is ten eerste de gedigitaliseerde beelden door de OCR software te laten analyseren. Dit vereist het juiste beeld formaat. De praktijk laat zien dat ieder pakket TIFF of JPEG beelden kan inlezen. Daarnaast is er volop software beschikbaar (IFRAN, ImageMagick) om ieder digitaal beeld te converteren naar deze formaten. Vervolgens is het de uitdaging om de output van de OCR herkenner op te slaan en goed te ontsluiten, zodat er bijvoorbeeld gezocht kan worden in de tekst of juist verbanden tussen herkende tekst gelegd kan worden. Dit probleem is niet uniek voor deze technologie, maar voor alle verzamelde tekstuele metadata, daarom ligt het ontsluitingsprobleem buiten de scope van dit hoofdstuk.

8.4 Het spelersveld

In de markt is een groot aantal OCR software pakketten beschikbaar zoals onderstaande tabel zien. Hierin maken we onderscheid tussen drie varianten: open source (OS) / freeware (F), commerciële (C) pakketten en maatwerk oplossingen. Met enkele pakketten zijn door TNO experimenten uitgevoerd.

Page 89: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 89 / 114

Tabel 8-1 Beperkt overzicht van OCR pakketten en aanbieders, met bijbehorend licentiemodel. Dit zijn de veel gebruikte of meer mature pakketten.

Product Aanbieder Website Licentie model

Adobe Acrobat Pro Extended

Adobe http://www.adobe.com/ C

Asprise OCR

LAB Asprise! http://asprise.com/product/ocr/index.php C

FineReader ABBYY http://www.abbyy.com/ocr_sdk/ C OmniPage Capture

Nuance http://www.nuance.com/ C

GOCR Onbekend http://jocr.sourceforge.net OS Ocropus DFKI http://code.google.com/p/ocropus/downloads

/list OS

TesserAct Onbekend http://code.google.com/p/tesseract-ocr/ OS SimpleOCR Simple Software http://www.simpleocr.com/ F Textbridge Classic

Xerox Imaging Systems

http://textbridge-classic.software.informer.com/

F

TopOCR TopSoft Ltd. http://www.topocr.com/ F De meeste experimenten focussen op de herkenningsperformance, waarbij verschillende aspecten gevarieerd worden zoals: • Font variaties (normaal, vet, cursief, verschillende types als Arial, Verdana, Times), • Font grootte variaties, • Lengte van tekst, • Herkenningsnelheid. Met betrekking tot de open source pakketten is TNO enthousiast over Tesseract / OCRopus dat onder invloed van Google wordt doorontwikkeld door het DFKI. Dit pakket laat ook een heel goede performance zien. Met betrekking tot de commerciële pakketten laat FineReader in het algemeen een erg goede performance zien. Dit pakket is geoptimaliseerd voor een groot aantal fonts, verschillende talen, tekst op meerdere plaatsen in beeld, etc. Deze conclusie is eerder getrokken in de context van Europees OCR onderzoek, waarin een benchmark is uitgevoerd [5]. TNO onderzoek liet zien, dat zodra de fonthoogte groter is dan 30 pixels, de variaties niet heel veel invloed hadden, en de tekst goed herkend werd met een behoorlijk hoge snelheid. Korte tekst in een beeld van 500 x 500 pixels werd binnen 1 seconde herkend. Tenslotte is het relevant om maatwerk partijen als ZyLAB [6], PrimeVision [3], Autonomy [2] of SRI [4] te noemen. Deze partijen hebben veelal een eigen OCR oplossing, die per case geoptimaliseerd kan worden. De keuze voor open source, licentie model of maatwerk zorgt uiteraard voor betere prestaties, maar ook toenemende kosten.

Page 90: Herkenning van digitale informatie

ONGERUBRICEERD

90 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

De markt voor OCR is dusdanig matuur, dat de ontwikkeling vooral plaatsvindt binnen bedrijven, en vooral door bovengenoemde maatwerkpartijen, en open source (bijv. DFKI). Binnen universiteiten vindt slecht beperkt onderzoek plaats naar OCR.

8.5 Referenties

[1] Databank Digitale Dagbladen, http://www.kb.nl/hrd/digi/ddd/index.html. [2] Autonomy, http://www.autonomy.com. [3] PrimeVision, http://www.primevision.com. [4] SRI International, http://www.sri.com. [5] Overview and Evaluation of Image and Video OCR, Herwig Rehatschek, Robert

Sorschag, Joanneum Research, confidential research from MediaCampaign consortium, 2006.

[6] ZyLAB, http://www.zylab.nl.

Page 91: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 91 / 114

9 Analyseren van netwerkverkeer: Deep Packet Inspection

9.1 Inleiding

Het berichten verkeer op computer netwerken, bijvoorbeeld het Internet, vindt doorgaans plaats in de vorm van het versturen van data pakketten volgens het IP protocol. Een IP pakket bestaat uit een header met daarin bijvoorbeeld informatie waar het pakket heen gestuurd moet worden, en een data-gedeelte met de daadwerkelijke inhoud. Wanneer het gebruik van informatie zich beperkt tot het header-gedeelte van een IP pakket, wordt gesproken van Shallow Packet Inspection (SPI). Met SPI kan bijvoorbeeld de volgende informatie verkregen worden: • De bezochte website (IP destination address) • Wie bezoekt deze website (IP source address) • De hoeveelheid data die verstuurd wordt (grootte van de pakketten) • Het type protocollen dat gebruikt wordt, doorgaans voor bekende,

gestandaardiseerde diensten (mail, DNS, Usenet, IPSec, etc.) • De kwaliteit van de verbinding (missende, foutief ontvangen, en opnieuw

verzonden data pakketten) Deep packet inspection (vaak afgekort tot DPI) is het doelmatig gebruik van informatie uit het data-gedeelte van een IP pakket door netwerk apparatuur dat niet een eindpunt is in de betreffende communicatie. Vaak wordt gedacht dat DPI de IP communicatie van gebruikers verandert of aanpast, maar dat is volgens de definitie van DPI niet noodzakelijk.

9.2 Toepassingen

Deep packet inspection en filtering kunnen de volgende soorten toepassingen faciliteren, wanneer de techniek ten behoeve daarvan wordt ingezet: • Geavanceerde netwerk security functies, zoals het continu monitoren van netwerk

verkeer op verdacht netwerk verkeer, er uitspringende trends, etc.; • Opbouwen van een profiel van een individu op basis van netwerkverkeer; • Afluisteren van communicatie; • Uitoefenen van censuur; • Het blokkeren van netwerk verkeer dat mogelijk inbreuk maakt op copyrights. In principe staan netwerkpartijen, verbindingspartijen, knooppunten en hostingproviders neutraal tegenover de informatiestromen (zogenaamde netneutraliteit). Alleen de eindgebruikers en de dienstenleveranciers zijn verantwoordelijk voor wat zij verspreiden en communiceren. Van de infrastructuurpartijen wordt verwacht dat zij zo open en neutraal mogelijk vrije uitwisseling en communicatie over hun netwerken toestaan en geven hiertoe een 'best effort'-garantie af. Voorstanders van netneutraliteit vrezen dat DPI technologie zal worden ingezet om de openheid van het internet te reduceren om publieke of private belangen te dienen.

Page 92: Herkenning van digitale informatie

ONGERUBRICEERD

92 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

DPI wordt momenteel gebruikt door grote bedrijven, service providers en overheden voor een groot aantal toepassingen. Een paar voorbeelden van toepassingen: • Mobiele operators gebruiken DPI voor het verzamelen van rekeninggegevens. Het

verrekenmodel is hier vaak dat de gebruiker per megabyte betaalt, mogelijkerwijs daaroverheen nog een extra vergoeding voor betaalde diensten (zoals het downloaden van games op een mobiele telefoon of een ringtone waarvoor betaald moet worden).

• Er zijn publicaties op internet over de regering van Iran, dat een systeem lijkt te hebben dat al het internetverkeer dat het land in of uit gaat nauwlettend in de gaten houdt en gebruikers of diensten identificeert die niet stroken met het regime.

• In China heeft de regering het project ‘Great Fire Wall’ ingevoerd, dat kenbaar censuur toepast op internetverkeer dat China in of uit gaat.

• In specifieke gevallen, bijvoorbeeld bij het opsporen van terroristen, wordt onder andere door de Amerikaanse overheid verkeer van ISP’s voor gemarkeerde verdachte eindgebruikers gemonitord om bijvoorbeeld bewijsmateriaal te verkrijgen voor illegale praktijken.

9.3 Beperkingen van de techniek

DPI als techniek kent haar beperkingen. Afhankelijk van het type toepassing en de hoeveelheid verkeer die wordt gebruikt, is een exponentieel stijgende hoeveelheid rekenkracht nodig om real-time (dat wil zeggen zonder significante vertraging) DPI te kunnen doen. De Wet van Moore stelt dat het aantal transistors op een computerchip door de technologische vooruitgang elke 2 jaar verdubbelt. De groei van bandbreedte verdubbelt momenteel echter elke 1,7 jaar, wat inhoudt dat de hoeveelheid internetverkeer sneller groeit dan de rekenkracht. Gebruikers kunnen bepaalde technieken inzetten die DPI hinderen, of die voorkomen dat informatie wordt vergaderd over ze. De achterliggende gedachten om dat te doen voor die gebruikers zijn vaak • zorgen over privacy • verkrijgen van meer bandbreedte voor een applicatie dan een ISP standaard toelaat

(bijvoorbeeld bij peer to peer download) • het maskeren van criminele en illegale activiteiten De in te zetten technieken zijn op te delen in de volgende categorieën: • Encryptie

Versleuteling van communicatie waardoor real-time DPI niet meer mogelijk is met huidig beschikbare systemen

• Verschuilen van verkeer Wordt toegepast bijvoorbeeld door virussen en trojan horses die toegang tot computers op afstand mogelijk maken waardoor de echte dader niet zelf het kwalijke verkeer genereert maar slechts de commando’s verstuurt die andere computers tot het gewenste resultaat (bijvoorbeeld het versturen van SPAM e-mail berichten) laat komen

Page 93: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 93 / 114

• Anonimiseren Door middel van zogenaamde proxy servers worden verzoeken van gebruikers niet rechtstreeks gedaan maar via een ‘man in the middle’. Het is daardoor tussen de ‘man in the middle’ en het eindpunt in de communicatie niet meer mogelijk uniek te achterhalen van welke gebruikers het oorspronkelijke verzoek stamt.

• Omzeilen Door corrupt of opzettelijk verkeerd geformuleerd verkeer te versturen of te omschrijven als een ander type verkeer (bijvoorbeeld door een peer to peer download te vermommen als een VoIP internet telefoon gesprek) worden eenvoudige DPI systemen omzeild.

9.4 Werkingsprincipes

Er zijn verschillende manieren waarop de informatie verkregen wordt, waarop DPI wordt uitgevoerd. Hieronder volgt een beschrijving van de meest voorkomende manieren middels illustraties. Figuur 9-2 illustreert hoe communicatie tussen de gebruiker en de dienst (bijvoorbeeld een web site of e-mail server) schematisch er uit ziet (zonder DPI).

UserCo re

sw itc hing fabric

Servic ePro vider

Figuur 9-1 Communicatie tussen gebruiker en provider zonder DPI

In figuur 9-2 verloopt de communicatie via één of meerdere switches tussen de eindpunten. Zo’n switch kan ook informatie over het verkeer doorspelen aan een ander systeem, waardoor een eenvoudige variant van DPI is ontstaan (figuur 9-3).

Figuur 9-2 DPI configuratie 1: switch speelt informatie door aan een analyse systeem

Page 94: Herkenning van digitale informatie

ONGERUBRICEERD

94 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Een variant op figuur 9-3 is het vergaren niet uit bestaande systemen, maar het toevoegen van een zogenaamde tap op het verkeer dat gegevens opslaat of doorspeelt. Voordeel is dat zo’n tap niet van invloed is op de prestaties van de netwerkapparatuur van de originele datacommunicatie (figuur 9-4). Deze oplossing is niet zichtbaar voor de systemen die zorg dragen voor de communicatie tussen de eindgebruiker en de dienstverlener.

User Co re sw itc hing

fabric

Servic ePro vider

Netw o rk tap

Data c o llec tio n and pro c essing

Figuur 9-3 DPI configuratie 2: netwerk tap speelt informatie door aan een analyse systeem

Als laatste variant, in figuur 9-5, wordt opzettelijk het dataverkeer door een switch langs een ander tussenstation geleid dan in de originele configuratie het geval is. Dit stelt de DPI oplossing in staat om geavanceerde analyses te doen, maar deze oplossing vergt veel rekenkracht.

Figuur 9-4 DPI configuratie 3: de switch leidt het netwerkverkeer langs een tussenstation voor analyse

9.5 Het spelersveld

Er zijn verschillende typen toepassingen beschikbaar om DPI mee te doen. Een kort overzicht van een aantal bekende varianten zijn: • WireShark (voorheen Ethereal geheten) is een open source netwerk protocol

analyse programma dat lokaal IP verkeer kan analyseren. Er is een breed aantal filters beschikbaar waardoor ruw IP verkeer meteen kan worden geïnterpreteerd en geclassificeerd.

Page 95: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 95 / 114

• NetFlow is een netwerk protocol dat ontwikkeld is door Cisco Systems voor Cisco’s eigen netwerk apparatuur voor het vergaren van IP verkeer informatie. Het is een gesloten protocol, maar wordt ook ondersteund op andere typen routers dan die van Cisco, en draait ook onder software routers zoals in Linux, FreeBSD en OpenBSD. De architectuur van NetFlow wordt geïllustreerd in de onderstaande figuur.

Figuur 9-5 Illustratie van de NetFlow architectuur

9.6 Publieke benchmarks

Vanwege de sterk uiteenlopende types toepassingen en netwerken zijn er geen algemene gegevens voorhanden over benchmarks van DPI. TNO kan wel, eventueel samen met haar opdrachtgever, een case study maken van requirements en performance van een specifieke toepassing op een specifiek (type) netwerk. Een voorbeeld van hoe zo’n analyse er uit kan zien is bijvoorbeeld een meting van de detectie van illegale downloads door verschillende commerciële dedicated DPI systemen van Cisco, Ipoque en Procera.

Page 96: Herkenning van digitale informatie

ONGERUBRICEERD

96 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 97: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 97 / 114

10 Taal technologie

10.1 Inleiding

Taal technologie richt zich op de automatische analyse van ongestructureerde tekst. Dit omvat technieken uit de information retrieval, statistiek, taalkunde en machinaal leren. Bekende toepassingen zijn: • automatische herkenning van eigennamen, locaties, productnamen, of andere

conceptuele eenheden, • automatische woordsoorttoekenning, • spam filtering, • onderwerpsclassificatie, • clustering van documenten, • auteurschapsherkenning, • extractie van semantische relaties tussen woorden (zoals het herkennen van

synoniemen, of relaties tussen personen op basis van gezamenlijke tekstuele voorkomens van persoonsnamen),

• syntactische analyse (parsing, chunking), • semantische analyse (interpretatie), • sentimentanalyse (het herkennen van emotie in tekst). Taal technologie helpt de analist om de grote hoeveelheid informatie samen te vatten tot de kernelementen, de relaties daartussen te vinden en de doorzoekbaar te maken. Op basis van deze ruwe analyses kunnen vervolgens weer klassieke data mining of netwerk analyse tools worden toegepast, die alleen geschikt zijn voor ‘schone data’. Taal technologie kan men dus ook zien als hulpmiddel om ruwe data te veredelen tot schone data, waarop de eigenlijke analyse kan worden uitgevoerd. Taal technologie kunnen worden toegepast op een verschillende schaal: op termniveau (identificeer eigennamen), op zinsniveau (selecteer de belangrijkste zinnen om een samenvatting te maken), op paragraafniveau (welke tekstdelen zijn relevant voor mijn onderzoeksvraag) op documentniveau (welke documenten zijn relevant, of gaan over hetzelfde onderwerp), en op collectieniveau (bevat deze harde schijf belastend materiaal of niet). In zekere zin valt tekst fingerprinting (3.2.3.2) ook onder taal technologie. Op het grensvlak van de taal technologie zijn er ook toepassingen zoals het traceren van de herkomst van een document en het bepalen van de betrouwbaarheid van documenten. Een belangrijk onderdeel van taal technologie is de presentatie. Goede visualisaties van de analyses blijken in de praktijk van doorslaggevend belang.

10.2 Werkingsprincipes

Taal technologie omvat een verzameling toepassingen. Voor iedere toepassing bestaat een andere aanpak. Deze worden grofweg ingedeeld in vier benaderingen: • Classificatie, • Clustering, • Generatief, • Rule-based.

Page 98: Herkenning van digitale informatie

ONGERUBRICEERD

98 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Een verzameling met voorgeanalyseerde (handgelabelde) documenten dient doorgaans als trainingsmateriaal voor een zelflerend classificatie systeem. De eerste stap bestaat uit het omzetten van ruwe tekst in verzamelingen features. Er zijn verschillende vormen van features, zoals de bag-of-words. Dit is een lijst met alle losse woorden in een document. Deze featurerepresentaties worden handmatig voorzien van klasse-labels, zoals het type sentiment of een onderwerp. Vervolgens wordt het zelflerende systeem op deze trainingsdata getraind. Het systeem leert dan de koppeling tussen features en klassen. Onder bepaalde voorwaarden is het systeem vervolgens in staat om het geleerde in praktijk te brengen voor niet eerder geziene, nieuwe test-gevallen. Deze vorm van taal technologie is in feite een vorm van supervised machine learning: het aanleren van het onderscheid tussen objecten verdeeld over een aantal klassen aan een machine door een ‘supervisor’ (de menselijke annotator). Als tweede benadering zijn unsupervised methoden geïdentificeerd, zoals clustering. Hier wordt gespeurd naar ‘natuurlijke’ groeperingen van documenten op basis van vormelijke overeenkomst (woordgebruik). Documenten worden in clusters geplaatst in een iteratief proces waarbij een foutfunctie wordt geminimaliseerd (bv. een check op de homogeniteit van de ontstane clusters). De uiteindelijk gevonden clusters dienen door de analist van betekenis te worden voorzien. Hierbij kunnen term selectie technieken van pas komen: technieken die per cluster de meest onderscheidende termen extraheren. Deze termen kunnen worden gebruikt als een beknopte samenvatting van clusters. Als derde aanpak zijn de generatieve methoden geïdentificeerd, bv. afkomstig uit de generatieve taalmodellering [2]. Deze zijn in staat om verwantschap tussen teksten te voorspellen, maar zij werken doorgaans met ruwe tekst (losse woorden, paren van woorden (n-grammen), subwoorden (substrings, of karakter n-grammen)) in plaats van features. Uit een verzameling teksten wordt een statistisch model afgeleid dat kansen op voorkomens van woorden in de context van andere woorden uitdrukt (de kans op het observeren van een bepaald woord, na het geobserveerd hebben van een ander woord, bijvoorbeeld). Voor nieuwe teksten kan de verbazing (perplexiteit) worden berekend van dit model wanneer het wordt geconfronteerd met dit nieuwe materiaal. Anders gesteld wordt de moeite geschat waarmee het model de test data zou moeten genereren. Een document classifier gebaseerd op deze methoden zou kunnen bestaan uit een reeks topic modellen voor een aantal tekstonderwerpen (bv. sport, politiek, economie). Een onbekend document krijgt dan het onderwerp toebedeeld van het model dat de minste perplexiteit oplevert voor deze tekst. Tenslotte zijn er taal technologie systemen die gebaseerd zijn op een set regels (rule- based systemen, gebruikmakend van bijvoorbeeld een grammatica). Deze systemen zijn vaak gebaseerd op gazetteers (namenlijsten of termenlijsten) op basis waarvan een actie moeten worden ondernomen. In praktische systemen komen de vier benaderingen vaak gecombineerd voor.

10.3 Beperkingen van de techniek

Veel technieken zijn taalspecifiek, dat betekent dat er voor iedere nieuwe taal een bepaalde inspanning nodig is om de tool aan te passen (mocht de tool een bepaalde taal nog niet ondersteunen). Enkele andere problemen van het zoeken en minen van ongestructureerd tekstmateriaal zijn:

Page 99: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 99 / 114

• Morfologische variatie, • Meertaligheid (inclusief problemen met karaktersets), • Heterogene media (spraak, tekst in beeld, gescande tekst), de conversie naar tekst

levert vaak fouten op), • Ambiguïteit (lexicaal, syntactisch, semantisch), • Synonymie, • Implicietheid, vaagheid, en stilistische aspecten als ironie, sarcasme, negatie.

10.4 Toepassingen

Zoekmachine aanbieders als Google, Yahoo! en Microsoft gebruiken al vele jaren taal technologie om advertenties met web pagina’s te matchen. Een bij het grote publiek bekende toepassing is het spam filter: een tweeklassen-classifier (spam of ham) getraind op gebruikersfeedback. Taal technologie speelt een grote rol in het forensische domein. Zo kunnen getranscribeerde telefoontaps gemonitoord en tekstueel geanalyseerd worden. Bijvoorbeeld door herkenning van sleutelwoorden of op negatief sentiment jegens personen of instanties in de vorm van bedreigingen. Verder kunnen anonieme postings, onder verschillende IP-adressen gepubliceerd, worden herleid tot een bepaalde auteur. Tenslotte, kan bijvoorbeeld een trendanalyse worden verricht, een sociaal netwerk worden ontrafeld of kunnen nieuwe verbanden worden ontdekt. De content industrie gebruikt taal technologie om grote hoeveelheden content te ontsluiten en beter doorzoekbaar te maken. Daarnaast zijn er vele specialistische professionele toepassingsdomeinen zoals het doorzoeken en inzichtelijk maken van patentcollecties, life science databases (genomics, proteomics), foresight studies, zakelijke informatiebronnen tbv investeringsbeslissingen etc. etc.

10.4.1 Sentiment mining Een belangrijke technologie uit dit domein is sentiment mining, daarom wordt deze verder uitgediept. Een aantal zaken is nog onduidelijk. Rond zaken als ironie, sarcasme, negatie, en impliciet sentiment bestaat nog onvoldoende theorievorming. Zie e.g Liu (2009). De opdeling van documenten in positieve, neutrale en negatieve documenten, zoals vaak gedaan wordt in polariteit-gerichte benaderingen van sentimentanalyse [9], simplificeert het probleem enigszins, omdat de sentimentwaarde van tekst eerder continu dan discreet lijkt te zijn. Met name rond de aggregatie van deelsentiment (bv. op zinsniveau) tot globaal sentiment (paragrafen of hele documenten) is nog veel werk te doen. Verder staat het probleem van de domeinafhankelijkheid van tekstuele sentiment classifiers momenteel sterk in de belangstelling: een classifier getraind op domein A (bv. boeken) presteert niet noodzakelijk goed op domein B (bv. electronica) (zie bv [18]). Sentiment analyse is met de huidige stand van techniek en wetenschap een haalbare kaart: voor veel toepassingen (bv. alert-genererende monitorsystemen) is een globale inschatting van het sentiment al voldoende. Met relatief kleine inspanning kan een accurate sentiment classifier worden geconstrueerd. Grote zoekmachineproducenten als Google, Yahoo! en Microsoft sponsoren al jaren de grote conferenties rond sentiment analyse (zoals ICWSM). Hun doel is onder andere een nieuwe generatie ‘ad placement’ software te ontwikkelen die rekening houdt met sentiment. Veel contentbedrijven en marketingonderzoekers produceren en gebruiken sentiment analyse software, zoals

Page 100: Herkenning van digitale informatie

ONGERUBRICEERD

100 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Attensity, Clarabridge, Jodange, SPSS, Temis, Biz360, Nielsen BuzzMetrics, Teezir, TNS Cymfony. Ook Twitter maakt momenteel gebruik van sentiment analyse (van Sentimetrix). Op het gebied van sentimentanalyse zijn in de Nederlandse onderzoekswereld o.a. Universiteit van Amsterdam en TNO actief.

10.5 Het spelersveld

De maturiteit van dit veld is hoog. Voor het Nederlands is een groeiende hoeveelheid geannoteerd corpusmateriaal voorradig (bijv. het Corpus Gesproken Nederlands (http://lands.let.ru.nl/cgn/)). De lijst van commerciële spelers op dit gebied is te lang om uitputtend op te nemen. Een paar in het oog springende internationale spelers zijn: IBM, Autonomy, Yahoo!, Google, Microsoft, Collexis. Een aantal Nederlandse bedrijven op dit vlak zijn: Textkernel en Teezir. Nederland heeft verder een uitstekende wetenschappelijke reputatie op dit vlak: Universiteit van Tilburg, Universiteit van Amsterdam, Rijksuniversiteit Groningen en TNO zijn belangrijke spelers. Er is ook een groot aantal open source tools beschikbaar op dit vlak met een hoge maturiteit (GATE, UIMA, Lemur, SRILM, Lingpipe, Timbl, etc.). Specifieke tools en prototypes voor het Nederlands zijn de volgende: • automatische herkenning van eigennamen, locaties, productnamen, of andere

conceptuele eenheden: diverse tools van TNO. • automatische woordsoorttoekenning: MBT (memory-based tagger-generator, UvT) • onderwerpsclassificatie: Adjust van Irion, Delft • clustering van documenten: tools van TNO • auteurschapsherkenning: tools van TNO • extractie en disambiguering van semantische relaties tussen woorden (zoals het

herkennen van synoniemen : Parasense, Hogeschool van Gent (http://webs.hogent.be/~elef464/lt3_parasense_nl.html))

• extractie relaties tussen personen op basis van gezamenlijke tekstuele voorkomens van persoonsnamen: Novalink van TNO

• syntactische analyse (parsing, chunking) : Alpino (RUG, http://www.let.rug.nl/kleiweg/alpino/index1.html); PHASAR (RU, http://www.phasar.cs.ru.nl/)

10.6 Publieke benchmarks en performance

De TREC gemeenschap (http://trec.nist.gov/tracks.html) is de belangrijkste bron voor benchmarks: • blog track; • spam track; • topic detection track, etc.; • MUC (herkenning eigennamen, tijdstippen etc), • de KDD-cup (http://www.sigkdd.org/kddcup/index.php); • CLEF (http://www.clef-campaign.org/); • CoNLL (http://ifarm.nl/signll/conll/), etc. De performance die behaald kan worden varieert per toepassing, domein, hoeveelheid trainingdata, aantal klassen, theorievorming (probleemanalyse) en gebruikte analysemethode. In heel veel gevallen is de toepassing van taal technologie uitermate effectief, bijvoorbeeld documentclassificatie. Hoe complexer de taak voor mensen, hoe meer trainingsmateriaal of regels er nodig zijn.

Page 101: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 101 / 114

10.7 Referenties

[1] T. Mitchell,. Machine Learning,. McGraw Hill, 1997. [2] W. Kraaij, Variations on Language Modeling for Information Retrieval, CTIT

Ph.D. thesis, 2004 [3] W. Daelemans en A.van den Bosch, Memory-Based Language Processing.

Cambridge, UK: Cambridge University Press, 2005. [4] Chris Manning en Hinrich Schütze. Foundations of Statistical Natural Language

Processing, MIT Press. Cambridge, MA, 1999.

Page 102: Herkenning van digitale informatie

ONGERUBRICEERD

102 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 103: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 103 / 114

11 Analyse van sociale netwerken

11.1 Inleiding

Sociale netwerken bestaan al sinds mensenheugenis, en voldoen aan de menselijke behoefte om overzichtelijk en transparant te communiceren met een groep van sociaal gelijkgestemden. Het gebruik van digitale sociale netwerken heeft de afgelopen jaren een enorme vlucht genomen. Netwerken als Hyves en Facebook kennen miljoenen bezoekers. In februari 2009 is voor het eerst waargenomen dat het gebruik van sociale netwerken het gebruik van e-mail overtreft.

Figuur 11-1: Illustratie van een sociaal netwerk.

Digitale sociale netwerken bieden uitgelezen kansen tot bestudering van communicatief gedrag: communicatieve uitingen worden immers gelogd, en reacties van personen op elkaar vinden vaak instantaan plaats. Netwerken zijn vaak georganiseerd rond bepaalde groeperingen of leeftijdscategorieën, zodat populatieanalyse en gebruikersprofilering mogelijk wordt. Tegelijk met de opkomst van dit type van sociale netwerken is er dan ook een bloeiend vakgebied ontstaan op het grensvlak van communicatiewetenschap, informatica (netwerkanalyse) en data mining: sociale netwerkanalyse. Voorbeelden van sociale netwerkanalyse zijn sentimentanalyse (het herkennen van sentimenten van gebruikers binnen sociale netwerken, bv. consumentenoordelen op webfora), het afleiden van de inhoud van boodschappen door analyse van het netwerkverkeer, en het herkennen van autoriteit en leiderschap. Grote zoekmachines als Google en Yahoo! maken gebruik van sociale netwerkanalyse om gericht advertenties te pluggen op web pagina’s, waarbij gelet wordt op sentiment. Forensisch onderzoek naar sociale netwerken richt zich o.a. op de detectie van radicalisering [1], de financiering van terroristische activiteiten [2], en de verspreiding van kinderporno [3]. E-mail analyse is een instrument in de strijd tegen een breed scala van criminele activiteiten, waaronder cybercrime en bedreiging [4]. Naast genoemde expliciete sociale netwerken bestaan er ook impliciete netwerken. In de blogosfeer (de exponentieel groeiende verzameling aan weblogs) ontstaan netwerkstructuren, doordat personen zich abonneren op weblog feeds, commentaar op

Page 104: Herkenning van digitale informatie

ONGERUBRICEERD

104 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

elkaar geven, of op andere manieren naar elkaar verwijzen [5]. Ook op online repositories als YouTube kunnen gebruikers zich abonneren op de data feeds van anderen, en op die manier netwerken vormen. De berichtenservice Twitter staat ook iets dergelijks toe: het gericht versturen en ontvangen van berichten van een selecte groep gebruikers. Op deze wijze ontstaat een verdere profilering van het sociale medium, die interessante sociologische informatie bevat. Met de grootschalige participatie van gebruikers ontstaan ongekende mogelijkheden voor het analyseren van gebruikersinteractie. Vriendschapsrelaties kunnen eenvoudig geëxtraheerd worden uit de structuur van gebruikerspagina’s (profielen), en steeds meer sociale netwerksites bieden toegang tot hun data op basis van open standaarden en interfaces. Dit creëert allerlei nieuwe vraagstukken rond privacy van gebruikers. Facebook is op dit vlak de afgelopen jaren herhaaldelijk in het nieuws gekomen. In 2007 presenteerde Facebook een advertentiedienst, Beacon, die activiteiten van gebruikers op andere websites gebruikte om gericht advertenties aan te bieden. Die gegevens werden vervolgens gepubliceerd binnen Facebook, wat een storm van kritiek losmaakte, waarna Facebook in september 2009 de dienst stopzette.

11.2 Werkingsprincipes

Analyse van de inhoud (geposte berichten) van sociale netwerken vindt doorgaans plaats met technieken uit de machine learning: zelflerende systemen die, doorgaans op basis van voorbeelden, leren bepaalde analysetaken uit te voeren. Het veld van de tekstuele sentimentanalyse valt onder het toepassingsgebied ‘taal technologie’: het leren herkennen van structuur en betekenis in teksten (zie Hoofdstuk 10).

Figuur 11-2: Gebruik van sociale netwerken versus e-mail, zoekmachines en videoarchieven (zoals YouTube) in begin 2009. Bron: The Nielsen Company.

Analyse van sociale netwerken richt zich doorgaans op twee aspecten: de topologie (structuur) van het netwerk, en inhoud en aard van uitgewisselde berichten over het netwerk. Een handig overzicht van tools, deels in het open domein, wordt geboden op http://en.wikipedia.org/wiki/ Social_network_analysis_software.

Page 105: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 105 / 114

11.2.1 Topologische analyse Bij de topologische analyse van netwerken [6, 7] wordt de structuur van het netwerk onderzocht. Een sociaal netwerk is een graaf: een verzameling knopen (gebruikers) die verbonden zijn via communicatieve links, zoals expliciete vriendschapsrelaties, of impliciete relaties uitgedrukt door reacties en commentaren. Typisch topologische vraagstukken zijn: hoe goed zijn alle knopen bereikbaar voor boodschappen, uitgaande van de relaties tussen hen? Hoe wordt autoriteit uitgedrukt in termen van sociale relaties tussen knopen? Hoe evolueert de structuur van een sociaal netwerk in de loop der tijd? Hoe representatief is een subnetwerk voor het gehele (vaak enorm grote) netwerk? Forensische toepassingen kunnen bestaan uit de detectie van haatzaaiers en ‘opinion leaders’ in verdachte netwerken, zoals bepaalde webfora [1]. Vanuit marketing oogpunt biedt dit type analyse bijvoorbeeld zicht op de benodigde moeite om een bepaald product te ‘pluggen’ in een sociaal netwerk. Varianten binnen de topologische analyse van netwerken behelzen diverse graaftheoretische methoden zoals exponentiële random graph modellen [16] en op de heat kernel gebaseerde diffusiekernels, die de verspreiding van informatie in een sociaal netwerk modelleren analoog aan warmtemodellen voor solide objecten [19].

11.2.2 Inhoudelijke analyse Inhoudelijke analyse van weblogs en sociale netwerken heeft als doel de inhoud en aard te bepalen van uitgewisselde boodschappen. Met name sentimentanalyse is hier populair. Bij sentimentanalyse (zie bv. [8]) wordt getracht automatisch het sentiment (de polariteit) van een bericht te bepalen. Positief, negatief, of neutraal zijn veelvoorkomende labels. Maar ook het kunnen herkennen van meningen versus objectieve uitingen valt hieronder (subjectiviteit). Sentimentanalyse wijkt af van standaard documentclassificatie, doordat sentiment doorgaans zeer domeinafhankelijk is, en er in ‘affectieve’ teksten vaak zaken spelen als ironie, sarcasme, en negatie. Een standaard voorbeeld is het adjectief ‘voorspelbaar’, dat in een film review positief zou kunnen zijn (‘deze film heeft een onvoorspelbare plot’), maar in een review van een automerk negatieve connotaties heeft: ‘deze auto heeft onvoorspelbaar stuurgedrag’). Sentiment classifiers richten zich verder op het voorspellen van ratings (oordelen op een ordinale schaal). Pang en Lee bieden een zeer uitgebreid en lezenswaardig overzicht van dit sterk in de belangstelling staande veld [9]. Sentimentanalyse ondersteunt tevens de topologische analyse van netwerken: negatieve feedback van de ene persoon op de andere zou bv. het bestaan van een vriendschapsrelatie (een topologische connectie) minder waarschijnlijk kunnen maken. Een omgekeerde bijdrage vanuit de topologische analyse aan de inhoudelijke analyse komt eveneens voor: McGlohon et al. toonden aan dat het posting gedrag binnen weblogs (zoals de frequentie van posts) indicaties kan opleveren over het onderwerp van de weblog [10]. Auteurschapsherkenning (bijv. [11]) is een vorm van documentclassificatie die ook op sociale netwerken kan worden toegepast, waar identiteiten immers op eenvoudige wijze gemaskeerd kunnen worden met gebruikersnamen en IP-adressen. Succesvolle huidige technieken gebruiken vaak karakter n-grammen (opeenvolgingen van enkele karakters), en kunnen ook toegepast worden op korte teksten (zie ook [12]).

Page 106: Herkenning van digitale informatie

ONGERUBRICEERD

106 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Persoonlijkheidsanalyse van bloggers wordt onderzocht in o.a. [13, 14], waar men zich op de automatische herkenning van extraversie, neuroticisme, vriendelijkheid en gewetensvolheid. Voor de inhoudelijke analyse zijn er veel methoden en technieken voorgesteld. Bijvoorbeeld graafgebaseerde methoden die positieve en negatieve documenten in een graaf plaatsen, en de optimale doorsnijding van de graaf in 2 subgrafen zoeken [20], en een veelvoud aan machine learning technieken (zie [9] voor een overzicht).

11.3 Het spelersveld

Het spelersveld wordt voor een groot deel gevuld met wetenschappelijke groepen die onderzoeken wat er gaande is in de sociale netwerken. Vanuit de uitgebreide referentie lijst zijn deze terug te vinden. In Nederland zijn voor de Universiteit van Amsterdam, TU Delft en TNO actieve spelers op dit gebied. Daarnaast zijn de sociale netwerken zelf ook spelers die hier een economisch belang bij het gebruik van hun netwerken. Tenslotte zijn er een aantal bedrijven, die oplossingen leveren voor sociale netwerk analyses.

11.4 Publieke benchmarks en performance

In de KDD gemeenschap (Knowledge Discovery and Data Mining, een Amerikaanse conferentie) worden vaak workshops georganiseerd rond het thema sociale netwerk-analyse, waarbij ook benchmarks worden uitgevoerd (e.g. SNA-KDD, zie http://www.snakdd.com/). NIST (National Institute of Standards and Technology) organiseert de BLOG TREC, een benchmark conferentie rond weblog analyse (zie bv. [17]). Bepaalde datasets (zoals de movie review dataset (zie [9])) figureren in een groot aantal papers, waarbij auteurs proberen de hoogst behaalde performance op de data te overtreffen (bv. http://www.cs.cornell.edu/People/pabo/movie-review-data/ otherexperiments.html). De performance die behaald kan worden is sterk afhankelijk van het probleem (polariteit, subjectiviteit, nominaal of ordinaal sentiment?) en de kwaliteit en hoeveelheid van de beschikbare voorbeelddata. De algemene consensus is dat sentiment classificatie een lastig probleem is dat tot lagere performance leidt dan reguliere documentclassificatietaken.

11.5 Referenties

[1] Adam Bermingham, Maura Conway, Lisa McInerney, Neil O'Hare, Neil and Alan F. Smeaton. Combining social network analysis and sentiment analysis to explore the potential for online radicalisation. In Advances in Social Networks Analysis and Mining (ASONAM), July, 2009.

[2] Ibrahim A. Karawan, Wayne McCormack and Stephen E. Reynolds. Geospatial Analysis of Dynamic Terrorist Networks. Studies in Global Justice, Values and Violence Vol. 4, pp. 151-167, Springer, 2009.

[3] Ian A. Elliotta, Anthony R. Beech, Understanding online child pornography use: Applying sexual offense theory to internet offenders. Aggression and Violent Behavior, Volume 14, Issue 3, May-June 2009, pp. 180-193.

[4] Rachid Hadjidja, Mourad Debbabi, Corresponding Author Contact Information, a, E-mail The Corresponding Author,

Page 107: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 107 / 114

[5] Tadanobu Furukawa et al., Analyzing Reading Behavior by Blog Mining, in Proc of the 22nd AAAI Conference on Artificial Intelligence, 2007.

[6] YongYeol Ahn, Seungyeop Han, Haewoon Kwak, Analysis of Topological Characteristics of Huge Online Social Networking Services. In Proceedings WWW 2007, Semantic Web Track, pp. 834-844, 2007.

[7] Alan Mislove, Massimiliano Marcon, Krishna P. Gummadi, Peter Druschel and Bobby Bhattacharjee, Measurement and Analysis of Online Social Networks. In Proceedings of the 5th ACM/USENIX Internet Measurement Conference, 2007.

[8] Stephan Raaijmakers, Khiet Truong, Theresa Wilson. Multimodal Subjectivity Analysis of Multiparty Conversation. Proceedings EMNLP'08, Waikiki, Honolulu, Hawaii. October 2008.

[9] Bo Pang en Lillian Lee, Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval 2 (1-2), pp. 1–135, 2008.

[10] Mary McGlohon, Jure Leskovec, Christos Faloutsos, Matthew Hurst and Natalie Glance, Finding Patterns in Blog Shapes and Blog Evolution. In Proceedings ICWSM 2007, pp. 129-136, 2007.

[11] Georgiana Ifrim, Gökhan H. Bakir, Gerhard Weikum, Fast logistic regression for text categorization with variable-length n-grams. In Proceedings KDD, pp. 354-362, 2008.

[12] Stamatatos, E., Author Identification Using Imbalanced and Limited Training Texts, In Proceedings of the 4th International Workshop on Text-based Information Retrieval, DEXA Workshops, pp. 237-241, 2007.

[13] F. Mairesse en M. Walker. Words mark the nerds : Computational models of personality recognition. In Proceedings of the 28th Annual Conference of the Cognitive Science Society (CogSci), pp. 543-548, Vancouver, 2006.

[14] Scott Nowson, Jon Oberlander, Identifying more bloggers, towards large scale personality classification of personal weblogs. In Proceedings ICWSM 2007, pp. 137-143, 2007.

[15] Hakim Lounisa, Farkhund Iqbala, Adam Szporera, Djamel Benredjema. Towards an integrated e-mail forensic analysis framework. Digital Investigation, Volume 5, Issues 3-4, pp. 124-137, March 2009.

[16] Garry Robins, Tom Snijders, Peng Wang, Mark Handcoc, Philippa Pattison, Recent developments in exponential random graph (p*) models for social networks. Social Networks 29, 192-215, 2007.

[17] Stephan Raaijmakers and Wessel Kraaij, Polarity Classification of Blog TREC 2008 Data with a Geodesic Kernel. Proceedings TREC 2008, Gaithersburg, USA, 2009.

[18] Alina Andreevskaia en Sabine Bergler. When Specialists and Generalists Work Together: Overcoming Domain Dependence in Sentiment Tagging. Proceedings ACL, 2008.

[19] Hao Ma, Haixuan Yang, Michael R. Lyu and Irwin King (2008). Mining Social Networks Using Heat Diffusion Processes for Marketing Candidates Selection. Proceedings CIKM’08, October 26–30, 2008

[20] Bo Pang and Lillian Lee. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. Proceedings of the 42nd ACL, pp. 271–278, 2004.

[21] Bing Liu. Interview, http://social.textanalyticsnews.com/news/%E2%80%9C-challenge-still-accuracy-sentiment-prediction-and-solving-associated-problems%E2%80%9D or http://www.cs.uic.edu/~liub/FBS/liub-sentiment-analysis.ppt, 2009.

Page 108: Herkenning van digitale informatie

ONGERUBRICEERD

108 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 109: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 109 / 114

12 Conclusies

De technologieën die beschreven zijn in dit rapport zijn grofweg onder te verdelen in drie categorieën: 1 Het herkennen van een specifiek voorbeeld of item (identificatie/verificatie van

bestand, fragment, persoon, object, etc.) Met deze technieken kunnen uitsluitend items worden herkend, die al eerder zijn voorgelegd aan het systeem. Hieronder kunnen we technieken zoals hashing, fingerprinting, watermarking, logo herkenning etc. vatten. Doorgaans word deze technologie gebruikt om twee items te vergelijken (verificatie, dwz. 1-op-1 vergelijking). Of het wordt gebruikt in combinatie met een database met items, waarin het specifieke item herkend moet worden (identificatie, dwz. 1-op-N vergelijking).

2 Het herkennen van een concept (interpretatie/detectie van multimedia content) Deze technologie herkent een specifiek concept in plaats van een specifiek item. Een voorbeeld is het herkennen van het concept ‘stoel’ in plaats van een specifieke stoel, zoals een Rietveld. Deze benadering vereist een model voor het te herkennen concept. De complexiteit van het concept is bepalend in hoeverre het mogelijk is om een model te ontwikkelen. Een generiek concept herkennen zoals een ‘stoel’ is erg lastig. Daarentegen het detecteren van een gezicht in beeld gaat vrij goed. Vervolgens kan met gezichtsidentificatie bepaald worden bij welk individu het gezicht hoort.

3 Het leggen van verbanden tussen materiaal (content linking, N-op-N relaties) Hierbij worden verbanden gelegd tussen items in een collectie materiaal. Een voorbeeld is het groeperen van foto’s op basis van welk persoon er op staat. Hierbij kan gebruik gemaakt worden van de technieken die in dit rapport beschreven zijn. De uitdaging is de strategie voor het linken van content. Hoe bepaal je op basis van welke kenmerken je gaat groeperen, hoe betrek je de gebruiker op een efficiënte wijze bij dit proces etc. We rekenen ook de technieken voor sociale netwerk analyse onder deze noemer.

Dit rapport richt zich op de state-of-the-art van een serie technologieën. De volgende aspecten zijn relevant, maar vallen buiten de scope van dit rapport: • Bestaande technologie is geoptimaliseerd voor een bepaald gebruik; een nieuw

toepassingsdomein legt nieuwe eisen op aan de technologie. Veel technologie, zoals beschreven in dit rapport, worden reeds met meer of minder succes toegepast in een specifiek domein. Voor optimale performance is doorgaans zoveel mogelijk domeinkennis meegenomen. Het toepassen van dezelfde technologie in een ander domein stelt ons vaak voor nieuwe problemen. Zo wordt video fingerprinting succesvol toegepast in de context van het opsporen van illegale kopieën van commerciële video content. Wanneer dezelfde techniek toegepast wordt op in beslag genomen kinderporno materiaal blijkt de lengte en kwaliteit van de video fragmenten de technologie voor een nieuwe uitdaging te stellen. Een ander voorbeeld is het herkennen van nummerborden met camera’s boven de snelweg. Dit werkt succesvol, maar wil niet zeggen dat nummerborden met dezelfde technologie herkend kunnen worden in een willekeurige foto. Kortom, een nieuw toepassingsdomein legt nieuwe eisen op aan de technologie.

Page 110: Herkenning van digitale informatie

ONGERUBRICEERD

110 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

• Technologie die geïntegreerd is in commerciële producten is niet per definitie beschikbaar voor onderzoek en projectuitvoering. Veel technologie wordt toegepast in commerciële producten en is veelal ver doorontwikkeld. Denk aan gezichtherkenning in digitale camera’s of game consoles. Voor projectuitvoering is het van belang om waar mogelijk hierbij aan te sluiten, zodat het wiel niet opnieuw uitgevonden hoeft te worden. Samenwerking met deze bedrijven voegt een extra complexiteit toe aan het project, doordat zij hun IPR niet vrijgeven. Kortom, technologie die beschikbaar is in consumenten electronica is niet per definitie beschikbaar voor onderzoek en projectuitvoering.

• Een technologische innovatie is nog geen praktische oplossing die grootschalig uitgerold kan worden. Bij grootschalige toepassing van technologie staat niet alleen de herkenningsperformance centraal. Ook aspecten als de snelheid van de herkenning, de benodigde rekenkracht, de hoeveelheid te verwerken data, etc. zijn uitdagingen op zich. Naast deze technologische uitdagingen zitten er ook veel uitdagingen in het gebruik, inpassing in een workflow, de juridische en de ethische context. Kortom, een technologische innovatie is nog geen praktische oplossing die grootschalig uitgerold kan worden.

• (Gebrek aan) interoperabiliteit tussen verschillende patijen kan innovatieve oplossingen in de weg staan. Waar meerdere partijen met elkaar moeten samenwerken, is het niet altijd vanzelfsprekend om alle benodigde informatie gedeeld kan worden. Bijvoorbeeld het niet kunnen delen van bepaald kinderporno materiaal tussen diensten of landen, of alleen met bepaalde diensten of landen. Anderzijds, kan het gebruik van specifieke technologie een afhankelijkheid van een bepaalde leverancier opleveren (vendor lock-in). Gesloten technologie kan de synergie tussen technologieën in de weg staan. Daarom is het belangrijk dat de interfaces tussen bepaalde technologische bouwstenen zoveel mogelijk gebruik maken van open standaarden. Kortom, de interoperabiliteit tussen verschillende partijen kan innovatieve oplossingen in de weg staan.

Aanbevelingen voor succesvolle toepassing van technologie voor herkenning digitale informatie: • Wederzijds begrip van technologie en de toepassingscontext

Technologie wordt pas goed toegepast, als de experts en stakeholders elkaar begrijpen. In beginsel spreken zij elkaars taal niet. Een stakeholder redeneert van uit probleem of een belang; een expert vaak vanuit een technologische oplossing. Door middel van interactieve workshops is het mogelijk elkaar beter te begrijpen, waardoor innovaties sneller tot stand komen.

• Benchmarks die aansluiten bij het toepassingsdomein Een benchmark is een vergelijkend waren onderzoek van technologie afkomstig van verschillende leveranciers. Voor diverse technieken zijn publieke benchmarks bekend (zie eerdere hoofdstukken). Deze zijn vaak algemeen van aard, en niet toegesneden op een specifiek probleem. Om een goed beeld te krijgen van de exacte prestatie voor een specifiek toepassingdomein moeten benchmarks gedaan worden die aansluiten bij het toepassingsdomein. Deze worden veelal gedaan als de technologie meer volwassen is.

Page 111: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 111 / 114

• Proof of Concepts (PoCs) die aansluiten bij het toepassingsdomein Indien technologie nog relatief nieuw is, is het van belang te ervaren wat dit voor een gebruiker kan betekenen. In dit geval zijn er weinig leveranciers beschikbaar en kan technologie goed ervaren worden door de stakeholders met behulp van realistische PoCs.

• Combinaties van technologieën en modaliteiten Iedere technologie kent zijn beperkingen. Vaak worden verbeteringen gerealiseerd door verschillende technologieën en modaliteiten te combineren. Denk bijvoorbeeld aan video analyse, waarbij gebruik spraakherkenning gebruik maakt van het audio kanaal en video OCR van het beeld materiaal om video content te ontsluiten. Kortom, een goede samenwerking tussen expertises kan leiden tot betere oplossingen dan optimalisatie van specifieke technologie.

Page 112: Herkenning van digitale informatie

ONGERUBRICEERD

112 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 113: Herkenning van digitale informatie

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264 113 / 114

13 Ondertekening

Delft, 31 maart 2010, TNO Informatie- en Communicatietechnologie namens de auteurs, …

Page 114: Herkenning van digitale informatie

ONGERUBRICEERD

114 / 114 ONGERUBRICEERD | TNO-rappo rt | 35264

Page 115: Herkenning van digitale informatie

Bijlage A | 1/1

ONGERUBRICEERD

ONGERUBRICEERD | TNO-rappo rt | 35264

A Schematisch overzicht herkenning van digitale informatie

Her

kenn

ing

van

digi

tale

info

rmat

ieD

oel

Wat

Waa

rin

Hoe

Obj

ecte

n, zo

als

logo

’s, au

toty

pes

, lo

catie

s,ei

genn

amen

, et

c.Iden

titei

t va

nP

erso

nen

Ver

borg

en

bood-

scha

ppen

Bek

ende

best

ande

n

Geb

ruik

te

opnam

eap

par

atuu

r

Net

wer

ken

van

(crim

inel

e) p

erso

nen

Tek

st in

be

eld/

vide

o

Web

logs

Onl

ine

(Hyv

es, T

witt

erLi

nked

IN, F

aceB

ook)

Soc

iale

net

wer

kan

alys

e

Vid

eo/fot

oca

mer

a of

m

obie

l

PR

NU

Ste

gano

graf

ie/

Ste

gana

lyse

Opt

ical

char

acte

rre

cogn

ition

(OC

R)

Logda

tava

nN

etw

erk

verk

eer

Dee

pP

acke

tIn

spec

tion

Ver

dach

t ge

drag

/ R

adic

alis

erin

g

Bee

lden

van

obse

rvat

ie-

cam

era’

s

Spr

eker

herk

enni

ng

Ges

prok

en

cont

ent (b

v.

tele

foont

aps

) Gez

icht

in

bee

ld

Gez

icht

iden

tific

atie

Lich

aam

sken

mer

ken

in b

eeld

Num

mer

bord

en

van

auto

’s

Opt

ical

char

acte

rre

cogn

ition

(OC

R)

SIF

T/S

UR

Ffe

atur

es

In b

eeld

-m

ater

iaal

op h

et in

tern

et

Aud

io/M

uzi

ek

Teks

tbes

tand

en

Mis

brui

k be

eldm

ater

iaal

Illeg

ale

vide

o op

YouT

ube

ofin

bes

lag

geno

men

hard

e sc

hijf

Aud

iofin

gerp

rintin

g

Kle

ding

in

beel

d

Bew

egin

gs-

iden

tific

atie

Wat

erm

arki

ng

Vid

eo-

finge

rprin

ting

Teks

tfin

gerp

rintin

g

Dig

itaal

beel

dmat

eria

al

Nam

eden

tity

reco

gniti

on

Aut

eurs

chap

s-he

rken

ning

Sen

timen

ther

kenni

ng

Spr

aak

herk

enni

ng

Aud

ioka

naal

Tek

st

Tek

st o

phe

t w

eb

Ged

rags

-he

rken

ning

(g

ew

eld,

ag

ress

ie, et

c)S

IFT

/SU

RF

feat

ures

Em

otie

herk

enni

ng

(boo

sheid

, et

c)

Leef

tijd

herk

enni

ngD

oor-

zoek

baa

r m

aken

AV

mat

eria

al

Gel

ogde

ob

serv

atie

sN

etw

erk

anal

yse

tool

s

Rel

evant

edo

cum

ente

n

Gro

teho

eve

elhe

den

docu

men

ten

Taa

lher

kenni

ng Gep

erso

nalis

eerd

filte

ren

Taa

ltech

nolo

gie

Ond

erw

erps

clas

sific

atie