Technologie voor de bescherming van jongeren op sociale media
-
Upload
mediawijsbe -
Category
Education
-
view
73 -
download
0
Transcript of Technologie voor de bescherming van jongeren op sociale media
technologie voor debeschermingvanjongeren opsociale media
WalterDaelemans,GuyDePauwCLiPS ComputationalLinguisticsGroup
[email protected]@uantwerpen.be
Gent15november 2016
overzicht
• contexten doel vanhetAMiCA project• Enkele componenten• Usecases:– Detectie vangrooming– Detectie vancyberpesten– Suicidepreventie
hetprobleem• European“Kidsonline”study(EU,2010)• European“Kidsonline”study(EU,2014)
• Age9-16in25Europeancountries– Since2010study,9to16yearolds
• Significantriseofuseofsocialmedia• Riseof23%to43%ofhavingcontactwithsomeonenotmetIRLbefore• Riseof10%to23%ofhavingseensexualimages• Riseof9%to20%ofhavingreceivedsexualimages• Riseof13%to17%areupsetbysomethingseenonline• Riseof13%to20%ofbeingexposedtohatemessages• Riseof7%to11%ofbeingexposedtoself-harmsites• Riseof7%to12%ofbeingexposedtocyberbullying
– www.eukidsonline.net
hetprobleem
• Weinig inzicht inverschillende vormen vanrisicogedrag en contexten
• Vaak verschillende oberservaties,afhankelijkvanmethodologie,sampling,…
• Meeronderzoek isnodig omzicht te krijgenopcontextuele aspecten diehetrisicoverhogen en reele beschadiging
www.amicaproject.be• Doelen– Automatische detectie vansituaties dieschadelijkofbedreigend kunnen zijn voor jongeren insocialenetwerken• cyberpesten• Seksueel grensoverschrijdend gedrag (bv.grooming)• Depressie en zelfmoordaankondingen
– Snel actie doormoderatoren,politie,ouders,jongeren zelf,...
– Objectieve metingen,monitoring,trendanalyse
voor oftegen
Moderatoren diejouw interacties opsocialemediamonitoren
Softwarediejouw interacties opsociale mediamonitort
voor oftegen
Moderatoren diejouw interacties opsocialemediamonitoren
Softwarediejouw interacties opsociale mediamonitort
Moderatoren diedeinteracties vanjekinderenopsociale mediamonitoren
Softwarediedeinteracties vanjekinderen opsociale mediamonitort
Kan het?Moethet?• Meerderheid vanexperten en jongeren zijn voor eenvorm vanautomatische monitoring– Maarenkel insituaties waar ze geen controle (meer)overhebben
– Metrespectvoor privacyen metgepaste follow-up,metweining extrapartijen en methetslachtoffer incontrole
• Meerderheid vandejongeren verkiest hetrisico omgecyberpest te worden overautomatische monitoring
• Ouders:verdeelde mening,afhankelijk vaneerdere(negatieve)ervaringen en vertrouwen inhun kinderen
• Preventieve monitoringwordt positief onthaald(MinorityReportstyle)
Kan het?Moethet?• Meerderheid vanexperten en jongeren zijn voor eenvorm vanautomatische monitoring– Maarenkel insituaties waar ze geen controle (meer)overhebben
– Metrespectvoor privacyen metgepaste follow-up,metweining extrapartijen en methetslachtoffer incontrole
• Meerderheid vandejongeren verkiest hetrisico omgecyberpest te worden overautomatische monitoring
• Ouders:verdeelde mening,afhankelijk vaneerdere(negatieve)ervaringen en vertrouwen inhun kinderen
• Preventieve monitoringwordt positief onthaald(MinorityReportstyle)
MaleFemaleMaleMaleFemaleFemaleFemaleMaleFemaleFemaleFemaleMaleFemaleMaleMaleFemaleFemaleFemaleMaleFemaleFemaleFemale
• Verzamel documenten waarvan jedetevoorspellen klasse kent (bv.geslacht,leeftijd,…)
• Traineen zelflerend systeem omzelf hetonderscheid af te leiden (BOTTOM-UP!)
• Evalueer hetsysteem opnieteerder geziene data• Bereken Precision&Recall
How?Zelflerende machines
UserGeneratedTextNormalization
• UGC(UserGeneratedContent)– Chat
• Reflecteert dialoog IRL– Schrijf zosnel mogelijk omdialoog te laten vloeien
» Afkortingen,acroniemen,flooding,lettersweglaten,woorden aaneenschrijven,hoofdletters,interpunctie,spellingen grammatica
– Schrijven zoals jespreekt» dialectisch,phonetisch
– Moduscompenseren doormiddel vanemoticons,…
– TweetsenSMS– Dataverzameling&annotatie
Automatische tekstanalyse?
• Meeste TAtoolswerken goed voor standaardtaal• en werken niet opUGC• Oplossingen– nieuwe toolsontwikkelen
• E.g.TweetNLP(CMU):http://www.cs.cmu.edu/~ark/TweetNLP/
– Normaliseren naar standaardtaal
• POSITIEF:niet-standaardtaal maakt sommigetakengemakkelijker!
EnsembleAanpak
SarahSchulz,GuyDePauw,Orphée DeClercq,BartDesmet,Véronique Hoste,WalterDaelemans,andLieve Macken.2016.Multimodular textnormalizationofDutchuser-generatedcontent.ACMTrans.Intell.Syst.Technol.7,4,(July2016),22pages.DOI:http://dx.doi.org/10.1145/2850422
Modules
– SMT– Transliteration(supervisedMachineLearning)• Step1:alignment
+k +eb+da+ ni++ gedaaanik heb dat niet gedaa+n
• Step2:supervisedML,memory-basedlearningstyle– +da+_n i ++_ged ->iet
Modules
–WAYS(WriteAsYouSpeak)• ni (niet,not)• kem (ik heb,Ihave)
– Grapheme2Phonemegevolgd doorPhoneme2Grapheme
• DecisionModule– Mosesdecoder(SMT)zoekt dynamisch doorallesmogelijke suggesties naar debeste sequentie vanwoorden
Evaluatie• Drie types– Chattaal (Netlog)– SMS(Sonarcorpus)– Microblog(Twitter)
• Totaal:70,000woorden,manueel genormaliseerd• Train(60%)- Development(20%)- Test(20%)• Accuraatheid:Twitter>SMS>chat• Reduceert aantal foute woorden met50%• Nutingebruik– Getest opAskFMdatavoor enkele tekstanalysetakenPOS(+12%),LEM(+13%),NER(+8%)
‣ database:AMiCA_Visics101
‣ Training• 151 (containingnudity):18000beelden■ 101 (imagescontainingnudity):9000beelden■ 108 (femalegenitals):3000beelden■ 109 (malegenitals):3000beelden■ 110 (femalebreasts):3000beelden
• 999 (negative):18000beelden‣ Test
• 151 (containingnudity):3539beelden• 999 (negative):73909beelden
Deep learning
‣ 151 (containingnudity):3539beelden• 3417/3539geclassificeerd als 151 ⇒ 96,55%• 122/3539geclassificeerd als 999 ⇒ 3,45%
‣ 999 (negative):73909beelden• 73622/73909geclassificeerd als 999 ⇒ 99,61%• 287/73909 geclassificeerd als 151 ⇒ 0,38%
Foutief ?⇨ vaak niet altijd even duidelijk
(hangt af van definitie ‘nudity’)
Foutief !⇨ trainingset 999 uitbreiden
met beelden van handen, benen, …
Resultaten
Document(chat,post,…) Age/Gender/LocationDetector
Mismatch?
Contents/GroomingDetector
Sendtomoderator
Providedprofile Predictedprofile
Suspicious?
Grooming
Computationele stylometrieauteursprofilering
• Schrijfstijl:een combinatie vanvaste enonbewuste beslissingen intaalproductie opalle niveau’s vantaal (discourse,grammatica,woordkeuze,...)worden geassocieerd metspecifieke auteursen/ofhun kenmerken– leeftijd,geslacht,opleidingsniveau,persoonlijkheid,emotionele staat,politiekeovertuiging,seksuele voorkeur,…
Profiling
• AMiCA profiler– Gebaseerd opOMESA• https://github.com/cmry/omesa
• Leeftijd en geslacht– Zoek dubieuze SNprofielen• Optimaliseer voor recall (moderator-toepassing)• Pasaan naar binaire classificatie
– Ageofconsent
Aanpak• SNchatdata(Netlog,2010-2011)– 380kposts– 87kusers– Datapunt =alle gecombineerde postsdoor1gebruiker– Zelf-gerapporteerde leeftijd,geslacht en locatie
• Te voorspellen klasse:leeftijd,geslacht• Informatie aangeboden aan hetzelflerende systeem– tokenn-grams(2500meest frequente woorden encombinaties vanwoorden)
– charactern-grams(5000meeste frequente trigrammen entetragrammen)
Resultaten
• Leeftijdsvoorspelling– Hoehoger deleeftijdsgrens,hoegemakkelijker• 77%(16)to92%(28)
– Langere documenten zijn gemakkelijker dankortere• 78-86%(lang)tot(68-77%)kort (<10tokens)• >1000tokens:87-93%
Resultaten
• Geslacht– ~70%– Toevoegen vanandere eigenschappen (LIWC,patronen vanwoordsoorten,sentiment,…)verhoogt descore
Resultaten
• AMiCA toepassing:– Ageofconsent(16)– <16versus>18als prioriteit– Optimaliseer recall• bijna 95%recallvoor -16;92%recallvoor +18
Janneke vandeLoo,GuyDePauw,WalterDaelemans,Text-BasedAgeandGenderPredictionforOnlineSafety,InternationalJournalofCyber-SecurityandDigitalForensics(IJCSDF),2016,46-60.
PredatorDetectie
• CLEF2012competitie• Tweeclassificaties– Classificeren oppost-niveau &aggregeer opgebruikersniveau
– Classificeren vandegebruiker
ClaudiaPeersman,FrederikVaassen,VincentVanAsch,WalterDaelemans.ConversationLevelConstraintsonPedophileDetectioninChatRooms.CLEF2012(PAN),2012.
Resultaten
Scores PostClassifier
UserClassifier
CombinedResults
Combined+Constraints
Recall 0.93 0.82 0.85 0.85Precision 0.36 0.88 0.84 0.94F-score 0.52 0.84 0.84 0.89
42
Verdachte posts
• gedragsanalyse– Verschillende stadiabij onlinegrooming(Lanning,2010)
– Analyse vandetrainingdata• Filteropbasisvanwoordenlijst– Terminologie:• Seksueel,vraag naar data,isoleren vansupervisie,leeftijdsgerelateerde vragen
Testresultaten
• Detectie vangrooming– Predatordetection• 72%f-score,89%precision,60%recall
– Suspiciousposts• 30%f-score,36%precision,26%recall
Datacollectie
• Mediacampagne– Vraag naar donaties vancyberpest materiaal– Veel media-aandacht,weinig data
• Rollenspellen inmiddelbare scholen– Gekaderd insessie voor educatie &preventie– Aanpak
• Facebook-achtig sociaal netwerk• Scenarios• Profielfiches (rollen)• Debriefing
Complexe Events
Victim(Joni)Bully(Dominique)
Bystander+(Jolien)
Bystander+(Emma)
Bystander- (Julie)
Insult
Insult
Pacificationattempt
t1 t2 t3 t4 t5
Bystander- (Julie)
ManipulatedphotographofJoni
Anatomie vancyberpesten
• bedreigingen• beledigingen– scheldwoorden;vrienden en familie aanvallen;discriminatie (sexisme,racisme);Vloek ofuitsluiting;Laster;Seksueel getint taalgebruik(onschuldig,schadelijk);sarcascme
• Verdediging– doorbystandersofslachtoffer
Cyberpesten
• Complexe eventsdetecteren–Meervoudige categorisatie• belediging,hulp,persoonlijkheid,sentiment,emotie,…
– Temporele aspecten• Herhaling,reacties,likes,forwards
– Rollen (netwerk)• Bully,victim,bystanders(vanvictimen bully)
–Multi-modaal• Photoshoppen vanfoto’s,tekst,audiochat,video
Eerste experimenten(VanHee etal.)
• Klasse– Binair (pesten vsniet-pesten)– Binair (voor elke fijnere klasse)
• Informatie voor hetzelflerend systeem– Wordunigramsandbigrams– Charactertrigrams– Sentimentfeatures
• ~85,000posts(ask.fm,simulaties,…)• Annotaties uitgevoerd door>2mensen– (kappa)60-65%
• Weinig positieve data(~10%)
Resultaten
55.39%
19.84%
35.18%
56.32%
33.46% 35.09%
7.41%0.12%0%
10%
20%
30%
40%
50%
60%
Bully%event%
Threat/blackmail%
Sexual%talk%
Insult%
Curse/exclusion%
Defense%
Defam
aGon%
Encouragement%
Classifica(
on+perform
ance+(F3score)+
Cyberbullying3related+text+category+
Valorisatie
• Watisheteffectvaneen detectiesysteem ineen moderatorsetting?
• Experimentinsamenwerking metCPZenmoderatoren vanWel JongNiet Hetero:• 1000berichten modereren in1uur• 1groep met,1groep zonder systeemhulp• gekoppeld aan evaluatie vane-learningvoormoderatoren
57
Discussie
• Isautomatisch profileren accuraat genoegvoor deze toepassingen?– Precision- Recalltrade-off
• Moeten wekinderen en jongeren tegen hunwil beschermen opsociale netwerken?– Bescherming - privacytrade-off
• Iscomputationele stylometrie zinvolletechnologie?– interacties metregister/inhoud
www.amicaproject.be
jongeren &onlineveiligheidvrijdag 9december 2016
ALM- Berchem
ProgrammaOfficiële openingdoorPhilippeDeBacker,Staatssecretaris voor Privacy
inleiding tothetAMiCA-projectWalterDaelemans (projectcoördinator)
Usecase1:seksueel grensoverschrijdend gedragMarineSmeets (ChildFocus)
technologie &privacyPatrickVanEecke (DLAPiper)
Usecase2:detectie vanzelfmoordneigingen en zelfverminkingKirstenPauwels (Centrumter Preventie vanZelfdoding)
lunch&demonstraties
Usecase3:detectie vancyberpestenGie Deboutte (Leefsleutels vzw)
afsluitend debat o.l.v.JanHautekiet
slotreceptie