Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3,...

16
1 / 16 Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final

Transcript of Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3,...

Page 1: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

1 / 16

Eindrapportage PuppyNewsDatum: January 3, 2013Auteurs: Wouter Alink, Arjen P. de VriesVersie: final

Page 2: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

Inhoudsopgave1 Introductie..................................................................................................................................................................................... 32 PuppyNews concept.................................................................................................................................................................. 4

2.1 Modules................................................................................................................................................................................ 42.2 Data........................................................................................................................................................................................ 42.3 Toepassingen...................................................................................................................................................................... 4

3 Content preparatie..................................................................................................................................................................... 53.1 Content................................................................................................................................................................................. 53.2 Voorbewerking.................................................................................................................................................................. 53.3 Praktijk................................................................................................................................................................................... 6

4 Meten kindvriendelijkheid....................................................................................................................................................... 74.1 Classificatie.......................................................................................................................................................................... 74.2 Uitwerking............................................................................................................................................................................ 7

5 Modules.......................................................................................................................................................................................... 95.1 Onderwerp-kiezer / ideeën generator...................................................................................................................... 9

5.1.1 Demo-applicatie...................................................................................................................................................... 95.1.2 Op basis van strategieën.................................................................................................................................... 105.1.3 Voorbeeld................................................................................................................................................................ 10

5.2 Opstel-schrijf-module................................................................................................................................................... 115.2.1 Demo-applicatie.................................................................................................................................................... 115.2.2 Voorbeeld................................................................................................................................................................ 11

6 Resultaten .................................................................................................................................................................................. 126.1 Implementatie Kidsweek.nl (Young&Connected)...............................................................................................12

7 Conclusie / Evaluatie............................................................................................................................................................... 137.1 Vervolg............................................................................................................................................................................... 13

Bijlage A:Definitie opstel-templates...................................................................................................................................... 15

2 / 16

Page 3: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

1 IntroductieSpinque maakt tools om zoekmachines te genereren. 'Search-by-strategy' noemen we dit, waarin we proberen eenvoudig doelgericht toegang te verschaffen tot willekeurige databron. Een klusser die zoekt naar de juiste verf voor het schilderen van kozijnen, zoekt op een andere manier dan een jong stel dat op jacht is naar een huis, of een journalist die nog vlug een geschikte foto probeert te vinden voor een zojuist geschreven artikel. Zo ook vormen kinderen een bijzonder publiek en mogen we ze zeker niet over een kam scheren met andere gebruikers.

Kinderen moeten vaak nog leren met de enorme hoeveelheid informatie op het internet om te gaan. Vaak weten ze nog niet de juiste ingangen (websites) te vinden, en kan moeilijk taalgebruik een afschrikwekkend effect hebben.

Mede door deze obstakels worden kinderen vaak naar websites met zorgvuldig geselecteerde artikelen gestuurd. Deze content is uitermate geschikt voor kinderen, maar deze sites kunnen door de redactie als tussenschakel niet zo snel en niet zo veel informatie ontsluiten. Zo wordt kinderen de mogelijkheid ontnomen om de vrijwel grenzeloze digitale ruimte van het web te verkennen. De kracht van het web zit 'm juist in de omvang en diversiteit van nieuwswaardige bronnen die geraadpleegd kunnen worden. Dit zou natuurlijk eigenlijk aangemoedigd moeten worden, al zou een helpende hand hierbij welkom zijn.

De in PuppyNews ontwikkelde tools geven kinderen dan ook toegang tot een grote hoeveelheid actuele relevante nieuwsartikelen. In het Europese project PuppyIR1 is in de afgelopen jaren veel onderzoek gedaan naar hoe kinderen zoeken en hoe techniek hen hierbij kan helpen. De IR in PuppyIR staat voor Information Retrieval2. Onze oplossing om kindvriendelijke content van het hele web makkelijker te ontsluiten ligt in het gebruik van nieuwe technieken om teksten automatisch te classificeren op mate van geschiktheid voor kinderen. Zo wordt het ook eenvoudiger om zoekmachines te maken voor bijvoorbeeld recente nieuwsberichten.

PuppyNews zet daartoe een deel van de (wetenschappelijke) resultaten van het PuppyIR project om in bruikbare tools zodat kinderen in Nederland beter kunnen zoeken naar nieuws op het internet. Een van de resultaten van het onderzoek is een classificatie-algoritme voor het bepalen van de kindvriendelijkheid van een tekst.

In het PuppyNews project werkt Spinque samen met Young&Connected, de uitgeverij van onder andere de Kidsweek krant. Young&Connected heeft haar archief van Kidsweek beschikbaar gesteld en deze hebben we voor hen ontsloten. De artikelen in de Kidsweek krant zijn volledig gericht op kinderen en zijn daardoor van grote waarde. Ze kunnen als referentie worden gebruikt bij het 'trainen' van het classificatie-algoritme op Nederlandse nieuwsberichten. Deze trainings-data is hard nodig om het systeem geschikt te maken voor de Nederlandse taal, want in het PuppyIR onderzoek is voornamelijk met Engelstalige content geëxperimenteerd. Als het classificatie-algoritme goed werkt kunnen we deze gebruiken voor de content die ondertussen verzameld is. De content is afkomstig van een grote set van websites waar mogelijk kindvriendelijke en interessante nieuwsberichten op geplaatst worden. Deze verzamelde data wordt automatisch continu aangevuld met nieuwe content.

1 PuppyIR: http://www.puppyir.eu/

2 Information Retrieval http://nl.wikipedia.org/wiki/Information_retrieval

3 / 16

Page 4: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

2 PuppyNews conceptIn het project PuppyNews zijn de volgende doelen gerealiseerd:

– realisatie van een classifier op basis van Kidsweek content (kindvriendelijkheid van teksten meten; leesvriendelijkheid);

– implementatie van twee modules, een ideeën-generator/onderwerp-kiezer en een opstel-generator;

– een online demo van beide modules op http://www.opstel.eu/.

2.1 Modules

De opstelgenerator site is gebouwd om de twee in PuppyNews nieuw ontwikkelde onderdelen te demonstreren. Spinque heeft deze twee kant-en-klare componenten ontwikkeld voor het ontsluiten van nieuws voor kinderen, gerealiseerd volgens het 'search-by-strategy' principe. Op www.spinque.com (en met name de blog) kunt u meer informatie vinden over de technische kant van dit concept.

De eerste module is de onderwerp-kiezer die recent nieuws meeneemt in de resultaten (als een onderwerp recent in het nieuws is geweest, is het een betere suggestie als onderwerp voor een opstel). Het tweede onderdeel is de opstel-schrijf-module, die helpt bij het schrijven en onderbouwen van een opstel.

Deze modules kunnen vanzelfsprekend in externe sites verwerkt worden en zijn niet beperkt tot onze demonstratie. In hoofdstuk 5 worden de modules in detail besproken met verwijzigingen naar de demo-applicatie ter illustratie.

2.2 Data

Hoe meer kindvriendelijk materiaal toegevoegd wordt, des te beter de kwaliteit van het systeem. In de toekomst zal het classificatie-algoritme door het toevoegen van bekende content steeds beter gaan werken.

2.3 Toepassingen

Op basis van het classificatie-algoritme kunnen eenvoudig nieuwe modules gecreëerd worden. Zo heeft de ontwikkelde technologie zijn weg naar de praktijk al gevonden bij Young&Connected, in het kader van de nieuwe site voor Kidsweek. Deze site maakt gebruik van kindvriendelijke spellingsuggesties – door de (automatisch) gesuggereerde spellingcorrecties enkel te baseren op content die als kindvriendelijk is geclassificeerd, zullen deze kinderen niet meer zo snel naar minder geschikte sites leiden.

4 / 16

Page 5: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

3 Content preparatieZowel de kwaliteit van het classificatie-algoritme als de bruikbaarheid van de modules hangt sterk af van de beschikbare content: Nederlandse teksten met de aan deze teksten toegevoegde metadata (denk bijvoorbeeld aan datum van publicatie, titel en auteur(s), maar ook het aantal keren dat een online artikel wordt bekeken per dag). De initieel verkregen data wordt vervolgens door ons verrijkt met nieuwe metadata ten behoeve van het classificatie-algoritme; we tellen bijvoorbeeld het aantal zinnen, het aantal woorden en het aantal lettergrepen.

Van alle data en metadata wordt vervolgens een doorzoekbare index gemaakt, waarover zoekstrategieën kunnen worden gedefinieerd (zie de Spinque website voor meer details over dit laatste aspect van de implementatie).

3.1 Content

Voor de opstelgenerator en onderwerpzoeker modules zijn de volgende databronnen gebruikt:

– Samenvattingen van alle Nederlandse wikipedia pagina's (meer dan 1 miljoen samenvattingen).(bron: http://dumps.wikimedia.org/)

– De artikelen verschenen in de kidsweek krant vanaf 2007 (meer dan 11000 artikelen).(bron: Young&Connected)

– Alle nieuwsitems die ooit op de kidsweek website stonden, bij elkaar meer dan 4500 artikelen.(bron: Young&Connected)

– Statistieken over het gebruik van webpagina's in Wikipedia. (bron: http://dumps.wikimedia.org/other/pagecounts-ez/monthly/)

– Het Nederlandse woordenboek op Wikipedia (Wiktionary).(bron: http://dumps.wikimedia.org/)

3.2 Voorbewerking

Alle data wordt verzameld door periodiek de bronnen (automatisch) te controleren op nieuwe content, die vervolgens wordt meegenomen. Deze content komt als XML-bestanden binnen, voor elke bron een eigen structuur. De Spinque-indexer extraheert vervolgens de tekst en metadata uit deze documenten.

De in het kader van PuppyNews ontwikkelde generieke componenten voegen extra metadata toe aan de content. Zowel zinsontleding als het splitsen van woorden in lettergrepen wordt gedaan op basis van een rule-based algoritme. Het algoritme voor het tellen van lettergrepen is getest en accuraat gebleken op de Nederlandstalige Wictionary (van meer dan 99% van de woorden worden de lettergrepen correct geteld). Het algoritme heeft ook zeer lage runtime kosten. Het maakt wel fouten bij woorden als “eli-mi-ne-ren”, dat intuïtief 5 lettergrepen lijkt te hebben, maar in werkelijkheid 4. (Deze uitzonderingen hebben waarschijnlijk weinig invloed op het classificatie-algoritme, maar dit is niet getoetst.)

Bij het verzamelen van de content en het ontwikkelen van de daarop toegepaste voorbewerkingen zijn we wel een aantal (onverwachte) problemen tegengekomen. Zo bleek de content van het nieuws-archief van Kidsweek niet in tekstuele vorm aanwezig, maar slechts na toepassing van optical character recognition (OCR) op de PDF bronbestanden. Deze analyse werkt voor veel kranten redelijk robuust, maar de specifieke opmaak van een krant gericht op kinderen met regelmatig gebruik van minder gangbare lettertypen compliceert dit proces, met name in kopjes boven een artikel.

5 / 16

Page 6: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

Het classificatie-algoritme was in eerste instantie erg gevoelig voor deze verwrongen teksten. In plaats van het identificeren van de kindvriendelijke content, classificeerde het algoritme enkel de slecht herkende teksten. We hebben dit probleem niet helemaal kunnen verhelpen, maar op twee manieren wel getracht het proces te verbeteren: 1) detectie van slechte tekst-herkenning en 2) automatisch herstellen/opschonen van veel voorkomende fouten die door het tekst-herkenningsproces gemaakt werden. Dit leverde redelijke resultaten op.

Een minder complexe issue was dat de mixed-content van de website van Kidsweek niet alleen nieuwsberichten toont, maar ook moppen en raadsels. Deze content hebben we door middel van metadata kunnen scheiden van de nieuwsdata.

Aan het einde van het content-preparatie-proces wordt aan elk item door middel van de classificatie-algoritmes een score gegeven van kindvriendelijkheid. Deze scores zijn verder niet zichtbaar voor de gebruiker. Hoe deze scores tot stand komen staat verder uitgelegd in hoofdstuk 4.

3.3 Praktijk

De index wordt regelmatig (dagelijks) bijgewerkt met nieuwe artikelen. De artikelen worden automatisch van de betreffende bronnen opgehaald en in de index verwerkt. De zoekstrategieën uit de opstelgenerator gebaseerd op actueel nieuws maken dan ook gebruik van de meest recente artikelen. Helaas kan door beperkingen in de rechten op de in de krant gebruikte afbeeldingen niet altijd het originele artikel weergegeven worden.

6 / 16

Page 7: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

4 Meten kindvriendelijkheidEen van de doelen van dit project is het meten van kindvriendelijkheid van Nederlandstalig materiaal, om zo kinderen beter toegesneden zoekresultaten te kunnen presenteren. Hiertoe is in PuppyNews een classificatie-algoritme ontwikkeld dat kindvriendelijke en niet-kindvriendelijke content van elkaar onderscheidt.3 Het meten van kindvriendelijkheid draait in feite om het detecteren van de beoogde lezer voor een tekst. Gebruikt een tekst moeilijke woorden en schrijfstijl (zoals in het extreme geval: patenten, wetenschappelijke publicaties of uitspraken van een rechtbank)? Of is de tekst zelfs helder voor een kind dat pas een paar jaar kan lezen?

4.1 Classificatie

De kern van het gebruik van een classificatie-algoritme voor kindvriendelijkheid is het idee dat na analyse van reeds bekende kindvriendelijke content, ook de kindvriendelijke artikelen uit andere bronnen geïdentificeerd kunnen worden. Dat dit in de praktijk tot goede resultaten kan leiden is in het kader van EU project PuppyIR eerder aangetoond voor Engelse artikelen.

PuppyNews heeft deze kennis vervolgens aangepast aan de Nederlandse context. Woorden die vaak in de kindvriendelijke bronnen (zoals de Kidsweek-krant) gebruikt worden zijn waarschijnlijk kindvriendelijk. De Kidsweek collectie maakt onderscheid tussen leeftijdsgroepen: 6-10 jaar en 10-15 jaar. (De Kidsweek collectie bevat overigens geen content bedoeld voor volwassenen, zodat onderscheid tussen kindvriendelijke en volwassenen content zo niet rechtstreeks te meten is.)

Naast het woordgebruik in de Kidsweek-collectie dragen ook andere kenmerken van de tekst bij aan het detecteren van kindvriendelijkheid. Als input voor de classificatie in PuppyNews zijn de volgende kenmerken van de data gebruikt:4

– gemiddelde lengte zin (in woorden);

– maximale lengte zin (in woorden);

– aantal zinnen (totaal);

– aantal woorden (totaal);

– aantal lettergrepen (totaal);

– gemiddelde aantal lettergrepen (per woord).

4.2 Uitwerking

Het meten van kindvriendelijkheid van een tekst wordt nu als volgt uitgevoerd:

– vergelijk de features van Wikipedia met die van de Kidsweek collectie;

– bepaal met een zgn. Support Vector Machine (SVM) classifier tot welke categorie een tekst behoort.

We trainen het algoritme op de dankzij Kidsweek bekende content, en evalueren de behaalde

3 Let op het verschil tussen content voor kinderen, content voor volwassenen en adult-content; het doel van PuppyNews is niet om adult-content (zoals erotische content) te detecteren - hiervoor bestaan immers al effectieve oplossingen (denk bijvoorbeeld aan de safe-search filters van de grote internet zoekmachines).

4 Deze kenmerken worden in vakliteratuur de features van de classifier genoemd.

7 / 16

Page 8: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

resultaten met “10-fold-cross-validatie” (heel kort: verdeel de collectie in 10 gelijke delen, train 10x een classifier op telkens 9 van de 10 delen, meet vervolgens hoe goed deze 10 classifiers het doen op het laatste, ongeziene deel, en rapporteer vervolgens de gemiddelde effectiviteit over die 10 classifiers). Bijlage B rapporteert de zo verkregen resultaten van classificatie op kindvriendelijkheid.

Na het trainen van de classifier kan nieuwe, ongeziene content (zoals die van Wikipedia) automatisch geclassificeerd worden op basis van wat door de classifier is geleerd.

Al is het principe van de kindvriendelijkheid meting eenvoudig, de praktijk is weerbarstig; ook in de Kidsweek krant wordt over onderwerpen voor volwassenen gesproken, bijvoorbeeld bij referenties aan een moordzaak of aan zakelijke nieuwsberichten over de economische crisis. Bovendien willen we de classifier toepassen op content uit andere bronnen dan die van Kidsweek, zodat de trainingsdata niet volledig representatief is voor de testdata.

De beslissing over kindvriendelijkheid van de classifier wordt vervolgens dan ook meegenomen in een afweging op basis van aanvullende informatie. Uit artikelen van Wikipedia die vaker 's nachts bekeken worden dan overdag wordt een mate van kindvriendelijkheid afgeleid. Verder wordt voor het genereren van woordsuggesties bijvoorbeeld gekeken naar hoe gangbaar een woord is in een kindvriendelijke collectie.

Door deze criteria samen te nemen, kunnen de resultaten redelijk op kindvriendelijkheid getoetst worden. Er is nog geen mogelijkheid om content voor verschillende leeftijdscategorieën te detecteren. De verwachting is dat bij het toevoegen van extra content de content beter geclassificeerd kan worden. Daarnaast zal ook gebruikersdata (statistieken over gebruik van opstelgenerator) kunnen helpen bij het verbeteren van de content classificatie en het langzaam uitbreiden van (niet handmatig gelabelde) trainingsdata.

8 / 16

Page 9: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

5 ModulesDe twee gerealiseerde modules worden hieronder in meer detail uitgelegd. De illustraties zijn screenshots van de demo-applicatie, die als referentie-implementatie beschikbaar is op www.opstel.eu.

5.1 Onderwerp-kiezer / ideeën generator

Kinderen hebben vaak moeite met het vinden van een geschikt onderwerp voor hun spreekbeurt of opstel. Daarom is de onderwerp-kiezer / ideeën-generator ontwikkeld.

De onderwerp-kiezer werkt door het voorstellen/tonen van suggesties op basis van input van de kinderen zelf in combinatie met de bronnen van de onderwerp-kiezer.

Elk resultaat in de onderwerp-kiezer wordt gedefinieerd door een zoekstrategie. De ideeën-generator is echter niet een traditionele zoekmachine die de beste artikelen zoekt bij een ingegeven zoekvraag, maar juist gericht op diversiteit. De opzet van de ideeën-generator maakt het eenvoudig mogelijk om de resultaten aan te passen aan actuele thema's (bijvoorbeeld in de week-van-het-boek of de boomgaard-dag).

Ook als het kind nog geen invoer geeft kan de onderwerp kiezer al een woorden-wolk tonen op basis van de meest recente content, om het kind zo op weg te helpen. De woorden-wolk verandert natuurlijk vanzelf mee met het actuele nieuws.

Zowel de woorden-wolk als de op invoer van het kind gebaseerde ideeën-generator zijn op eenvoudige wijze in te passen in externe websites. Spinque faciliteert vanzelfsprekend graag een dergelijk implementatietraject.

5.1.1 Demo-applicatie

Hoe vind je als kind een interessant onderwerp voor je spreekbeurt of opstel dat je zelf ook nog leuk vindt?

Hier kan het nieuws goed van pas komen. De keuze voor een specifiek onderwerp in een gegeven thema kan immers voor de hand liggen, als het de afgelopen tijd veel in het nieuws is geweest.

De keuze voor onderwerpen wordt in onze demo-applicatie dan ook (een klein beetje) bijgestuurd door die onderwerpen die recent in het nieuws zijn geweest.

De suggesties die de site geeft zijn dus niet elke dag hetzelfde; een kind dat later terugkomt krijgt voor dezelfde invoer andere suggesties, afhankelijk van wat er online en in de kinderkrant besproken is. De speurtocht naar bronnen kan hierdoor niet alleen leerzamer, maar ook veel leuker worden.

9 / 16

Page 10: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

5.1.2 Op basis van strategieën

De resultaten van de onderwerp-kiezer worden gedefinieerd door de zoekstrategie weergegeven in Figuur 1. Deze strategie toont hoe de zoekmachine tot resultaten komt. De lijnen geven de informatiestroom weer en elk blok filtert of herweegt de tussentijdse resultaten. Uiteindelijk krijgt de gebruiker van de onderwerp-kiezer de resultaten te zien die over zijn bij de groene resultaatmarker. Een volledige uitleg van de strategie valt buiten het doel van dit document. Het doel van het formuleren van een zoekstrategie in een dergelijke weergave is dat een informatiespecialist, zoals een bibliothecaris of een redacteur, in staat is om de zoekresultaten te verklaren en zodoende ook eventuele verbeteringen door te voeren of nieuwe mogelijkheden te creëren om door de collecties te navigeren.

5.1.3 Voorbeeld

Normaal gesproken wordt voor de invoer 'tomaat' een lijst met onderwerp-suggesties van 'tomaten-mes' tot 'socialistische partij' gegeven. Als het thema bijvoorbeeld landbouw is, dan zouden suggesties als 'tomatenteelt' of 'kasplanten' als suggesties gegeven kunnen worden, door de gebruikte zoekstrategie aan te passen.

Dit is een van de vele mogelijke toepassingen van het makkelijker toegankelijk maken van nieuwsberichten voor kinderen. Invalshoeken op kindvriendelijke content hoeven zich niet te beperken tot het zoeken op steekwoorden, maar kunnen ook ingegeven worden door aspecten zoals een gegeven thema, nieuwheid/trends, locatie en ook leesniveau.

Spinque hoopt in samenwerking met de juiste content providers voor de aangeboden tools een groot publiek te kunnen bereiken, om beter inzicht te krijgen in hoe zo'n ideeën-generator door kinderen gebruikt gaat worden, en zo vervolgens te komen tot betere onderwerp suggesties.

10 / 16

Figuur 1: Zoekstrategie achter onderwerp kiezer

Page 11: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

5.2 Opstel-schrijf-module

In het internettijdperk zijn kant-en-klare opstellen makkelijk te vinden. Maar zelf je opstel schrijven is veel leuker. Zeker als je geholpen wordt bij het verzamelen van je bronnen en het correct citeren van een bron.

De opstel-schrijf-module helpt kinderen gestructureerd informatie te verzamelen voor hun opstel. Vervolgens kan het opstel verder uitgewerkt worden. De opstel-schrijf-module kan per hoofdstuk specifieke suggesties doen voor te citeren content. Dit gebeurt op basis van het gekozen onderwerp en de getypte tekst. Vervolgens bepaalt een zoekstrategie welke items getoond worden.

De opstel-schrijf-module is zo opgezet dat op eenvoudige wijze onderwerp-specifieke templates gedefinieerd kunnen worden, waarbinnen vervolgens eenvoudig naar geschikte bijbehorende bronnen gezocht kan worden. Per opstel template kan per sectie een onderwerpsgerichte zoekstrategie toegevoegd worden die de jeugdige schrijver op het goede spoor kan helpen. De definitie van deze templates is beschreven in Bijlage A.

5.2.1 Demo-applicatie

De opstelgenerator presenteert een leeg template, gegeven een onderwerp gekozen door het kind. De combinatie van onderwerp en getypte tekst van een sectie vormt de basis voor een zoekopdracht, waarna gevonden resultaten eenvoudig in de sectie gesleept kunnen worden – vervolgens wordt een referentie naar dit gevonden artikel automatisch toegevoegd. Dit scheelt de jonge schrijver werk, het voorkomt fouten en benadrukt op speelse wijze gelijk het belang van bronvermelding.

5.2.2 Voorbeeld

Enkele templates zijn al voorgedefinieerd. Neem bijvoorbeeld het template voor sport, dat helpt om een opstel te schrijven met favoriete sport als leidraad. Als bijvoorbeeld 'Voetbal' wordt gekozen, dan kunnen specifieke regels van de sport gevonden worden, of juist kampioenschappen die recent hebben plaatsgevonden. Als “IJshockey voor meisjes” als onderwerp gekozen wordt, dan helpt de site bij het vinden van standpunten over deze sport/dit onderwerp. De keuze-mogelijkheden van sport zijn in principe eindeloos; zolang er maar over is geschreven op Kidsweek (of een andere geïndexeerde bron), kan de opstel-schrijf-module het kind ondersteunen bij zijn of haar opstel.

Aangezien de opstel-generator op dit moment met nieuws-archief en gerelateerde web content wordt gevuld, ligt een hoofdstuk over recent nieuws voor de hand. Als een opstel over 'Walvissen' in het dieren-template geschreven wordt, dan kan dus heel eenvoudig nieuws over de (op moment van schrijven) recent gestrande walvissen ingevoegd worden.

11 / 16

Page 12: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

6 Resultaten De PuppyNews demo-applicatie is beschikbaar via website http://www.opstel.eu/. Daarnaast zijn de classifier en zo verkregen content toegankelijk op de recent gelanceerde Kidsweek-site. Young&Connected is van plan de in PuppyNews ontwikkelde modules eveneens op te nemen in hun site.

6.1 Implementatie Kidsweek.nl (Young&Connected)

Als bijprodukt van het uitvoeren van PuppyNews hebben we tevens voor Young&Connected hun eigen brondata beter toegankelijk gemaakt via de Kidsweek website. De content uit verschillende bronnen wordt niet alleen getoond bij het uitvoeren van een zoekopdracht – bij elk artikel dat wordt geopend, tonen we tevens de meest gerelateerde items die door middel van zoekstrategieën uit de zoekindex gehaald worden (zonder redactie). Bepaalde zoekopdrachten leiden tot woord-suggesties, die eveneens afgeleid zijn uit de content.

Normaliter werken zulke suggestie-systemen met black-lists (woorden die niet als suggestie getoond mogen worden) of white-lists (enkel woorden suggereren uit een gegeven lijst). Zulke black-lists en white-lists werken echter niet alleen beperkend, ze kosten ook veel tijd en moeite van de redactie (voor het bijhouden van de woordenlijsten), en de kwaliteit van de suggesties is niet altijd even passend bij de inhoud van de site. Door gebruik te maken van de woordenschat die in de dagelijkse routine door de redactie van kidsweek.nl gebruikt wordt, zijn de suggesties kindvriendelijk en niet onnodig beperkend.

Binnenkort (Januari 2013) start een implementatie-traject bij Young&Connected voor het opnemen van de onderwerp-kiezer in de kidsweek.nl website. Spinque biedt in deze de ondersteuning. Een mock-up implementatie is reeds aanwezig.

12 / 16

Page 13: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

7 Conclusie / EvaluatieProject PuppyNews had een totale looptijd van 1 juni 2011 tot 31 december 2012. Het project kwam in eerste instantie trager op gang dan verwacht, mede door de beperkte beschikbaarheid van geschikte bronnen. Het project heeft zich vervolgens uitgestrekt over een langere periode.

De resultaten zijn veelbelovend: een mooie demo applicatie staat online, en goede resultaten zijn behaald voor de classificatie van Nederlandstalige content op kindvriendelijkheid. Daarnaast is als bijprodukt het Young&Connected archief ontsloten voor de nieuwe Kidsweek website en genereren we op basis van dezelfde data-collectie kindvriendelijke zoeksuggesties en gerelateerde artikelen.

Hoe meer kindvriendelijk materiaal toegevoegd wordt, des te beter de kwaliteit van het systeem kan worden. Een logische vervolgstap zou zijn om content van andere kindvriendelijke sites toe te voegen. Ook betere content voor volwassenen kan tot verbeteringen in de classificatie leiden, omdat het trainingsproces dan beter afgesteld kan worden.

Het originele plan om het hele Nederlandstalige internet op te nemen in de opstelgenerator is een te ambitieuze doelstelling gebleken. Een groot deel van het Nederlandse internet voor kinderen is door Spinque geïndexeerd, maar we hebben ons in PuppyNews nog beperkt tot specifieke sites (kidsweek.nl, nl.wikipedia.org).

7.1 Vervolg

Spinque wil graag verder met de resultaten uit dit project. Elke aanbieder van content voor kinderen zou in principe mee kunnen doen aan het project. Graag willen we dan ook in gesprek komen met deze instanties.

Extra content zou bijvoorbeeld kunnen komen van:

– uitgevers van leesboeken (werkstukken maken over een boek dat je gelezen hebt);

– een recentie-site (onderwerpen interessanter maken door meningen van anderen op te nemen);

– foto-sites voor kinderen / kinder-tv / kinder-radio (multimedia toevoegen);

– gespecialiseerde encyclopedieën (Wikipedia vaak nog te moeilijk);

– opgaven-sites (als einde van een oefening een werkstuk maken).

Idealiter zou voor elke site een specifieke opstel-generator gemaakt worden, waarin alle opstelgenerators dezelfde onderliggende collectie zouden gebruiken (en elkaar zo aanvullen).

In een nieuw ge-acquireerd project voor bibliotheek.nl verbeteren we de kwaliteit van de classifier (bijvoorbeeld dankzij een betere balans tussen materiaal voor kinderen en volwassenen, zoals hierboven al aangegeven). In dit vervolgtraject pogen we de classificatie te verfijnen op leeftijdsniveau (in plaats van de keuze tussen “kindvriendelijk” of niet).

13 / 16

Page 14: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

Over Spinque:

Spinque, gevestigd te Utrecht, is in 2009 begonnen als een technology spin-off van het Centrum Wiskunde & Informatica. Spinque ontwikkelt zoektechnologie voor informatiespecialisten en specialistische toepassingsgebieden, waarbij voordelen van database systemen en content zoektechnologie gecombineerd wordt, zodat eenvoudig doelgericht toegang verschaft kan worden tot willekeurige databron. Het Spinqe team combineert hoogwaardige specialistische kennis op het gebied van information retrieval en database systemen. Alle medewerkers hebben een gezonde portie van zowel theoretische als praktische ervaring in deze gebieden. Dit resulteert in praktische en schaalbare applicaties. Hiermee is Spinque hét innovatieve alternatief voor het beantwoorden van complexe zoekvragen in heterogene en domeinspecifieke collecties.

Spinque's missie is het zo dicht mogelijk samenbrengen van "zoeken" en "vinden". Spinque's inspanningen gaan verder dan alleen innovatieve wetenschappelijke resultaten omzetten in de beste zoektechnologie. Want als Spinque weet hoe gezocht moet worden, dan weet u hoe u moet vinden, gebaseerd op uw kennis in uw toepassingsgebied. Spinque gelooft dat zoektechnologie zich aan moet passen aan de gebruiker, en niet andersom.

Search it our way, but find it your way!

Spinque B.V.Adres: Van Musschenbroekstraat 28

3514 XK UtrechtWeb: http://www.spinque.com/

[email protected]: 030-7009705Kvk: 30274729

14 / 16

Page 15: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

Bijlage A: Definitie opstel-templatesDefinitie van template:

/** * Opstel Generator Template 0.2 * * Dit document definieert de velden voor de templates van de opstel generator. * * Revisies: * 0.2 : maak het mogelijk om meerdere strategieen aan een block te koppelen * en elke strategie een titel te geven. * 0.1 : initiele template */{"name": "[naam]", /* naam voor opstel-template (zonder spaties/leestekens) */ "title": "[titel]", /* titel van opstel (mag spaties/leestekens bevatten) */"explanation": "[uitleg]", /* uitleg voor template (wanneer dit template te gebruiken) */"blocks": [{ "name": "naam", /* hoofdstuknaam (zonder spaties/leestekens) */ "title": "titel", /* hoofdstuktitel (mag spaties/leestekens bevatten) */ "explanation": "uitleg", /* uitleg: wat moet er geschreven worden in dit hoofdstuk */ "placeholder": "tekst", /* initiele tekst, om schrijver op gang te helpen */ "search": [ { "strategy": "naam", "title": "titel" } ]},...

],"showImageSearch": true /* of er afbeeldingen-search getoond moet worden */

}

Voorbeeld van template (sport.json):{“name": "sport", "title": "Opstel over sport","explanation": "Dit is een hulpje om een opstel te schrijven over een sport. Als je ....","blocks": [{ "name": "waarom","title": "Mijn favoriete sport","explanation": "Uitleg: waarom heb je deze sport gekozen? speel je zelf een sport?", "placeholder": "begin hier te typen over waarom je de sport zo leuk vind. Hoe ...","search": [

{ "strategy": "dashboard/news01", "title": "Artikelen" } ]},{ "name": "moeilijkheid", "title": "Behendigheid", "explanation": "Uitleg: Is het een moeilijke sport? Wat moet je goed kunnen?","placeholder": "","search": [

{ "strategy": "dashboard/difficult01", "title": "Artikelen" } ]},{ "name": "regels", "title": "Wat zijn de regels?", "explanation": "Uitleg: vertel aan welke regels je je moet houden. Zijn er ...", "placeholder": "","search": [

{ "strategy": "dashboard/rules01", "title": "Artikelen" } ]},{ "name": "favoriet", "title": "Favoriete team/club/persoon?", "explanation": "Uitleg: Heb je een favoriet team, persoon of club? Ben je zelf ...",

15 / 16

Page 16: Eindrapportage PuppyNews - Stimuleringsfonds voor de ...Eindrapportage PuppyNews Datum: January 3, 2013 Auteurs: Wouter Alink, Arjen P. de Vries Versie: final Inhoudsopgave 2 PuppyNews

"placeholder": "","search": [

{ "strategy": "dashboard/favorite01", "title": "Artikelen" } ]}

],"showImageSearch": true

}

Bijlage B: Classifier evaluation log

Evaluating model.. 

=== Detailed Accuracy By Class === 

               TP Rate   FP Rate   Precision   Recall  F­Measure   ROC Area  Class 

                 0.259     0.071      0.634     0.259     0.368      0.594    junior 

                 0.929     0.741      0.725     0.929     0.815      0.594    senior 

Weighted Avg.    0.713     0.525      0.696     0.713     0.671      0.594 

=== Confusion Matrix === 

    a    b   <­­ classified as 

  574 1644 |    a = junior 

  331 4338 |    b = senior

16 / 16