Structuur - abd-bvd.be · entertamment eJ"Mronmeot fa!hicn fic film 11nance riô'efOlol nash fonts...

21
1--- f-· l "--. 1---4 Céline Van Damme [email protected] Structuur - Vrije Universiteit Brussel Informatie overload op het web Informatie zoeken op het web Vergelijking huidige classificatietechn ieken documenta 1 ist il1forum2tJ07 CeUne Van Damme l5Mû4--tJJ Pag,L 0 1

Transcript of Structuur - abd-bvd.be · entertamment eJ"Mronmeot fa!hicn fic film 11nance riô'efOlol nash fonts...

~----

1---

f-·

l ~- ~

"--.

1---4

Céline Van Damme

[email protected]

Structuur

-~ Vrije Universiteit Brussel

Informatie overload op het web

Informatie zoeken op het web

Vergelijking huidige classificatietechn ieken documenta 1 ist

il1forum2tJ07 CeUne Van Damme l5Mû4--tJJ Pag,L

"-""""'*""~ ~ ~"" ~.-c~d ~= ~ "~ ~ ~ 0 __,_~ ~

1

l.Informatie overload op het web (1)

• Statische web pagina's • Altijd aanspreekbaar en beschikbaar • Indexeerbaar door meeste zoekmachines • Vormen het visible web

• Dynamische web pagina's • Pagina's worden gecreëerd bij opvraging (uit database) en

verdwijnen daarna (vb. Online Vandale Woordenboek) • Niet indexeerbaar door meeste zoekmachines • Vormen het dark web

l.Informatie overload op het web(2)

• Visible Web • 200 mîljoen pagina's (1997)l 1l

• 800 miljoen pagina's (1998) l1l

• 11,5 miljard pagina's (januari 2005)l1l

• Dark Web • 500 keer visible web (2003) f2 l

2

1~ Informatie overload op het web(3)

Grote invloed social software of Web 2.0 tools

• Lage kost en lage technologiebarrière

• Internetgebruiker: geëvolueerd van een informatieconsument naar een informatiecreator

• Enkele voorbeelden: • Wiki 7 Wikipedia: meer dan 5.300.000 web pagina's [3]

• Blogs: meer dan 71.000.000 blogs geregisteerà bij Technorati[4]

2. Informatie zoeken op het web

• Directories

• Zoekmachines & Ontologies

• Folksonomies

3

2~ Informatie zoeken op het web

• Di recto ries • Zoekmachines & Ontologies • Folksonomies

Definitie

• Taxonomies

• Classificeren van websites in hiërarchische categorieën

• Groep experten

• Navigeren via drill dawn

• Vb. Yahoo Directories, Open Directory Project

4

Voorbeeld

Arta & Hum•nftin ~tlr:liiliCt,.~.

BuaJnna & Econamy m.~~ilill!

Compoblra & Jnœmet ~tœflm.~

"'Y.AHoO!

C::~~r----------~ Entertainment ~~WliJI;,!11:œQ::..

Gowmment .f!ar;;l;;m.l.!bl:. lm. !Sm.

~ ~Uu/n.e::o..~

News&Medl! ~·~~­

Recreation & SPOrt! ~!!ml-~~

Referen~ fl!;mfr,;a:Q ~~

R!Clional ~~.~

~

' Bf"QW!!b!R•g\on(168)

• DvCul!!.!ot91'Çmp!J0.1)

•~I!IT~;

;.dijldOIIal.Catf~

• ,.tg9ml<; CD!!!p!tttion• {~)

·~m

• Butfn!utoB\tf.\ntn4" , Cp!t!rl!!!dV!!(;;;It!o!!!IJJQ.I;

• Clmsmdl'oruln•!Zll

·~ml ·­·~ • E!rtJChllifloodEduc.!tkm/11~~

• pisbnnL•am!ta~­•~ilT"'~­

• &11j5.4.:-UJ

• lob ;one! l!mploym!f!t Rtt;O!,!t!;!!@'

·~(JI!

• L.tll!!!!!!o!!O'I • IJt!Ba!DI

·~~ 'Onpniutlons(U36}

• fœlll:m! fll!)

-~~\

• Sf!opp,lng and Sm!ç!!S

tmra.~~ @ -7 Subcategorie ook komt voor in andere categorieën

2. Informatie zoeken op het web

• Directories • Zoekmachines & Ontologies • Folksonomies

5

Werking Zoekmachine (1)

• Web crawlers doorzoeken het web

• Lijstje van URLs

• Kopiëren en indexeren web pagina

• Afhankelijk soort zoekmachine

• Data bewaren in database

Werking Zoekmachine (2)

• Zoekopdracht gebruiker toetsen aan database

• Genereren van een resultatenlijst

6

Problemen

Intemet community

~ /

/ /~

Betekenis 2

• Zoekopdracht wordt verkeerd geïnterpreteerd

• Web pagina's worden geïndexeerd ais

Opfossing

• Meta data in web pagina plaatsen via - XML: <tite!> abc </titel>

• MAAR <tite!> kan verschillende betekenissen hebben: titel van een boek, film, paper ...

7

Definitie ontology

• beschrîjft de natuurlijke taal van een domein

• bevat concepten en attributen (instances)

• beschrijft hun onderlinge relaties

• beschrijft hun regels

• geschreven in een forme le taal: een taal begrijpbaar voor machines (RDF, OWL)

Een vergelijking ....

• Controlled vocabulary

• Taxonomy = controlled vocabulary + hiërarchische relaties

• Thesaurus = taxonomie met horizontaal gerelateerde terminologie (synoniemen, antoniemen, meroniemen etc,) vb. Wordnet

• Ontology =uitgebreider dan thesaurus

8

Voorbeeld

<rdfs:Ciass rdf:about="&mv;MotorVehicle"> <rdfs:subCiassOf

rdf:resource="&rdfs;Resource"l> </rdfs:Ciass> <rdfs:Ciass rdf:about="&mv;PassengerVehlcle">

<rdfs:subCiassOf rdf:resource="&mv;MotorVehicle"l> </rdfs:Ciass> <rdfs:Ciass rdf:about="&mv;Person">

<rdfs:subCiassOf rdf:resource="&rdfs;Resource"l> </rdfs:Ciass>

Semantische Web

• Belangrijke technologie voorde ontwikkeling van het semantische web web waar alle informatie begrijpbaar en interpreteerbaar is

voor machines

Rijker dan een taxonomie: meer relaties worden blootgelegd zoals meroniem vb. hand is deel van een arm

Bevordert het opzoeken van informatie: zoekmachines zullen veel betere resultaten kunnen genereren aan de gebruikers

9

Problemen

• Ontwikkeling en onderhoud duur en arbeidsintensief

• Groep experts <----> Effectieve gebruikers

• Formele taal schrikt gebruikers af om te participeren in ontwikkeling

2. Informatie zoeken op het web

• Directories

• Zoekmachines & Ontologies

• Folksonomies

'

10

Definitie folksonomy (1)

• Sociaal Classificatiesysteem

• Ontwikkelaars = gebruikers

• Gebruikers mogen hun eigen keywords of tags gebruiken voor het omsclirijven van content: - volgens Amerikaanse studie: 28°/o internet

gebruikers heeft reeds content getagd[sJ

• Vergelijkbaar met keywords toegevoegd door auteur(s) aan een paper

• Het aggregeren van alle tags = vlakke bottom-up taxonomy

• Folksonomy = folk + taxonomy (Thomas Vander Wal[6J)

• Sociale navigatie: informatie vinden via personen met gelijke interesse.

11

Enkele voorbeelden ... ., :

'W' slidAshare

• del.icio.us "" (Gonnotea Youiimi:J • V'

flickr~ dteulike BibSonomy

~ Technoratï En vele andere ...

~ del.icio.us

• Beheren van favoriete websites of bookmarks • Tags worden gebruikt voor het omschrijven van

bookmarks • Tags kunnen door de gebruiker worden geclusterd in

bundels • Feedback • Eike gebruiker heeft zijn ei~en account

• Op basis van tags of bookmarks kunnen personen met gelijke interesses elkaar terugvinden

• Knoppen in browser

',

12

Del..icio.us (2)

Feedback

J:ül slideshar~ u.-a.~::c -;:u :h"l<.<::.. ~"-" (!w!J", ;, !a.<., eorn..:l i". :t llb::. <.f:'.u"M"'

~J~;;>!j..nl':'JW....:!.~"''

y,._.,. _ _,,._~~ Y"<>n·op-,;!' ~<H-1.-';~~ ·~···· ..., ......... l:.t_Ciont __ = .... - ..... ._

-J

... :c~~-·7···--... --~~.,-·.,..···.,..···-,-"" ... ..,..,.....-_, .. -.... -... ~--------= ::.:-1:3

reUIIIIIIIIWinlt~lill

umn·~ dH>;:T• ~!>:llo• l:o' '""~

liiiiï~o ~Hl'Ut*l~--- ....

13

Del..lcio.us (4)

J:Hl slidesharf? isa neal"H'afto9nre & ~-v:;r~s

U;;,:,ro,.~t·~-~~~~uu'l'd!l;,;.,.,<:rltni•l:.tt:h..cdh:...Nl"

~~=..t<.JIDT'm<~.li.l~n.Jl

lou_"" __ ,._~~ ,.,~"''l-t"'~l.'ll.~ . .~::t--.,, Mt<oloonobtb'- a..~ .. ••:4.t.ll':w,_O'I!•o

_,

DeLicio.us (5)

:n~t<~t.·.~r~d!~ t~ctc~-<"" '~' _,_.,...,. ~l',;~o'~t"<<--{<- ".Y>::>'

~a..~bylcpoe··'' ""'· "o\:o-:,o\.t>! ..,.->; ~ ~' ~~,--;.-

~,'~~~~~~/~.ol WC~'1~.

~.,:._~s_.~_:''"·'""' JROXCŒJ~~-~~-~~:; w<\1''1''~:- ~""""'· ë·-...,.,--.r~ -rr,;-3"

'~ ·~

~= ·-­"'" ~==--. ~=­~=-~:E:.. ~=

~~~~~: ~~ f'lllrntA:ttrG.il..dl;lea•Grtli.CI~~~olf1:.-..k"~· 11ft'

~~2~~~ '·~-~v~~ _·r-r~~~~--. -~~Fn:r:_~~~~f?

14

DeLicio.us (6)

.,. ... oui6QIH .. ___ .,.,.,,.,....

;;_;,;:";;;r.;,."~·"'~~ .. r ~li'"' ""'J'fMI

...... ,._ ·-~= "~Üift

~ =-·-ls. ~~ ~= ·-;:.':..-

·-"·~~.tfi_ ... _ i: ~~.:"'- ~. ~,.._~., ... IObv!llllotl1lm'loi,_,I_•....-,I<..,..._.,I~"'I.1::13Jo•U•,.. .. ~ .... -·

~.-·--·--~·-.--"·2:.::.:~·=-:.~.:~::-=:~=--~::-:.~==r:~~~:~.,.·.~

Del. ici o. us (7)

-YMIUI- ......... b]lPM~t.

!Wo~~htU~~~!'JWrl· 1-r::::. , '" -, .· ...,., ~ .. ,... ;· '"''"" ' . "

Tagcloud

15

• del.icio.us Cloud (popular tags) • Thl:sks•IRVdowl-ebtolk9f1'o'tolnlsaerellettl~ty

~~~L~1':1?'1:

aov-ernsmg ajax apple archltectur~ art artcle artJ:Ie-$ auoo blog blCÇQinQ blogs books business ~~r c~ITI\c~

community co-rnputer cookmg c~X.I mh CSS culture t~ataease design development dr/ download educallon emai:

entertamment eJ"Mronmeot fa!hicn fic film 11nance riô'efOlol nash fonts food free rreeware fun funny galttry games google

grapllcs grun gta hardwarE heaHh hlstOfY home housl! howto hlml humor 111u~I:Tatlon Images imported rr.lormaJroo

inspiration internet java javascript JOb! luming lllm:l!)' lttenackS linux mac rrnii!!Uine marketJnQ media mobile mcney

mavies mp3 mUSÎC myspace r:et....'Otl neWS On!Jne OpeOSOUfCe OSX phcto photography photOS pl"loto,t;cp l.)~1p

poocast polttics portroiiD productJY~t;' programming 11~to falls r~i?e reclpes reference re~lon rBsear:::h resources

ruby rucyoor3ib: SCiBOCB Search S8CUrity Se1l !gil ShOp ShOpping Sla!l'l SOCial SOftware spOOs teetl techfloJogy tipS

tools ''"••o travel tutorial uocio~ tv -·' typag"""" ubuntu Video "'"' web web2,0 webdesign n-ebdev wM<1 windows lollorapres.s wt:~rk ~'mhfl\1 youtube

Enkele nadelen

Homoniemen

Synonîemen

Idiosyncratisch taggen

Meervouden

Schrijf-en tikfouten

• Algemene versus gespecialiseerde termen

16

Meervouden

Homoniemen

"' '""'' ""'"' '""'"·" "''"r"'"' arch~ecture art .,,, australia ""'"''· baby borceicno beach berlin irthday black bi>ol<"<ll'•:N~<l!e blue ucoron bw

californie cameraphone ""'"'''Il canada 8•rtÉaÏ~chicago china chnstmas ct:uch city èlouœ oolN concert d'O """"" d~and europe

Id iosynCïatisch taaaen ""'family festival n1rn nond• ower flowers ood france friends fun ~ ~ garden geotagged germany QJn \Il"'"" en halloween h""m!Ï ''"'' holiday

Synoniemen m"" hone,mcon "'"'"""'' house india ~reiano "'"'' ital japan Mi tod0ake

lorîdSC'8pt? ~Qht I!Jré london l<'l$til'9SIU. macro marc me mexiCO mc:xrt;ur: !TIOIJIU~m·1 museum mUSiC n8ÎUf8 ne ne\\.'Y0f """""'~m ne>Heoiand night nikon

flickr~

~ o:e>n paris park party people portrait red ""'" ""''""' rt<:k """" son sanfrancisco scctlar>J sea seattle show sky snow spain spring street

summer ""' sunset syoney taiwan te;as thailand tokyo t·oronto traveltree

0"605 trip Uk "'""" U5a vacation vorlWN"' ''•BsilJnC:c,n water wedding white winter yrJ!!m yr~n. zoo

• Stem ming algoritmes

• Clustering

• Facets

• Folksonomies + Ontologies

17

• Lage kost • Lage cognitieve overhead • Gebruikers = ontwikkelaars • Nieuwe woorden worden direct opgenomen • Gebruikers vinden hun content zeer snel terug • Tags gecreëerd door mensen sluiten veel beter

aan dan deze gecreëerd door automatische creatier7J

3~ Vergelijking hui'dige classificatie­technieken documentalist

• Hiërarchisch - opsommend: v b. DDC

• Analytisch-synthetisch: vb. Colon classificatie 1

Bliss Bibliographie classification

18

Il

Dewey Decimal CJassificatie (DDC}

• Melvil Dewey

• In 200.000 bibliotheken

• 10 hoofdklasses

• 1 hoofdklasse heeft 10 subklasses

• 1 subclasse heeft 10 sectîes

• Arabîsche getallen

• Updates op regelmatîge basîs

DDC <----> Classificatietechnieken Web

• Parallellismen met de dîrectories op www, aileen zijn het aantal categorieën veel kleîner (Open Directory Project 500.000 [SJ)

• Enkel hiërarchîsche relaties

• Een boek kan maar op 1 plaats voorkomen

• Het wordt ge-update door een commîssîe: mist flexibiliteit van folksonomies: gebruikers hebben geen înspraak

l

19

'

Il

Colon Classiftcatie (CC)

• S.R. Ranganathan

• Reactie op beperking van hiërarchische en opsommende classificatietechnieken

• Facet classificatie: alle aspecten van een domein worden verzameld in een soort clusters of facets. De facets worden gebruikt om de boeken te beschrijven

• Personality Matter Energy Space Time

• Bouwt verder op werk Ranganathan

• Facets: - Thing

- Kind

- Part

- Property

- Materiai

- Process

Operation

-· Patient

- Product

- By product

- Agent

- Space

- Time

20

Facets zijn voorafbepaald

Opportuniteit folksonomies

Creatîe van facets = doelstelling FaceTag

Referenties

[1] A. Gulli and A. Slgnorini. (2005) The indexable Web is more than 11.5 billion pages. In Poster proceedings of the 14th international conference on World Wide Web, pages 902-903, Chiba, Japan, ACM Press. [2] P. Lyman,H. R. Varian,K. Searingen,P. Charles, N. Good, L. L. Jordan, and J. Pal. (2003) How much information? Onllne beschlkbaar

[3] Wlkipedia Foundatlon: About Wikipedia. 2007 Onllne beschikbaar op

[5] PEW internet & american Llfe Project (2005) Online News and User-generated Content Dec.2005 [6] Vander Wal, T. (2004). Folksonomy. ·c.

[7] AI-Khallfa, H. S. and Davis, H. C. (2007) Exploring The Value Of Folksonomies For Creating Semantlc l'-1etadata. International Journal on Semantic Web and Information Systems (DSWIS) 3(1) pp. 13-39 [8] SIEVERTS, Eric. (2004). Inhoudelijk toegankelljk maken van hybride blbllotheekcollecties. Paper Konlnklljke bibliotheek Den Haag. 50 p .

21