informatieovervloed een korte geschiedenis
Eric Sieverts
GOopleidingen april 2012
informatiegroei
informatie of data ?
&
informatieinflatie© Foam Amsterdam
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties
aantal tijdschriften
al 260 jaar verdubbeltjaarlijks aantal wetenschappelijkeartikelen elke 14 jaar
al 260 jaar verdubbeltjaarlijks aantal wetenschappelijkeartikelen elke 14 jaar
en aantal tijdschriftenook zo ongeveer
overhead sheetca. 1985
bronnen:• Derek de Solla Price• Gale Directory• Ulrich's• ...
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)
na (exponentiële) groei met factor 100.000neiging tot verzadiging?
NRC 12 maart 2011
10
100
1000
10000
100000
1000000
10000000
100000000
17
20
17
40
17
60
17
80
18
00
18
20
18
40
18
60
18
80
19
00
19
20
19
40
19
60
19
80
20
00
20
20
schatting jaarlijks aantalwetenschappelijke publicaties(Eric Sieverts, 1981-1994)
jaarlijks aantalwetenschappelijke publicaties(NRC-Handelsblad, maart 2011)
exponentiële groei blijkt na 280 jaar toch nog niet afgevlakt
wetenschappers raken niet op?
• meer in china en india• nog meer "publish or perish" • …. ?
publish or perish
©
"what next" voor wetenschappelijk publiceren ?• ook blogs
• ook tweets
• klassieke artikelen ontleed / opgesplitst tot "nanopublicaties":afzonderlijke beweringen die beschreven worden als RDF-tripels (zelfde techniek als voor "linked open data")
DNA variant NG_000007.3:g.70628G>A (Subject) has a frequency (Predicate) of 0.25% (Object). The assertion holds for the Sardinian population Provenance includes authors of the article (Giardine et. al.),the date when the nanopublication was created, et cetera.
voorbeeld
nog meer "items"
Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011) doi:10.1038/ng0411-281
hoeveel doorzoekt eenwebzoekmachine?
een antwoord uit 1996!
Dutch Home Pagenajaar 1993
Dutch Home Pagezomer 1994
1
10
100
1000
10000
100000
1000000
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
aantal miljoenenwebpagina's in grootstezoekmachine(verschillende bronnen)
14 jaar langverdubbelde elke 12 maanden het aantal webpagina's in grootste zoekmachine(s)
milj
oene
n w
ebpa
gina
's
content in hosts als Dialog of LexisNexis
hoeveel doorzoekt eenwebzoekmachine?
latere antwoordengegevens vooral uit:
1998
?
1
10
100
1000
10000
100000
1000000
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
aantal miljoenenwebpagina's in grootstezoekmachine(verschillende bronnen)
milj
oene
n
w
ebpa
gina
's in
zoe
kmac
hine
s
14 jaar langverdubbelde elke 12 maanden het aantal webpagina's in grootste zoekmachine(s)
wet
ensc
happ
elijk
e ar
tikel
en p
er ja
ar
informatieinflatie
2000 Hall & Varian:
gezamenlijk produceren we in een jaar
1,5 exabyte (miljard gigabyte) informatie
(is dat informatie of zijn het data?)
informatieinflatie
2000 Hall & Varian:
gezamenlijk produceren we in een jaar
1,5 exabyte (miljard gigabyte) informatie
(is dat informatie of zijn het data?)
2011 uit een "infographic":gezamenlijk produceren we dat jaar 2 zettabytes : 2 x 1021 bytes(2000 miljard gigabyte)[d.w.z. ruim 300 GB per persoon]
informatieinflatie
ongeveer elk jaar verdubbelt de hoeveelheid bytes die we produceren
is dat groei of inflatie?
• TXT documentje met mijn tekst: 50 kB• videoregistratie van mijn lezing: 500 MBdezelfde informatie(!?) maar 10.000 x zoveel data
informatieinflatie
ongeveer elk jaar verdubbelt de hoeveelheid bytes die we produceren
is dat groei of inflatie?
• berichten op het web worden 100-voudig gerepliceerd, herblogd en geretweet
• van alles maken we ongecoördineerd back-ups [nog eens 300 GB per persoon]
• ...
YouTube groeit met 30 uur per minuut
1051 atomen
2110: ~1051 bits
2010: ~1022 bits
2000: ~1019 bits (1 exabyte)
our yearly data production
??
exponentiële groei blijftvoortduren ?
5 MB harde schijf in 1956
64 GB in 2011
hoe moeten we al die informatie terugvinden?
onze ideeën daarovervolgen een slingerbeweging
yahoo! directory
yahoo! directoryopen directorystartpagina's
lycosaltavista
tagging / folksonomiessemantisch webcontent curation
1990
2012
zoeken ontsluiten
December 2002
het semantisch web
in semantisch web wordt van "alles" betekenis vastgelegd
?semantisch webcontent curationtaxonomies?
it's all"ontsluiting"by another name
Top Related