De evolutie van concepten in kranten...De evolutie van concepten in kranten Pim Huijnen & Melvin...
Transcript of De evolutie van concepten in kranten...De evolutie van concepten in kranten Pim Huijnen & Melvin...
De evolutie van concepten
in kranten
Pim Huijnen & Melvin Wevers
Koninklijke Bibliotheek, 20 Januari 2017
Hoe krijg je inzicht in de
veranderende context
waarin concepten in kranten
worden besproken?
Hoe krijg je inzicht in de
veranderende context
waarin concepten in kranten
worden besproken?
Hoe krijg je inzicht in de
veranderende context
waarin concepten in kranten
worden besproken?
Case study: Efficiency
5
1900-1920
‘Efficiency’ in de 20e eeuw
1920-1940
1940-1960
1960-1980
Woordfrequenties binnen
subcorpora op basis van tf-idf
‘Concepten volgen door de tijd’
• Data-driven manier
• Welke woorden gebruikte men
om over bepaalde
concepten/ideeën te praten?
• Hoe kunnen we het rijke KB
corpus hiervoor gebruiken?
Aanpak
• Data: > 600.000
gedigitaliseerde kranten
tussen 1950 en 1990
• Multi-dimensional word-
vector space via Google’s
word2vec (word
embeddings)
• De afstanden tussen woorden
bevat semantische en
syntactische informatie
(Baroni & Kruszweksi, 2014;
Wijaya & Yeniterzi, 2011)
1950 1960 1970
1 model = 10 jaar
40 modellen voor periode
1950-1990
Concepten Traceren
• Concept als een
netwerk van
woorden
• Concepten
Traceren: welke
woorden verwijden
en verschijnen in
het netwerk?
Efficiency
‘Automatisering’
Automatisering~2 1960-1980 in NL nationale en regionale kranten (23.694 documenten)
‘Mechanisatie’
Mechanisatie~2 mechanisering~2 1960-1980 in NL nationale en regionale kranten (8009 documenten)
‘Industrialisatie’
Industrialisatie~2 industrialisering~2 1960-1980 in NL nationale en regionale kranten (13.921 documenten)
Thank you!
• Kenter, Wevers, Huijnen, de Rijke (2015) “Ad Hoc
Monitoring of Vocabulary Shifts over Time”
• Martinez-Ortiz, C.; Kenter, T.; Wevers, M.; Huijnen, P.;
Verheul, J. and van Eijnatten, J. Design and
implementation of ShiCo: Visualising shifting
concepts over time. In Proceedings of the 3rd
International Workshop on Computational History
(HistoInformatics 2016), 2016.
DO-IT-YOURSELF
• Code / how-to-manual is on Github:
• https://github.com/NLeSC/ShiCo
• Models are also on Github
• Easy to integrate into other tools