Automatische analyse van ongestructureerde gegevens: een schat aan informatie (1/2)
Click here to load reader
-
Upload
intersystems-benelux -
Category
Data & Analytics
-
view
53 -
download
0
description
Transcript of Automatische analyse van ongestructureerde gegevens: een schat aan informatie (1/2)
Automatische analyse
van ongestructureerde
gegevens: een schat
aan informatie (1/2)
2
Bijna 85 procent van de gegevens heeft een ongestructureerde vorm; e-mails, contracten, artsenverslagen en berichten op social media: het zijn
allemaal ongestructureerde gegevens en ze bevatten een schat aan informatie. Denk bijvoorbeeld aan de visies en conclusies van medische
experts op een bepaald vakgebied, of de uitgebreide patiëntenverslagen met een enorme rijkdom aan interessante gegevens. Gegevens worden
echter tegenwoordig in steeds grotere hoeveelheden beschikbaar (denk aan Big Data), èn vullen zich steeds sneller aan. Maar hoe haalt u nu uit
die enorme brei ongestructureerde gegevens snel de juiste en meest relevante informatie? Dat kan met automatische ‘bottom-up’ tekstanalyse.
Aan de hand van vier ‘use cases’ leggen we dit uit en hoe het voor u in de praktijk voordelen oplevert.
Met automatische tekstanalyse zijn vier belangrijke vragen te beantwoorden:
1. Gegevensverkenning: Waar gaat de tekst over?
2. Signalering: Wat is bijzonder en relevant in de tekst?
3. Contentclustering: Welke teksten zijn aan elkaar gerelateerd?
4. Informatievergaring: Welke elementen zijn uit een tekst te halen?
Hoe werkt het in de praktijk?
Dit lijkt vrij abstract, maar aan de hand van een aantal praktische toepassingen van iKnow (de technologie die ongestructureerde gegevens
analyseert) zullen we de mogelijkheden van automatische tekstanalyse concreet maken. In deel I van deze tweedelige blog-reeks komen de
gegevensverkenning- en signaleringsmogelijkheden aan bod. Het tweede deel van de reeks behandelt de contentclustering- en
informatievergaring-mogelijkheden.
3
Gegevens verkennen; waar gaan de teksten over?
Door middel van automatische gegevensverkenning krijgt u inzicht in waar teksten over gaan (welke onderwerpen) en hoe de concepten en
onderwerpen in de tekst aan elkaar gelieerd zijn. AuxiPress (een belangrijk Belgisch media-bedrijf dat veelvuldig ingeschakeld wordt door, onder
andere, politieke partijen) gebruikt iKnow om te analyseren welke merken en organisaties in het nieuws genoemd worden. En het Spaanse
software-bedrijf CysNET heeft iKnow geïntegreerd in hun Badakit tool. Met deze software kunnen hun klanten (zoals de Clinica Universidad de
Navarra) een taxonomie opbouwen van alle bevindingen en diagnoses uit de medische verslagen.
Signalering: ontdekken wat u nog niet weet
Dit is een uitgebreidere vorm van gegevensverkenning. Hiermee wordt precies gekeken wat
de relevantie is van een tekst, of van een verzameling teksten. Het geeft terugkerende
patronen en thema’s visueel weer. Het mooie hieraan is dat hele teksten vrijelijk te
analyseren zijn, de analyse beperkt zich dus niet tot een onderzoek op basis van
voorgedefinieerde woorden.
Reputaties en voorspellingen
De Engelse publishing organisatie PCS bijvoorbeeld maakt gebruik van iKnow om online reputaties te analyseren. Dit doen zij aan de hand van
thema’s op social media die gelieerd zijn aan bepaalde merken, producten of diensten. Hierdoor kunnen brandmangers snel inspelen op
‘negatieve’ online reacties op hun producten of diensten. En zorgverlener Parnassia gebruikt iKnow om in medische verslagen bepaalde woorden
te identificeren die een aanwijzing kunnen zijn dat de mentale gezondheidstoestand van een patiënt verslechtert en dat die persoon een gevaar
voor zichzelf kan gaan lopen. De iKnow-technologie stelt op basis van tekstanalyse als het ware predictive models op die helpen bij
het voorspellen van mentale problemen.
4
Meer weten?
Dit zijn slechts enkele toepassingen van de automatische tekstanalyse-functies. In deel twee komen de toepassingen ‘Contentclustering’ en
‘Informatievergaring’ aan bod. Wilt u meer weten over de achtergrond van de iKnow-technlogie en de werking van automatische tekstanalyse,
lees dan de blog ‘Ongestructureerde Big Data analyseren’. Of download onderstaande whitepaper:
Dit artikel is geschreven door de redactie van InterSystems.
Klik hier om naar ons blog te gaan.
Fotocredits:
Een schat aan informatie
Signalering