Automatische analyse van ongestructureerde gegevens: een schat aan informatie (1/2)

4

Click here to load reader

description

Aan de hand van ‘use cases’ maken we in deze serie de toepassingen concreet van automatische ‘bottom-up’ tekstanalyse van ongestructureerde gegevens.

Transcript of Automatische analyse van ongestructureerde gegevens: een schat aan informatie (1/2)

Page 1: Automatische analyse van ongestructureerde gegevens: een schat aan informatie (1/2)

Automatische analyse

van ongestructureerde

gegevens: een schat

aan informatie (1/2)

Page 2: Automatische analyse van ongestructureerde gegevens: een schat aan informatie (1/2)

2

Bijna 85 procent van de gegevens heeft een ongestructureerde vorm; e-mails, contracten, artsenverslagen en berichten op social media: het zijn

allemaal ongestructureerde gegevens en ze bevatten een schat aan informatie. Denk bijvoorbeeld aan de visies en conclusies van medische

experts op een bepaald vakgebied, of de uitgebreide patiëntenverslagen met een enorme rijkdom aan interessante gegevens. Gegevens worden

echter tegenwoordig in steeds grotere hoeveelheden beschikbaar (denk aan Big Data), èn vullen zich steeds sneller aan. Maar hoe haalt u nu uit

die enorme brei ongestructureerde gegevens snel de juiste en meest relevante informatie? Dat kan met automatische ‘bottom-up’ tekstanalyse.

Aan de hand van vier ‘use cases’ leggen we dit uit en hoe het voor u in de praktijk voordelen oplevert.

Met automatische tekstanalyse zijn vier belangrijke vragen te beantwoorden:

1. Gegevensverkenning: Waar gaat de tekst over?

2. Signalering: Wat is bijzonder en relevant in de tekst?

3. Contentclustering: Welke teksten zijn aan elkaar gerelateerd?

4. Informatievergaring: Welke elementen zijn uit een tekst te halen?

Hoe werkt het in de praktijk?

Dit lijkt vrij abstract, maar aan de hand van een aantal praktische toepassingen van iKnow (de technologie die ongestructureerde gegevens

analyseert) zullen we de mogelijkheden van automatische tekstanalyse concreet maken. In deel I van deze tweedelige blog-reeks komen de

gegevensverkenning- en signaleringsmogelijkheden aan bod. Het tweede deel van de reeks behandelt de contentclustering- en

informatievergaring-mogelijkheden.

Page 3: Automatische analyse van ongestructureerde gegevens: een schat aan informatie (1/2)

3

Gegevens verkennen; waar gaan de teksten over?

Door middel van automatische gegevensverkenning krijgt u inzicht in waar teksten over gaan (welke onderwerpen) en hoe de concepten en

onderwerpen in de tekst aan elkaar gelieerd zijn. AuxiPress (een belangrijk Belgisch media-bedrijf dat veelvuldig ingeschakeld wordt door, onder

andere, politieke partijen) gebruikt iKnow om te analyseren welke merken en organisaties in het nieuws genoemd worden. En het Spaanse

software-bedrijf CysNET heeft iKnow geïntegreerd in hun Badakit tool. Met deze software kunnen hun klanten (zoals de Clinica Universidad de

Navarra) een taxonomie opbouwen van alle bevindingen en diagnoses uit de medische verslagen.

Signalering: ontdekken wat u nog niet weet

Dit is een uitgebreidere vorm van gegevensverkenning. Hiermee wordt precies gekeken wat

de relevantie is van een tekst, of van een verzameling teksten. Het geeft terugkerende

patronen en thema’s visueel weer. Het mooie hieraan is dat hele teksten vrijelijk te

analyseren zijn, de analyse beperkt zich dus niet tot een onderzoek op basis van

voorgedefinieerde woorden.

Reputaties en voorspellingen

De Engelse publishing organisatie PCS bijvoorbeeld maakt gebruik van iKnow om online reputaties te analyseren. Dit doen zij aan de hand van

thema’s op social media die gelieerd zijn aan bepaalde merken, producten of diensten. Hierdoor kunnen brandmangers snel inspelen op

‘negatieve’ online reacties op hun producten of diensten. En zorgverlener Parnassia gebruikt iKnow om in medische verslagen bepaalde woorden

te identificeren die een aanwijzing kunnen zijn dat de mentale gezondheidstoestand van een patiënt verslechtert en dat die persoon een gevaar

voor zichzelf kan gaan lopen. De iKnow-technologie stelt op basis van tekstanalyse als het ware predictive models op die helpen bij

het voorspellen van mentale problemen.

Page 4: Automatische analyse van ongestructureerde gegevens: een schat aan informatie (1/2)

4

Meer weten?

Dit zijn slechts enkele toepassingen van de automatische tekstanalyse-functies. In deel twee komen de toepassingen ‘Contentclustering’ en

‘Informatievergaring’ aan bod. Wilt u meer weten over de achtergrond van de iKnow-technlogie en de werking van automatische tekstanalyse,

lees dan de blog ‘Ongestructureerde Big Data analyseren’. Of download onderstaande whitepaper:

Dit artikel is geschreven door de redactie van InterSystems.

Klik hier om naar ons blog te gaan.

Fotocredits:

Een schat aan informatie

Signalering