Automatische analyse van ongestructureerde gegevens: een schat aan informatie (2/2)

4

Click here to load reader

description

Aan de hand van ‘use cases’ maken we in dit 2e deel de toepassingen concreet van automatische bottom-up tekstanalyse van ongestructureerde gegevens.

Transcript of Automatische analyse van ongestructureerde gegevens: een schat aan informatie (2/2)

Page 1: Automatische analyse van ongestructureerde gegevens: een schat aan informatie (2/2)

Automatische analyse

van ongestructureerde

gegevens: een schat

aan informatie (2/2)

Page 2: Automatische analyse van ongestructureerde gegevens: een schat aan informatie (2/2)

2

Ongestructureerde gegevens, ze bieden een schat aan informatie. Uit de vele e-mails, artsenverslagen en berichten op social media bijvoorbeeld

zijn zeer interessante inzichten te halen die u kunnen helpen bij uw bedrijfsvoering. Dit informatie vergaren uit ongestructureerde gegevens kan

via een innovatieve technologie, de automatische 'bottom-up' tekstanalyse. Aan de hand van vier ‘use cases’ leggen we in een tweedelige

blogreeks uit hoe deze technologie voor u in de praktijk voordelen kan opleveren.

Verschillende interessante functies

In de eerste blog behandelden we al twee basisfuncties van tekstanalyse: 'Gegevensverkenning' (waar gaat de tekst over?) en 'Signalering' (wat

is bijzonder en relevant in de tekst?). In dit tweede en tevens laatste deel gaan we in op 'Content-clustering’ (welke teksten zijn aan elkaar

gerelateerd?) en 'Informatievergaring' (welke elementen zijn uit een tekst te halen?). Om deze functies concreet te maken, beschrijven we een

aantal praktische toepassingen van iKnow (de technologie die het mogelijk maakt de ongestructureerde gegevens te analyseren).

Content-clustering: automatisch relevante suggesties doen

Met de content-clustering-functie zijn (groepen) documenten te verzamelen die relevant zijn voor een

bepaald profiel. Bijvoorbeeld het aanraden van bepaalde boeken aan een klant van een online boekwinkel.

Of het voorstellen van gerelateerde artikelen als een website-bezoeker een bepaald nieuwsartikel heeft

gelezen. De meeste tekstanalysetechnieken maken hiervoor gebruik van meta-data, gebruikersinformatie

en/of bezoekersgedrag. De iKnow-technologie voegt daar iets heel interessants aan toe: het scant met

behulp van algoritmen de teksten af en identificeert welke documenten bij elkaar horen. Dit kan volledig

automatisch, of met input van de gebruiker.

Hoe werkt dit in de praktijk?

Koorong Books is de grootste verkoper van religieuze boeken in Australië. Het maakt gebruik van de

iKnow-technologie bij het identificeren van duplicaten van de online geplaatste boeken én bij het doen van

leessuggesties aan klanten.

Page 3: Automatische analyse van ongestructureerde gegevens: een schat aan informatie (2/2)

3

Koorong Books kan namelijk niet gebruik maken van de enorme hoeveelheden gebruikersinformatie die grote online boekhandels als Amazon wel

hebben. Daarnaast bedient deze boekhandel een dusdanige niche dat ze geen budget heeft voor het uitgebreid beschrijven van de boeken en het

indelen in categorieën.

Ook de zorgbranche zet automatische content-clustering in om snel relevante informatie te vergaren: Verschillende ziekenhuizen in de Benelux,

Duitsland en de Verenigde Staten maken gebruik van een tool waarmee ze automatisch uit een grote hoeveelheid patiëntenverslagen de meest

geschikte kandidaten voor een 'clinical trial' kunnen halen. Hierbij maakt de iKnow-technologie gebruik van de reeds aanwezige gestructureerde

gegevenseigenschappen en combineert dat met het scannen van vrije tekstvelden op bepaalde (combinaties van) termen.

Informatievergaring: automatisch indelen en extra informatie verzamelen

Met deze functie zijn uit vrije tekst stukjes gestructureerde informatie of meta-data te halen. De grootte van een tumor kan bijvoorbeeld

automatisch gehaald worden uit zinnen als “de diameter van de tumor is 1 cm” of “de geschatte omvang van de tumor is tussen de 1cm en

2cm”. Ook namen en plaatsen zijn uit teksten te halen waarna ze een label krijgen. Bijvoorbeeld bij het identificeren en indelen van

operatieverslagen (laparoscopisch of niet). De iKnow-technologie ondersteunt door middel van de automatische tekstanalyse-techniek bij het

identificeren van relevante termen.

De Engelse online publisher PCS maakt bijvoorbeeld gebruik van iKnow voor een geo-tagging proces waarmee ze coördinaten kunnen toevoegen

aan nieuwsartikelen. Hierdoor worden de artikelen automatisch in de juiste 'lokaal nieuws'-sectie geplaatst. En het Duitse software bedrijf N3

maakt gebruik van de automatische informatievergarings-functie voor de huizenwebsite ImmobilienScout24. Met de techniek kunnen uit de

tekstuele beschrijvingen van de huizen stukjes tekst gehaald worden die nog als meta-data missen waardoor huizenzoekers gerichter kunnen

zoeken.

Page 4: Automatische analyse van ongestructureerde gegevens: een schat aan informatie (2/2)

4

De iKnow-technologie

Het bijzondere aan de in de use cases beschreven iKnow-technologie is onder andere dat het gebruik maakt van een unieke “bottom-up”

tekstanalyse waarbij het focust op wat er in de tekst staat en niet wat er gevonden moet worden. Dit haalt het arbeidsintensieve proces van

identificeren waarnaar gezocht moet worden weg, zoals het vooraf opstellen van woordenlijsten. Wilt u meer weten over de achtergrond van de

iKnow-technlogie en de werking van automatische tekstanalyse, lees dan de blog ‘Ongestructureerde Big Data analyseren’. Of download

onderstaande whitepaper:

Dit artikel is geschreven door de redactie van InterSystems.

Klik hier om naar ons blog te gaan.

Fotocredits:

Clinical Trial

Onderzoek