Automatische bottom-up tekstanalyse: een wereld van verschil
-
Upload
intersystems-benelux -
Category
Data & Analytics
-
view
8 -
download
0
Transcript of Automatische bottom-up tekstanalyse: een wereld van verschil
Automatische bottom-up
tekstanalyse: een
wereld van verschil
2
Binnen organisaties is gemiddeld 30% van de gegevens gestructureerd opgeslagen in databases. Het overgrote deel van de gegevens is echter
verspreid over formulieren, e-mails en bestanden. Hoe haal je nou informatie uit die enorme berg aan gegevens zonder dat het veel geld en
moeite kost? Door de binnen de organisatie aanwezige teksten automatisch te analyseren en de inhoud te categoriseren met een innovatieve
tekstanalyse-tool. Dit kan zeer interessante informatie opleveren, bijvoorbeeld uit artsenverslagen in patiëntendossiers.
Analyse van cijfers...
De afgelopen decennia hebben de ontwikkelingen op het gebied van business intelligence zich voornamelijk toegespitst op getallen en cijfers.
Vooral de financiële sector heeft veel behoefte aan en beschikt over cijfermatige data. Uit die gegevens kan voor hen veel relevante en bruikbare
informatie gehaald worden.
...én letters
In de medische sector wordt ook veel gewerkt met getallen, denk aan laboratorium-resultaten. Maar er wordt niet alleen
gewerkt met getallen. Een groot - en essentieel - deel van de digitaal opgeslagen medische informatie bestaat uit
teksten (artsenverslagen, e-mails, aantekeningen). En die gegevens worden nog niet optimaal gebruikt.
Groeiend aantal branches maakt gebruik van tekstanalyse
In verschillende branches wordt er inmiddels steeds vaker gewerkt met tekstanalyse-tools. Denk bijvoorbeeld aan de
opsporingsdiensten (die zoeken naar subversieve activiteiten en bewijslast), het bankwezen (dossieranalyse voor risico-
inschatting van de leningenportefeuille), marketing (peilen van de stemming over producten en diensten op de social
media), callcentra (analyse van de transcripties van telefoongesprekken), juristen (zoeken naar verbanden tussen
rechtszaken), et cetera.
3
Digitalisering biedt mogelijkheden
Nu er ook in de zorgsector steeds meer gedigitaliseerd wordt, is de vraag naar tools die de teksten in bijvoorbeeld een
patiëntendossier kunnen 'begrijpen', enorm toegenomen. Voor het analyseren van dit soort ongestructureerde gegevens
is een tekstanalyse-tool dan heel bruikbaar.
Automatisch verbanden leggen
Voorheen was het analyseren van teksten alleen mogelijk door naar trefwoorden en woordcombinaties te zoeken.
Hierdoor moest er vooraf bepaald worden waarnaar er gezocht zou gaan worden, vaak aan de hand van een thesaurus of
taxonomie. Met de toepassing die InterSystems ontwikkeld heeft (iKnow), is het ook mogelijk om teksten te analyseren
zonder een vooraf opgestelde thesaurus. De software gaat zelf op zoek naar concepten en analyseert deze vervolgens.
Een enorme vooruitgang.
Van zoeken naar exploreren
Hierin zit het grote verschil met oudere tekstanalyse-toepassingen; in plaats van het automatisch zoeken in
teksten naar woorden, worden de teksten met de iKnow-tool geëxploreerd. Dirk van Hyfte, senior adviseur
Biomedical Informatics van Intersystems. "Bij zoeken start je vanuit een bepaalde voorkeur, een bepaald
onderwerp. Je wilt bijvoorbeeld weten wat er in jouw data over hypertensie te vinden is. Dat is dus een gestuurde
operatie. Bij exploratie ligt het initiatief aan de andere kant, bij de analyse-tool, in ons geval iKnow. Onze tool
geeft op basis van zelf opgebouwde kennis aan wat belangrijk is in de teksten, welke concepten veel naar voren
komen. Een groot verschil met zoeken dus."
4
Het belang van de context en woordgroepen
De iKnow-tekstanalyse-tool onderzoekt woordgroepen en de context daaromheen. "Neem bijvoorbeeld het automatische highlighten in medische
dossiers wat veel gedaan wordt door software-tools. Als je daar goed naar kijkt, zie je direct hoe semantisch fout dat is. De software heeft de
opdracht om overal het woord hypertensie te kleuren. Dat zal in 70 procent van de gevallen best goed gaan, maar in de overige 30 procent dus
niet. Er staat bijvoorbeeld in de tekst: ‘De patiënt heeft geen last van hypertensie’. Of: ‘De patiënt heeft acute pulmonale hypertensie’. Maar dat
is een bepaalde vorm die niet zomaar vergeleken kan worden met een algemene hoge bloeddruk. Daarom zijn die woordgroepen zo belangrijk”,
legt Van Hyfte uit.
Verrassende uitkomsten
Dit bottom-up exploreren van teksten heeft veel voordelen. Onderzoekers stuiten bijvoorbeeld hierdoor op aspecten die
nooit gevonden hadden kunnen worden met een top-down-architectuur, die start vanuit taxonomieën met medische
termen. "Top-down staat voor vooraf gedefinieerde vragen. Daarom kan een datawarehouse alleen antwoord geven op
vragen die van tevoren zijn bedacht en ingebouwd. Bottom-up staat voor onbevooroordeeld, en het exploreren
overlaten aan de tool." Met bottom-up exploratie ontdekt de IT-manager ook wat er nou eigenlijk allemaal in de
dataverzameling zit, dikwijls met verrassende uitkomsten.
Betere data
Tekstanalyse is niet alleen handig voor de categorisering van de gegevens en om te ontdekken wat voor data er nou allemaal aanwezig is binnen
een organisatie. Het is ook een heel bruikbare tool voor het verbeteren van de kwaliteit van de te analyseren teksten. Is bijvoorbeeld bij de
digitalisering alles uit de ruwe files in de database terechtgekomen? En vindt er bij de gegevensinvoer niet te veel copy-paste plaats? Dit kan dan
weer een aanleiding zijn extra aandacht te besteden aan het data-entry-proces.
5
Toepassingen
Wilt u meer weten over de toepassingen van automatische tekstanalyse? Lees dan de tweedelige blog-reeks Automatische analyse van
ongestructureerde gegevens: een schat aan informatie. Hierin behandelen we de verschillende interessantste toepassingen van automatische
tekstanalyse. Of download onderstaand rapport:
Dit artikel is geschreven door de redactie van InterSystems.
Fotocredits: Tekstanalyse, Medische gegevens, Inzichten, Concepten, Uitkomsten
Klik hier om naar ons blog te gaan.