Automatische bottom-up tekstanalyse: een wereld van verschil

Automatische bottom-up

tekstanalyse: een

wereld van verschil

2

Binnen organisaties is gemiddeld 30% van de gegevens gestructureerd opgeslagen in databases. Het overgrote deel van de gegevens is echter

verspreid over formulieren, e-mails en bestanden. Hoe haal je nou informatie uit die enorme berg aan gegevens zonder dat het veel geld en

moeite kost? Door de binnen de organisatie aanwezige teksten automatisch te analyseren en de inhoud te categoriseren met een innovatieve

tekstanalyse-tool. Dit kan zeer interessante informatie opleveren, bijvoorbeeld uit artsenverslagen in patiëntendossiers.

Analyse van cijfers...

De afgelopen decennia hebben de ontwikkelingen op het gebied van business intelligence zich voornamelijk toegespitst op getallen en cijfers.

Vooral de financiële sector heeft veel behoefte aan en beschikt over cijfermatige data. Uit die gegevens kan voor hen veel relevante en bruikbare

informatie gehaald worden.

...én letters

In de medische sector wordt ook veel gewerkt met getallen, denk aan laboratorium-resultaten. Maar er wordt niet alleen

gewerkt met getallen. Een groot - en essentieel - deel van de digitaal opgeslagen medische informatie bestaat uit

teksten (artsenverslagen, e-mails, aantekeningen). En die gegevens worden nog niet optimaal gebruikt.

Groeiend aantal branches maakt gebruik van tekstanalyse

In verschillende branches wordt er inmiddels steeds vaker gewerkt met tekstanalyse-tools. Denk bijvoorbeeld aan de

opsporingsdiensten (die zoeken naar subversieve activiteiten en bewijslast), het bankwezen (dossieranalyse voor risico-

inschatting van de leningenportefeuille), marketing (peilen van de stemming over producten en diensten op de social

media), callcentra (analyse van de transcripties van telefoongesprekken), juristen (zoeken naar verbanden tussen

rechtszaken), et cetera.

3

Digitalisering biedt mogelijkheden

Nu er ook in de zorgsector steeds meer gedigitaliseerd wordt, is de vraag naar tools die de teksten in bijvoorbeeld een

patiëntendossier kunnen 'begrijpen', enorm toegenomen. Voor het analyseren van dit soort ongestructureerde gegevens

is een tekstanalyse-tool dan heel bruikbaar.

Automatisch verbanden leggen

Voorheen was het analyseren van teksten alleen mogelijk door naar trefwoorden en woordcombinaties te zoeken.

Hierdoor moest er vooraf bepaald worden waarnaar er gezocht zou gaan worden, vaak aan de hand van een thesaurus of

taxonomie. Met de toepassing die InterSystems ontwikkeld heeft (iKnow), is het ook mogelijk om teksten te analyseren

zonder een vooraf opgestelde thesaurus. De software gaat zelf op zoek naar concepten en analyseert deze vervolgens.

Een enorme vooruitgang.

Van zoeken naar exploreren

Hierin zit het grote verschil met oudere tekstanalyse-toepassingen; in plaats van het automatisch zoeken in

teksten naar woorden, worden de teksten met de iKnow-tool geëxploreerd. Dirk van Hyfte, senior adviseur

Biomedical Informatics van Intersystems. "Bij zoeken start je vanuit een bepaalde voorkeur, een bepaald

onderwerp. Je wilt bijvoorbeeld weten wat er in jouw data over hypertensie te vinden is. Dat is dus een gestuurde

operatie. Bij exploratie ligt het initiatief aan de andere kant, bij de analyse-tool, in ons geval iKnow. Onze tool

geeft op basis van zelf opgebouwde kennis aan wat belangrijk is in de teksten, welke concepten veel naar voren

komen. Een groot verschil met zoeken dus."

http://bnl.intersystems.com/nl/blog/bid/333563/ongestructureerde-data-analyse-ontdekken-wat-u-niet-weet

http://www.intersystems.com/bnl-nl/onze-producten/ingebedde-technologieen/iknow/

4

Het belang van de context en woordgroepen

De iKnow-tekstanalyse-tool onderzoekt woordgroepen en de context daaromheen. "Neem bijvoorbeeld het automatische highlighten in medische

dossiers wat veel gedaan wordt door software-tools. Als je daar goed naar kijkt, zie je direct hoe semantisch fout dat is. De software heeft de

opdracht om overal het woord hypertensie te kleuren. Dat zal in 70 procent van de gevallen best goed gaan, maar in de overige 30 procent dus

niet. Er staat bijvoorbeeld in de tekst: ‘De patiënt heeft geen last van hypertensie’. Of: ‘De patiënt heeft acute pulmonale hypertensie’. Maar dat

is een bepaalde vorm die niet zomaar vergeleken kan worden met een algemene hoge bloeddruk. Daarom zijn die woordgroepen zo belangrijk”,

legt Van Hyfte uit.

Verrassende uitkomsten

Dit bottom-up exploreren van teksten heeft veel voordelen. Onderzoekers stuiten bijvoorbeeld hierdoor op aspecten die

nooit gevonden hadden kunnen worden met een top-down-architectuur, die start vanuit taxonomieën met medische

termen. "Top-down staat voor vooraf gedefinieerde vragen. Daarom kan een datawarehouse alleen antwoord geven op

vragen die van tevoren zijn bedacht en ingebouwd. Bottom-up staat voor onbevooroordeeld, en het exploreren

overlaten aan de tool." Met bottom-up exploratie ontdekt de IT-manager ook wat er nou eigenlijk allemaal in de

dataverzameling zit, dikwijls met verrassende uitkomsten.

Betere data

Tekstanalyse is niet alleen handig voor de categorisering van de gegevens en om te ontdekken wat voor data er nou allemaal aanwezig is binnen

een organisatie. Het is ook een heel bruikbare tool voor het verbeteren van de kwaliteit van de te analyseren teksten. Is bijvoorbeeld bij de

digitalisering alles uit de ruwe files in de database terechtgekomen? En vindt er bij de gegevensinvoer niet te veel copy-paste plaats? Dit kan dan

weer een aanleiding zijn extra aandacht te besteden aan het data-entry-proces.

5

Toepassingen

Wilt u meer weten over de toepassingen van automatische tekstanalyse? Lees dan de tweedelige blog-reeks Automatische analyse van

ongestructureerde gegevens: een schat aan informatie. Hierin behandelen we de verschillende interessantste toepassingen van automatische

tekstanalyse. Of download onderstaand rapport:

Dit artikel is geschreven door de redactie van InterSystems.

Fotocredits: Tekstanalyse, Medische gegevens, Inzichten, Concepten, Uitkomsten

Klik hier om naar ons blog te gaan.

http://www.freedigitalphotos.net/images/Computer_networks_g351-Mouse_With_Account_p114973.html

http://www.freedigitalphotos.net/images/Healthcare_g355-Doctors_Analyzing_Report_Together_p96725.html

http://www.freedigitalphotos.net/images/Computing_g368-Female_Executive_Looking_At_Laptop_Holding_Mug_p111270.html

http://www.freedigitalphotos.net/images/Communications_and_n_g263-Hand_Holding_Globe_p64289.html

http://www.freedigitalphotos.net/images/Computing_g368-Businessman_With_Digital_Tablet_Pc_p135755.html

http://info.intersystemsbenelux.com/blog

http://bnl.intersystems.com/nl/tekstuele-big-data

http://www.linkedin.com/company/intersystems-benelux

https://twitter.com/InterSystemsBNL

Automatische bottom-up tekstanalyse: een wereld van verschil

Data & Analytics

Transcript of Automatische bottom-up tekstanalyse: een wereld van verschil