Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

5

Click here to load reader

description

Dit artikel gaat over het gebruik van smart-indexing om patronen te herkennen in ongestructureerde data en op basis daarvan voorspellingen te doen.

Transcript of Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

Page 1: Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

Predictive analytics: hoe

kunt u patronen herkennen

in ongestructureerde

medische data?

Page 2: Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

2

Wat als u op basis van opgeslagen patiëntengegevens nauwkeurig kunt bepalen welke patiënten een verhoogd risico lopen op bijvoorbeeld

Hepatitis C (een virale leverontsteking waarvan mensen niet altijd weten dat ze ermee besmet zijn)? Glazen-bol-toekomstmuziek?

Dat gelukkig niet; risicogroepen zijn nu al wel te identificeren, maar nog niet nauwkeurig genoeg. Een lijst met risicofactoren (drugsgebruiker of

verhoogde lever-enzymen bijvoorbeeld) is een goede start, maar u mist de groep mensen die niet op deze punten scoren, maar wel een risico

lopen doordat ze bijvoorbeeld vanwege een tatoeage of piercing besmet kunnen zijn geraakt.

Een grote bron aan informatie die vaak nu niet gebruikt wordt, kan hiervoor het verschil maken: de artsenaantekeningen.

Artsenaantekeningen: een rijkdom aan ongestructureerde data

Tussen de 10 en 15 % van de medische gegevens bestaat uit gestructureerde data. Labresultaten bijvoorbeeld en demografische gegevens van

de patiënten, maar ook ICD-10-codes: allemaal gestructureerde gegevens. Het grootste deel (80 tot 95%) van de medische gegevens is echter

ongestructureerd. Radiologierapporten, ontslagbrieven, aantekeningen van artsen, enzovoorts. En hier zit de echte rijkdom aan data, in de

ongestructureerde gegevens. Met een nieuwe technologie (iKnow) kunnen deze grote hoeveelheden ongestructureerde gegevens geanalyseerd

worden. Waardoor bijvoorbeeld een beter inzicht in de behandeling van patiënten ontstaat. Maar er kunnen ook voorspellingen mee gedaan

worden.

Wie valt buiten de boot?

Drugsgebruikers, Hiv-patiënten, mensen die net in een land geweest zijn waar Hepatitis C veel voorkomt, mannen die seks hebben met andere

mannen: allemaal factoren die het risico op Hepatitis C vergroten. Dit zijn gegevens die vastgelegd kunnen zijn van patiënten die onder

behandeling zijn. Maar hiermee bent u er nog niet. Stel dat een patiënt een tatoeage en/of piercing heeft. Een acupunctuur-behandeling heeft

ondergaan, of een tijdje in de gevangenis heeft gezeten, of andere bijzondere levensomstandigheden heeft die de kans op Hepatitis C vergroten?

Gegevens die niet op de standaard vragenformulieren staan, of een ICD-10 hebben. Maar wel in de aantekeningen van de arts kunnen staan. Ook

die teksten kunnen nu meegenomen worden in de analyse van een patiëntendossier.

Top-down of bottom-up?

Met de traditionele tools voor tekstanalyse worden databases gescand op bepaalde woorden en woordgroepen die in een ontologie zijn

opgenomen, zoals “Hiv”, “Hepatitis “C, “seks”, “drugs”. Maar het kost veel tijd om goede woordenlijsten samen te stellen en de resultaten die uit

de analyses komen, zijn vaak ellenlange overzichten van patiënten waarvoor één of meer van die factoren geldt. Handig, maar u mist ook

resultaten omdat u heel gericht met behulp van vastgestelde zoekwoorden gezocht hebt naar patiëntendossiers waarin die elementen

voorkomen: Top-down dus.

Page 3: Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

3

Op zoek naar relaties

De iKnow-technologie werkt precies andersom. Het vertrekt vanuit de data, zonder te weten wat er in een bepaald domein aanwezig is. Het

detecteert alle zinvolle woordgroepen en de relaties tussen die woordgroepen en legt die vast, zonder doel van te voren. Dit proces heet smart-

indexing waarbij de technologie zich richt op de linguïstische representatie van relaties. Meestal zijn dat werkwoordsvormen, soms is het een

zelfstandig naamwoord, afhankelijk van de context waarin het zich bevindt. Zodra de linguïstische representaties van relaties gevonden zijn, zijn

alle andere woorden of woordgroepen zinvolle woordgroepen die verwijzen naar specifieke concepten. Op die manier bouwt de technologie aan

een smart-index.

Bijvoorbeeld in de volgende zin: “Twee patiënten hebben last van maagpijn”. De technologie haalt hier de volgende elementen uit en slaat die op

in de smart-index:

Het concept “twee patiënten”

De relatie “hebben last van”

Het concept “maagpijn”

Zodra u die smart-index op een grote dataset loslaat, kunt u hier handige analyses mee maken en die voor verschillende doeleinden gebruiken.

Elementen ontdekken in het elektronisch dossier van een patiënt

Bijvoorbeeld voor het doorzoeken van een elektronisch patiëntendossier: Uit een toplijst met veel voorkomende woorden in de artsverslagen van

een patiënt gemaakt door de smart-index, blijkt bijvoorbeeld dat het woord pijn door de patiënt veel genoemd wordt, waarbij maagpijn vaker in

zijn dossier voorkomt dan pijn op de borst. Dit geeft een goed startpunt voor een verder onderzoek van het patiëntendossier. Deze resultaten

komen uit de data, en niet door zelf specifiek naar het woord “pijn” te zoeken.

Patiënten identificeren

Een andere bruikbare toepassing van de technologie is het selecteren van patiënten en

patiëntengroepen uit grote datasets met gestructureerde en ongestructureerde gegevens.

Een bestralingsinstituut in Nederland wilde graag meer weten over de werking van een bepaald

diabetesmedicijn tijdens de behandeling van nek- en halskanker. De specifieke vraag was: toon alle

patiënten die metformin gebruiken, getest zijn op diabetes en de diagnose nek-halskanker hebben.

Als er alleen op de medicijnnaam gezocht zou worden, zouden in de zoekresultaten ook de patiënten

voorkomen die gestopt zijn met het medicijn.

Page 4: Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

4

Door de smart-index op de dataset los te laten, kon de zoekvraag verfijnd worden, is er ook informatie uit de artsaantekeningen gehaald en

ontstond er zo een overzicht van de patiënten die aan alle drie de voorwaarden voldoen. Vervolgens kunnen de patiëntencodes aangeklikt

worden die linken naar de zinsneden van de artsaantekeningen waarin die elementen voorkomen.

Patronen herkennen

Maar de techniek kan ook gebruikt worden om predictive models op te bouwen, zoals door een huisartsenpraktijk in België gedaan is, die wilde

onderzoeken welke patiënten een verhoogd risico lopen op het besmet raken met Hepatitis C. De praktijk wilde daarvoor de complete

patiëntendossiers gebruiken. Het grootste deel van de lijst risicofactoren voor deze virale leverontsteking bestaat uit gestructureerde data, zoals

gestegen lever-enzymen. Maar juist andere belangrijke factoren als wel of geen piercing, tatoeage, of gevangenisverblijf staan niet in de

gestructureerde dataset met codes, maar kunnen wel in het ongestructureerde deel van het patiëntendossier voorkomen, in de

artsaantekeningen.

Door de smart-index los te laten op die gegevens en te combineren met de gestructureerde gegevens uit de dossiers, konden meerdere patiënten

als risicovol geïdentificeerd worden. Deze patiënten konden vervolgens getest worden op Hepatitis C. Op deze manier zijn patiënten te

identificeren die voorheen, zonder de analyse van de ongestructureerde gegevens, waarschijnlijk niet als risicovol aangemerkt zouden worden.

Aan de slag met die gegevens!

Wilt u ook aan de slag met de enorme hoeveelheden ongestructureerde medische gegevens die aanwezig zijn binnen uw zorginstelling, uw

zorgregio of uw onderzoeksinstituut? Om patronen te herkennen in ziektebeelden en behandelingen? Of om risicogroepen nauwkeurig vast te

kunnen stellen? En patiënten op tijd te kunnen behandelen? Neem gerust contact met ons op, we kijken graag samen verder naar wat er mogelijk

is.

Ook kunt u onze presentatie van de Zorg & ICT beurs bekijken: 'Het ontsluiten van ongestructureerde medische data'.

Page 5: Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

5

Dit artikel is geschreven door de redactie van InterSystems.

Fotocredits

Glazen bol: Wateropleidingen

Computer: InterSystems presentatie Dirk van Hyfte, Zorg & ICT beurs

Wil je meer informatie? Klik hier om naar ons blog te gaan.