Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar...

9
Tekst Analyse en Big Data Exploratie van onontgonnen gegevensbronnen Een whitepaper Rick F. van der Lans Onafhankelijk Business Intelligence Analyst R20/Consultancy December 2013 Gesponsord door

Transcript of Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar...

Page 1: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Tekst Analyse en Big Data Exploratie van onontgonnen gegevensbronnen

Een whitepaper Rick F. van der Lans Onafhankelijk Business Intelligence Analyst R20/Consultancy December 2013 Gesponsord door

Page 2: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Copyright © 2013 R20/Consultancy. Alle rechten voorbehouden. InterSystems Caché, InterSystems Ensemble, InterSystems HealthShare, InterSystems DeepSee en TrakCare zijn gedeponeerde handelsmerken van InterSystems Corporation. InterSystems iKnow is een handelsmerk van InterSystems Corporation. Handelsmerken waarnaar in dit document verwezen wordt zijn uitsluitend eigendom van hun respectievelijke eigenaren.

Page 3: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Tekst Analyse en Big Data – Exploratie van onontgonnen gegevensbronnen 1

1 Inleiding – Het analyseren van Big Data-tekst

Big Data voor het versterken van analytische mogelijkheden - Big Data zorgt voor een revolutie in de wereld van de business intelligence en analytics. Gartner1 voorspelt dat Big Data in 2016 tot wel 232 miljard dollar in uitgaven zullen genereren, Wikibon2 beweert dat de inkomsten uit Big Data in 2017 toegenomen zullen zijn tot 47,8 miljard dollar en het McKinsey Global Institute3 geeft aan dat Big Data potentie heeft om de waarde van de Amerikaanse zorgsector te verhogen tot 300 miljard dollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. De doorbraak in Big Data is te danken aan innovatieve analytische mogelijkheden. Voor sommige bedrijven ligt de grootste uitdaging bij het analyseren van enorme hoeveelheden gestructureerde en vooral numerieke gegevens. Dit geldt bijvoorbeeld voor creditcardbedrijven die tussen miljoenen kaarthouders en miljarden transacties fraudepatronen moeten opsporen. Het analyseren van enorme hoeveelheden gestructureerde gegevens vereist wellicht nieuwe softwarestrategieën en -technologie maar het is over het algemeen redelijk rechttoe-rechtaan en goed haalbaar. Maar niet alle Big Data is gestructureerd. Big Data komt voor in allerlei vormen en afmetingen. De grootste uitdaging bij Big Data ligt hem in het feit dat een groot gedeelte van deze gegevens niet gestructureerd is en vaak in de vorm van ongestructureerde tekst beschikbaar is. Denk maar eens aan de gegevens die binnen een normaal bedrijf gebruikt of gegenereerd worden - e-mails, documenten, transcripties van telefoongesprekken, notulen van vergaderingen, enzovoorts. Het grootste deel van deze gegevens is ongestructureerd. Zelfs in een sector die door cijfers beheerst wordt is tekst in overvloed aanwezig. In de commerciële bankwereld bestaan financiële verslagen en de leningenportefeuille vaak uit goed gestructureerde gegevens, maar om de lening te begrijpen moet het gehele dossier doorgelezen worden. Hierin staat de correspondentie, geschreven evaluaties en notities van elk telefoongesprek of vergadering. Om het risico van een leningenportefeuille echt te doorgronden zult u elk leningdossier moeten lezen en begrijpen. In een medische omgeving bestaan er veel gestructureerde gegevensbronnen, zoals het verloop van testresultaten door de tijd en gecodeerde gegevensvelden. De meest waardevolle gegevens staan echter vaak in de nota’s van een specialist. Dit betreft bijvoorbeeld indrukken, informatie uit een gesprek met de patiënt, de onderbouwing van een diagnose of de opdracht voor een test, de conclusies die getrokken zijn uit verschillende testresultaten, en nog veel meer. In de meeste klinische omgevingen bestaan deze uiterst waardevolle aantekeningen uit zeer grote bestanden. Hoewel deze in toenemende mate gedigitaliseerd worden, worden ze nog nauwelijks geanalyseerd.

Het analyseren van tekstgegevens - Voor het analyseren van niet-tekstuele gegevens zijn altijd geavanceerde analytische mogelijkheden beschikbaar geweest. In bijna elke organisatie weet men hoe de eigen, in de loop van de jaren verzamelde gestructureerde gegevens verwerkt kunnen worden tot waardevolle inzichten in de bedrijfsvoering. Hiervoor bestaan talloze rapportage- en analyse-instrumenten. Deze instrumenten en algoritmes moeten natuurlijk nog wat aangepast worden om snel te kunnen werken met Big Data (ze moeten bijvoorbeeld gebruik maken van in-memory-technieken en speciaal voor dit doel gebouwde hardware), maar de algoritmes blijven hetzelfde en zijn bekend.

1 Gartner, oktober 2012; zie http://techcrunch.com/2012/10/17/big-data-to-drive-232-billion-in-it-spending-through-2016/

2 Wikibon, Big Data Vendor Revenue and Market Forecast 2012-21017, 26 augustus 2013; Zie http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2012-2017 3 McKinsey Global Institute, Big Data: The Next Frontier for Innovation, Competition, and Productivity, juni 2011; zie http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation

Page 4: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Tekst Analyse en Big Data – Exploratie van onontgonnen gegevensbronnen 2

Maar hoe zit het met alle tekst uit e-mails, documentbeheerssystemen, logbestanden van call-centers, transcripties van chatberichten of telefoongesprekken met klanten? En hoe zit het met alle externe teksten, zoals blogs, tweets, Facebookberichten en websites met informatie? In de enorme hoeveelheden teksten die elke dag geschreven worden zit een schat aan informatie verborgen. Voor elke organisatie is het de uitdaging om uit deze enorme hoop gegevens waardevolle bedrijfsinzichten af te leiden. Zo kunnen bijvoorbeeld bedrijfsprocessen geoptimaliseerd worden, het niveau van dienstverlening aan klanten verbeterd worden, producten gepersonaliseerd worden en kan de productontwikkeling verbeterd worden. Deze paper biedt een samenvatting van de voordelen en uitdagingen van het analyseren van tekst-Big Data en word de InterSystems iKnow™-techniek besproken. Deze techniek levert een eenvoudiger, minder tijdrovende manier om informatie uit tekstgegevens vrij te maken.

2 Big Data-tekst: De grote onontgonnen gegevensbron

Bedrijfsmatige redenen voor het analyseren van Big Data-tekst - In vrijwel elke sector kan geprofiteerd worden van het analyseren van tekstgegevens, vooral in sectoren waarbij het bewaren van tekst cruciaal is voor de bedrijfsvoering. Dit is het geval bij marketing en reclame, de gezondheidszorg, juridische dienstverlening, de farmaceutische industrie, de media en de onroerend goedsector. Zo is een ziekenhuis bijvoorbeeld mogelijk geïnteresseerd in het analyseren van de beschrijvingen van specialisten in patiëntendossiers om patronen te ontdekken met betrekking tot allergische reacties tegen medicijnen. Een elektronicabedrijf is mogelijk geïnteresseerd in het analyseren van Twitter-berichten om te weten of hun producten besproken worden en of de tweets al dan niet positief zijn (een praktijk die vaak sentimentdetectie genoemd wordt). Transcripten van de logbestanden van een callcenter kunnen geanalyseerd worden op het voorkomen van veelgestelde vragen, of om na te gaan of er in de afgelopen paar weken producten vaker of in een andere context dan normaal besproken worden.

Wat is precies het analyseren van tekst? - Als we alleen maar willen weten hoeveel woorden in een document gebruikt worden of hoe vaak een woord opduikt, is amper "analyse" nodig. Dit kan bepaald worden met een eenvoudig, geheel wiskundig algoritme. Maar hoe zit het als we complexere vragen willen beantwoorden, zoals:

Hoe vaak komen bepaalde symptomen en medicijnen tegelijkertijd voor in patiëntendossiers?

Drukt een tekst een positief of een negatief gevoel uit en op welke concepten is dit gevoel gericht?

Hoeveel teksten behandelen de faillietverklaring van Bank X? Hoeveel teksten hadden maandelijks betrekking op het onderwerp hersenchirurgie? Welke concepten zijn in teksten vaak gekoppeld aan het concept fraude met

betaalkaarten? Welk boek lijkt, met betrekking tot de inhoud, het meest op het boek "Gods and Generals"

van Jeff Shaara en welk boek verschilt het meest? Wat zijn de kenmerken van klantengesprekken die tot escalatie geleid hebben?

Deze vragen zijn veel moeilijker te beantwoorden. Hoe bepaal je bijvoorbeeld of een tekst een positief gevoel uitdraagt? Hoe "meet" je het verschil tussen de inhoud van twee boeken? Dit is het soort vragen waarvoor tekstanalyse gebruikt wordt. Het analyseren van teksten kan eveneens gedefinieerd worden als het afleiden van gestructureeerde gegevens uit ongestructureerde tekst. Als een tekst bijvoorbeeld geanalyseerd wordt op de vraag of deze positief is of niet, is het resultaat een gestructureerde

Page 5: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Tekst Analyse en Big Data – Exploratie van onontgonnen gegevensbronnen 3

gegevenswaarde: de waarde ja of nee. De antwoorden op de eerste en de vierde vraag hierboven leiden ook tot gestructureerde gegevens. Het voordeel van het afleiden van gestructureerde gegevens is dat deze nieuw aangemaakte gestructureerde gegevens eenvoudig gecombineerd kunnen worden met andere gestructureerde gegevensbronnen en met bekende algoritmes verwerkt kunnen worden.

De Index en de Thesaurus - De eerste ontwikkelingen in het proberen te begrijpen van teksten was indexeren. Het indexeren van teksten betekent dat uit een document termen geselecteerd worden die in voldoende mate aangeven wat het onderwerp van het document is, ervoor zorgend dat dit document met een specifieke zoekopdracht teruggevonden kan worden. Indexeren heeft echter beperkingen. Ten eerste is het ontwikkelen van een index tijdrovend - welke woorden moeten geïndexeerd worden? Ten tweede, als de juiste termen niet geïndexeerd worden, kunnen sommige belangrijke en relevanten teksten mogelijk niet gevonden worden of worden mogelijk onjuiste teksten gevonden.

Om de problemen met indexeren te boven te komen is daarom enige tijd geleden een thesaurus geïntroduceerd. Met een thesaurus worden de relaties tussen termen gedefinieerd. Een thesaurus kan in zekere zin gezien worden als een intelligente index. Het resultaat van het toepassen van een thesaurus is dat een nauwkeuriger reeks teksten gevonden worden. Het opzetten en beheren van een thesaurus is echter ook erg tijdrovend. Een thesaurus moet bovendien actueel gehouden worden als nieuwe termen opduiken, als nieuwe kennisdomeinen geïntroduceerd worden, enzovoorts.

Werk vooraf - De meeste tekstanalyse-instrumenten vereisen werk vooraf, zoals het opstellen van een thesaurus. Zulke instrumenten zijn alleen nuttig als er genoeg tijd is om al dit werk uit te voeren. Hoe zit het als er nieuwe en dringende kwesties verschijnen en als de thesaurus hierop niet is voorbereid? Of wat als er nieuwe teksten beschikbaar komen voor analyse en als er direct vragen gesteld moeten worden. Met de meeste tekstanalyseinstrumenten moet vooraf bovendien het doel van de analyseoefening duidelijk zijn. Het instrument wordt in andere woorden geleid door de analist. Hierbij eist de zoektechniek bijvoorbeeld dat eerst één of meerdere woorden ingevoerd worden. Een ander voorbeeld treedt op als patiëntendossiers geanalyseerd worden om nieuwe inzichten te verkrijgen met betrekking tot de effecten van een bepaald medicijn op patiënten met diabetes. Zoals u zich kunt voorstellen is er een andere thesaurus nodig als het doel verandert naar het zoeken van historische patronen in bijwerkingen na chirurgie, zelfs als dezelfde patiënten geanalyseerd worden. Een thesaurus beperkt de analytische vrijheid en als zodanig de mogelijke resultaten.

3 Het exploreren van Big Data-tekst zonder de problemen

Het huidig gebruik van tekstanalyse - Organisaties kunnen profiteren van het analyseren van tekstgegevens. Helaas hebben de meeste organisaties nog nauwelijks ideeën over het analyseren van tekstgegevens. Dit is een gemiste kans. Eén van de belangrijkste redenen waarom organisaties nog geen gebruik maken van Big Data is dat de meeste tekstanalyseinstrumenten en -technologieën tijdrovend voorbereidend werk vragen. Vooraf moet een index, thesaurus en ontologie ontwikkeld worden voordat het echte analytische werk kan beginnen.

De noodzaak van tekstexploratie - Analyse moet de snelheid van het bedrijf kunnen volgen. Voor tekstanalyse betekent dit dat technologie nodig is waarmee tekst geanalyseerd kan worden zonder al het voorbereidende werk. Deze vorm van tekstanalyse wordt tekstexploratie genoemd.

Page 6: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Tekst Analyse en Big Data – Exploratie van onontgonnen gegevensbronnen 4

Een ziekenhuis is een goed voorbeeld van een omgeving waar tekstexploratie gebruikt kan worden. Stel u voor dat een patiënt naar de spoedeisende hulp wordt gebracht. Als doktors snel moeten handelen hebben ze meestal geen tijd om het volledige patiëntendossier te lezen. Wat ze nodig hebben is een samenvatting waarin alle belangrijke aspecten met betrekking tot de patiënt weergegeven worden. Heeft hij diabetes? Heeft hij gewoonlijk een hoge bloeddruk? Welke medicijnen gebruikt hij? Is hij hier eerder geweest? Hiervoor is ter plekke een tekstanalyse nodig. De analyse moet tevens ongeleid zijn, omdat de doktors misschien nog niets weten over deze patiënt. Daarbij mag de analysetechnologie niet de klinisch specialist aansturen, maar andersom. Een ander voorbeeld is het analyseren van tweets. Elke dag worden er nieuwe woorden (in veel gevallen afkortingen) en hashtags bedacht. Het is onmogelijk om een thesaurus met deze termen constant bij te werken. Is er zelfs wel tijd om zoiets te ontwikkelen? Er zijn veel situaties waarin er geen tijd is voor al dit voorbereidende werk. In zo'n geval is tekstexploratie nodig om het gewenste zakelijk inzicht te verkrijgen.

De drie voorwaarden voor tekstexploratie - Tekstexploratie is kortgezegd een vorm van tekstanalyse die voldoet aan de volgende drie voorwaarden:

Geen voorbereiding vooraf: Het zou niet nodig moeten zijn om vooraf thesauri of ontologieën te ontwikkelen voordat begonnen wordt met de analyse. Het zou mogelijk moeten zijn om direct, zonder voorbereidingen met de tekstanalyse te starten, zelfs als de tekst over een nieuw kennisdomein gaat.

Ongeleide analyse: Analisten zouden de tekstanalysetechnologie moeten kunnen

oproepen zonder vooraf een doelstelling te formuleren. De tekstanalysetechnologie moet de tekst in een ongeleide stijl kunnen analyseren.

Zelfbediening: Analisten moeten teksten kunnen analyseren zonder hulp van IT-experts,

hoewel het aansluiten van de tool op bepaalde gegevensbronnen mogelijk wel enige assistentie behoeft.

4 InterSystems’ iKnow-technologie voor het analyseren van Big Data-tekst

De klassieke benadering van tekstanalyse - Instrumenten voor het analyseren van tekst proberen meestal de belangrijke concepten in zinnen te herkennen. In de zin "De globale zoekmarkt wordt opnieuw vormgegeven door nieuwe consument ervaringen" zijn de concepten "globale zoekmarkt" en "nieuwe consument ervaringen" de belangrijkste concepten. De meeste tekstanalyse-instrumenten proberen deze concepten te vinden door te zoeken naar individuele woorden, die het resultaat "consument", "globale", "ervaringen" en "zoekmarkt" opleveren. In deze tekst zijn dit de belangrijkste concepten. Sommige tools zoeken naar zinsdelen met twee of zelfs drie woorden. Het resultaat van deze benadering is echter dat er woorden "verbonden" worden die eigenlijk niet verbonden hadden moeten worden. Neem de volgende zin eens als voorbeeld: "Michael Phelps breekt een wereldrecord". Als er zinsdelen met twee woorden worden geïdentificeerd, bevat het resultaat de concepten "Michael Phelps" en "Phelps breekt". De eerste is misschien wel nuttig, maar de tweede is dat niet. Deze klassiekere benadering garandeert niet dat de woorden die gekoppeld worden, samen het juiste concept vormen.

Page 7: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Tekst Analyse en Big Data – Exploratie van onontgonnen gegevensbronnen 5

Om de zinsdelen te begrijpen moeten ontwikkelaars een thesaurus en ontologie opzetten. Dit is een grote investering in tijd en geld en vereist dat het kennisdomein vooraf bekend is. Voor elk kennisdomein moet een nieuwe thesaurus en ontologie aangemaakt en bijgehouden worden. In de meeste situaties is dit een proces zonder einde, omdat het gebruik van woorden in de loop van de tijd verandert. Er worden nieuwe termen geïntroduceerd en de betekenis van woorden kan veranderen. Neem een voorbeeld als tweets - elke dag worden er nieuwe belangrijke hashtags geïntroduceerd. Ook binnen het BI-domein worden er continu nieuwe termen geïntroduceerd. Wie had er enkele jaren geleden ooit gehoord over de term Big Data?

De InterSystems-benadering van tekstanalyse - De benadering die InterSystems gebruikt voor het analyseren van teksten verschilt van veel andere benaderingen. InterSystems heeft een technologie geïntroduceerd met de naam iKnow. Deze breekt teksten op in zinnen en vervolgens zinnen in concepten en relaties. Bij het ontleden van een zin wordt eerst gekeken naar de relaties binnen een zin. Zo kan de relatie tussen concepten in een zin gelegd worden met werkwoorden, maar ook andere zinsconstructies kunnen relaties aangeven. Door het identificeren van de relaties in een zin is de kans groter dat iKnow de gewenste concepten ontdekt. In de zin "De programmeur vond bugs " beschouwt iKnow bijvoorbeeld de verleden tijd van het werkwoord "vinden" als een relatie die de concepten programmeur en bugs scheidt. In iKnow wordt dit een concept-relatie-concept (CRC)-volgorde genoemd. Hierbij gooit iKnow automatish alle onbelangrijke vulwoorden uit zinnen weg, zoals "de" en "een". Ook andere zinsconstructies kunnen zoals gezegd een relatie aangeven. In het zinsdeel "Zoogdieren zoals olifanten..." bestaat er een relatie tussen “zoogdieren” en “olifanten”. Een andere voorbeeld is "De auto in de showroom vind ik leuk". Hierin vertegenwoordigt het woord "in" een relatie tussen de concepten "auto" en "showroom". iKnow is zo ontwikkeld dat verschillende taalconstructies waarmee relaties worden aangeduid, herkend worden. Als de concepten en relaties uit meerdere woorden bestaan, kan iKnow ze nog steeds herkennen. In de zin "De globale zoekmarkt wordt opnieuw vormgegeven door nieuwe consument ervaringen" ondekt iKnow bijvoorbeeld dat de werkwoordconstructie "wordt opnieuw vormgegeven door" een relatie legt tussen de concepten "globale zoekmarkt" en "nieuwe consument ervaringen". Dit identificatieproces van entiteiten dat snel en onafhankelijk is van kennisdomeinen ontleedt zinnen snel in grafen waarin concepten door middel van relaties aan elkaar gekoppeld zijn. Deze grafenen contextmetadata en frekwenties die iKnow tegelijkertijd verzamelt kunnen gebruikt worden voor uitgebreide analyse binnen een tekst en tussen verschillende tekstblokken. iKnow beperkt zich niet tot het analyseren van eenvoudige zinnenn die bestaan uit CC's en CRC's. Meer complexe zinstructuren bestaand uit meerdere CRC's kunnen ook verwerkt worden. Dit worden CRC-sequenties genoemd. Opmerking: De iKnow-technologie van InterSystems werkt in verschillende talen zoals Nederlands, Engels, Frans, Duits, Portugees en Spaans. Japans en Russisch zijn in ontwikkeling.

Page 8: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Tekst Analyse en Big Data – Exploratie van onontgonnen gegevensbronnen 6

Hoe ondersteunt de iKnow-technologie van InterSystems de drie voorwaarden voor tekstexploratie - iKnow ondersteunt alle drie de voorwaarden voor tekstverkenning zoals beschreven in Hoofdstuk 3:

Geen voorbereiding vooraf: Het is niet nodig voor iKnow een thesaurus of ontologie op te stellen. Teksten uit een kennisdomein of sector kunnen zonder voorbereiding geanalyseerd worden en de belangrijke concepten zullen altijd ontdekt worden.

Ongeleide analyse: iKnow heeft geen doel nodig Er zijn geen zoektermen nodig, zoals

bijvoorbeeld bij zoektechnologie, voordat de tekst geanalyseerd kan worden. iKnow kan teksten op een ongeleide manier analyseren zonder sturing van bovenaf. De resultaten kunnen door de analisten bestudeerd worden en op basis hiervan kunnen ze in een bepaalde richting gaan zoeken.

Zelfbediening: Analisten kunnen gebruik maken van InterSystems DeepSee™ om alle

tekstanalysefuncties van iKnow op te roepen. DeepSee kan gekenmerkt worden als een analysetechniek met zelfbediening, waarmee gebruikers hun eigen rapporten kunnen ontwikkelen en hun eigen analyse kunnen uitvoeren zonder hulp van IT-experts.

iKnow met Big Data gebruiken - De iKnow-technologie van InterSystems is ingebed in InterSystems Caché®, een krachtige database-server. De unieke multidimensionele data-engine van Caché maakt deze technologie de ideale keuze voor het opslaan, beheren en aan zoekopdrachten onderwerpen van alle soorten gegevens, inclusief tekstgegevens. De prestaties en de schaalbaarheid zijn op betrouwbare wijze toegepast in verschillende Big Data-omgevingen. Elke applicatie op basis van Caché kan iKnow oproepen en kan op die manier zowel tekst als gestructureerde gegevens analyseren.

5 Samenvatting

Iedereen is het erover eens, Big Data kan de analytische mogelijkheden van organisaties vergroten. Voor veel organisaties betekent dit door grote hoeveelheden sterk gestructureerde en veelal numerieke gegevens ploegen. In andere woorden, de nadruk ligt vaak op het analyseren van non-tekst en sterk gestructureerde gegevens. In gegevensbronnen met tekstgegevens ligt echter een enorme schat aan informatie verborgen, zoals e-mails, documentbeheersystemen, logbestanden van call centers, transcripties van chatberichten en telefoongesprekken met klanten. En dan hebben we het nog niet eens over externe bronnen, zoals blogs, tweets, Facebookberichten en websites met informatie. Voor de meeste organisaties vormen deze teksten nog altijd een ongebruikte bron van informatie. Voor veel organisaties bestaat de uitdaging erin om uit deze gigantische berg gegevens waardevolle bedrijfsinzichten te extraheren. Dit betreft het optimaliseren van bedrijfsprocessen, het verbeteren van van dienstverlening aan klanten, het personaliseren van producten of het verbeteren van de productontwikkeling. Tekstexploratie is een vorm van tekstanalyse waarmee organisaties tekstgegevens kunnen analyseren met dezelfde snelheid als de bedrijfsvoering. Er is geen of weinig werk vooraf nodig. Teksten kunnen geanalyseerd worden als het bedrijf dat nodig heeft. InterSystems iKnow is een technologische doorbraak gericht op tekstexploratie. Hiermee kunnen organisaties naar behoefte hun Big Data-teksten analyseren voor inzicht in de bedrijfsvoering.

Page 9: Tekst Analyse en Big Data - · PDF filedollar en de waarde van de sector binnen het openbaar bestuur binnen Europa tot 250 miljard Euro. ... alle externe teksten, zoals blogs, tweets,

Tekst Analyse en Big Data – Exploratie van onontgonnen gegevensbronnen 7

Over de auteur Rick F. van der Lans

Rick F. van der Lans is onafhankelijk analist, consultant, auteur en docent gespecialiseerd in data warehousing, business intelligence, data virtualization en database-technologie. Hij werkt voor R20/Consultancy (www.r20.nl), een consultancybedrijf dat hij in 1987 heeft opgericht. Rick is de voorzitter van het jaarlijkse congres European Business Intelligence and Enterprise Data (georganiseerd in Londen). Hij schrijft voor toonaangevende websites zoals B-Eye-Network4. Hij heeft in 2009 de business intelligence-architectuur met de naam Data Delivery Platform geïntroduceerd in een aantal artikelen5, allen gepubliceerd op B-Eye-Network.com. Hij heeft verschillende boeken over SQL geschreven. Zijn populaire inleiding op SQL6 werd gepubliceerd in 1987 en was het eerste Engelstalige boek op de markt dat volledig aan SQL was geweid. Dit boek wordt na meer dan 20 jaar nog altijd verkocht en is in verschillende talen vertaald, zoals het Chinees, het Duits en het Italiaans. Zijn laatste boek7 Data Virtualization for Business Intelligence Systems werd gepubliceerd in 2012.

Kijk voor meer informatie op www.r20.nl, of stuur een e-mail naar [email protected]. U kunt ook met hem in contact komen via LinkedIn en Twitter @Rick_vanderlans.

Over InterSystems Corporation

InterSystems Corporation is opgericht in 1978 en is een privaat softwarebedrijf ter waarde van 463 miljoen dollar, met kantoren in 25 landen, gevestigd in Cambridge, Massachusetts, V.S. Zij leveren het meest toonaangevende platform voor verbonden gezondheidszorg en hun innovatieve producten worden grootschalig toegepast in andere sectoren die software met de beste prestaties en de grootste betrouwbaarheid eisen. Klanten zijn onder andere TD Ameritrade, het Europees ruimtevaartagentschap ESA, het Amerikaanse Department of Veteran Affairs, Johns Hopkins Hospital, de Belgische politie, de Mediterranean Shipping Company en duizenden andere succesvolle bedrijven. Ook maken toonaangevende applicatieontwikkelaars binnen hun eigen producten gebruik van de uitstekende prestaties en betrouwbaarheid van de geavanceerde technologie van InterSystems. Voorbeelden hiervan zijn Epic Systems, Fiserv, GE Healthcare en honderden anderen.

4 Zie http://www.b-eye-network.com/channels/5087/articles/ 5 Zie http://www.b-eye-network.com/channels/5087/view/12495 6 R.F. van der Lans, Introduction to SQL; Mastering the Relational Database Language, vierde uitgave, Addison- Wesley, 2007. 7 R.F. van der Lans, Data Virtualization for Business Intelligence Systems, Morgan Kaufmann Publishers, 2012.