Hergebruik van taal - en spraakdata in e-health

15
Hergebruik van taal- en spraakdata in e- health Remco van Veenendaal projectleider TST-Centrale Ehealth4com Nijmegen 3 oktober 2013

description

Hergebruik van taal - en spraakdata in e-health. Remco van Veenendaal projectleider TST-Centrale Ehealth4com Nijmegen 3 oktober 2013. Onderzoek. Wie van u … Maakt of verzamelt taal - en spraakdata ? ( Bijv . teksten , spraakopnames , videomateriaal ) - PowerPoint PPT Presentation

Transcript of Hergebruik van taal - en spraakdata in e-health

Page 1: Hergebruik  van  taal - en  spraakdata in e-health

Hergebruik van taal- en spraakdata in e-health

Remco van Veenendaalprojectleider TST-Centrale

Ehealth4comNijmegen

3 oktober 2013

Page 2: Hergebruik  van  taal - en  spraakdata in e-health

Onderzoek• Wie van u…

• Maakt of verzamelt taal- en spraakdata?– (Bijv. teksten, spraakopnames,

videomateriaal)

• Deelt taal- en spraakdata met anderen of hergebruikt taal- en spraakdata van anderen?

Page 3: Hergebruik  van  taal - en  spraakdata in e-health

Neelie Kroes: “Data zijn het nieuwe goud.”

Waarom hergebruik?

Daan Roosegaarde: “Delen is het nieuwe hebben.”

Page 4: Hergebruik  van  taal - en  spraakdata in e-health

Ehealth4com en hergebruik• Symposiumwebsite:

– “Ontwikkelingen in de  taal- en spraaktechnologie dragen bij aan toepassingen voor de behandeling en ondersteuning van mensen met een communicatieve beperking. (…) Speciale aandacht gaat uit naar het verzamelen van taal- en spraakdata om geavanceerde e-healthtoepassingen te ontwikkelen, gericht op diagnostiek en behandeling van communicatieve beperkingen.”

• Anders, concreter:– U kunt door de behandeling en ondersteuning van mensen met

een communicatieve beperking bijdragen aan ontwikkelingen in de taal- en spraaktechnologie, bijvoorbeeld door speciale aandacht te schenken aan het verzamelen van taal- en spraakdata.

• En:– De TST-Centrale kan u daarbij helpen. Samen zorgen we er zo

voor dat er geavanceerde e-healthtoepassingen ontwikkeld kunnen worden.

Page 5: Hergebruik  van  taal - en  spraakdata in e-health

Ja, maar…• Geen Big Science

– Big budgets– Big staffs– Big machines – Big laboratories

• Maar “Small Science”– Beperkte budgetten– Kleine organisaties– Geringe commerciële interesse – Grote diversiteit aan behoeften

Page 6: Hergebruik  van  taal - en  spraakdata in e-health

De Taalunie schept kansen• Samenwerking Nederland,

Vlaanderen en Suriname• STEVIN: onderzoek naar en

basistaalmaterialen voor taal- en spraaktechnologie (TST)

• TST-Centrale– Advisering– Beheer en onderhoud– Beschikbaarstelling en

ondersteuning

Page 7: Hergebruik  van  taal - en  spraakdata in e-health

Advisering• Makelen en schakelen: wat is elders

(al) beschikbaar?• Welke standaarden en (open)

formaten?• Welke afspraken met uw

“leveranciers”?– Contracten, sprekerformulieren

• Welke afspraken tussen u en ons?– Samenwerkingsovereenkomst

• Welke afspraken met gebruik(ers)?– Gebruikerslicenties

Page 8: Hergebruik  van  taal - en  spraakdata in e-health

Beheer en onderhoud• Beheer (medio 2013)• Voorbeelden

onderhoud– Updates van

formaatversies– Verbetering

(online) zoekapplicaties

– Aanvulling en verbetering (‘bugfixing’) van data

Page 9: Hergebruik  van  taal - en  spraakdata in e-health

Beschikbaarstelling en ondersteuning

• Licenties (medio 2013)– Excl. webapplicaties– Incl. Google

• Voorbeeldenondersteuning– Gastcolleges– Data op maat– Hulp bij contract met uitgever

Page 10: Hergebruik  van  taal - en  spraakdata in e-health

Beschikbaarstelling ook via Europese CLARIN

• CLARIN werkt aan makkelijke en duurzame toegang tot digitale taaldata en geavanceerde taaltools, waar deze zich ook bevinden

• Taalunie lid van CLARIN ERIC• TST-Centrale verzorgt Nederlands-Vlaams

knooppunt in CLARIN-infrastructuur

Page 11: Hergebruik  van  taal - en  spraakdata in e-health

Taal- en spraakdata voor e-healthtoepassingen

• Corpus Gesproken Nederlands– Trainen spraakherkenning en spraaksynthese– Computerprogramma dat ondersteuning biedt bij het

lezen, spreken en schrijven– Woordvoorspeller bij spreken, voor mensen met een

communicatieve beperking• Cornetto: tekst-naar-pictogram-omzetter

(poster Vandeghinste en Schuurman)• SoNaR: algoritmen uit andere talen testen

met Nederlandstalige data• Zie ook rapporten “TST en communicatieve

beperkingen” (beschikbaar online en in onze stand)

Page 12: Hergebruik  van  taal - en  spraakdata in e-health

Meer taal- en spraakdata (e-health)

• SPACE (IWT-SBO-project Vlaanderen)– Universiteiten Leuven, Gent, Brussel en Antwerpen)

• COPAS (Corpus Pathologische en Normale Spraak)– Opnames Dutch Intelligibility Assessment (DIA),

voorgelezen tekstpassages, zinnen en spontane spraak.

– Geannoteerde opnames van bijna 200 Vlaamse pathologische sprekers en 122 Vlaamse controlesprekers.

• CHOREC (Children's Oral Reading Corpus)– 130 uur spraak afkomstig van 400 Vlaamse

kinderen die teksten en woordenlijsten voorlezen voor leesvaardigheidsontwikkeling en -toetsen.

– Leesstrategie en soorten leesfouten geannoteerd.

Page 13: Hergebruik  van  taal - en  spraakdata in e-health

Meer taal- en spraakdata (kinderen)

• JASMIN-spraakcorpus – Aanvulling op Corpus Gesproken Nederlands – Jongeren, anderstaligen en senioren– Voorgelezen teksten en mens-machinedialogen– STEVIN-project van Radboud Universiteit, K.U. Leuven

en TalkingHome

• BasiLex – wat lezen basisschoolleerlingen? – NWO-project van universiteiten Radboud,

Tilburg, Amsterdam en Leiden)• BasiScript – hoe schrijven

basisschoolleerlingen?– NWO-project van universiteiten Radboud,

Tilburg, Groningen en Amsterdam)

Page 14: Hergebruik  van  taal - en  spraakdata in e-health

Samenvatting• Door bij uw werk aandacht te besteden

aan het verzamelen, bewaren en delen van taal- en spraakdata …

• … kan de taal- en spraaktechnologie zich blijven ontwikkelen …

• … en kunnen toepassingen ontwikkeld worden die bijdragen aan de diagnostiek, behandeling en ondersteuning van mensen met een communicatieve beperking.

• Wij helpen u graag, zodat u vooral ook uw werk goed kunt blijven doen.

Page 15: Hergebruik  van  taal - en  spraakdata in e-health

NederlandBezoekadres Lange Voorhout 212514 EB Den Haag PostadresTST-Centralep/a NTUPostbus 105952501 HN Den HaagNederland

België BezoekadresUniversiteit Antwerpen - Stadscampus (gebouw R)Kamer R2.21Rodestraat 142000 AntwerpenPostadresTST-Centralep/a Universiteit Antwerpen CST, R2.21Prinsstraat 132000 AntwerpenBelgië

Vragen of opmerkingen?

Spreek ons gerust aan of kom langs in onze stand.

Contact@tstcentrale

+31 70 346 95 48http://tst-centrale.org

[email protected]