· Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en...

13
Handleiding Collatinus 1 Quick start guide: Bekijk alleen de screenshots en geel gemaakte zinnen 0. inleiding In een Latijnse tekst moet er eerst ‘gelemmatiseerd’ worden om de verbogen woorden bij een woordenboeklemma onder te brengen en ze vervolgens te kunnen tellen en sorteren. Het gratis programma Collatinus van biblissima doet dit in een handomdraai, met een aanvaardbare foutmarge en transparante verantwoording van ambigue attributies en dubbelvormen. Collatinus is mede gebaseerd op het omvangrijke corpus klassieke teksten van L.A.S.L.A. en genereert woordbetekenissen en vorminformatie met bijv. Lewis & Short 1879 en Gaffiot 2016. In de screenshots en in deze handleiding wordt verondersteld dat Collatinus 11.2 is geinstalleerd. Afhankelijk van de windows versie (64 of 32 bit) en het aantal gewenste woordenboeken kan Collatinus gratis worden gedownload van: https://outils.biblissima.fr/en/collatinus/index.php# (Collatinus versie 10 had voordelen die hier niet besproken worden). Een deel van de functies is ook online beschikbaar: https://outils.biblissima.fr/en/collatinus-web/index.php Collatinus 11 wordt in dit voorbeeld gebruikt om een Latijnse tekst te analyseren (het Aeneis pensum 2020) op woordfrequentie. Verondersteld wordt dat een kale tekst (zonder Nederlandse tussenkopjes, liefst ook zonder vers- of paginanummers dus alleen Latijnse woorden) beschikbaar is die met kopieren en plakken naar Collatinus wordt overgezet. Het resultaat kan uiteindelijk, (opnieuw met kopieren en plakken) uit Collatinus naar Word/Excel overgezet om te bewerken, zoals uiteengezet in een aparte handleiding. 1 Collega Jan Bart uit Veenendaal heeft dit programma ontdekt en met de auteur, Philippe Verkerk, samengewerkt om het gebruiksvriendelijker te maken. Heel veel dank hiervoor!

Transcript of  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en...

Page 1:  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een

Handleiding Collatinus1

Quick start guide: Bekijk alleen de screenshots en geel gemaakte zinnen

0. inleidingIn een Latijnse tekst moet er eerst ‘gelemmatiseerd’ worden om de verbogen woorden bij een woordenboeklemma onder te brengen en ze vervolgens te kunnen tellen en sorteren. Het gratis programma Collatinus van biblissima doet dit in een handomdraai, met een aanvaardbare foutmarge en transparante verantwoording van ambigue attributies en dubbelvormen. Collatinus is mede gebaseerd op het omvangrijke corpus klassieke teksten van L.A.S.L.A. en genereert woordbetekenissen en vorminformatie met bijv. Lewis & Short 1879 en Gaffiot 2016.

In de screenshots en in deze handleiding wordt verondersteld dat Collatinus 11.2 is geinstalleerd.

Afhankelijk van de windows versie (64 of 32 bit) en het aantal gewenste woordenboeken kan Collatinus gratis worden gedownload van:

https://outils.biblissima.fr/en/collatinus/index.php#

(Collatinus versie 10 had voordelen die hier niet besproken worden). Een deel van de functies is ook online beschikbaar: https://outils.biblissima.fr/en/collatinus-web/index.php

Collatinus 11 wordt in dit voorbeeld gebruikt om een Latijnse tekst te analyseren (het Aeneis pensum 2020) op woordfrequentie. Verondersteld wordt dat een kale tekst (zonder Nederlandse tussenkopjes, liefst ook zonder vers- of paginanummers dus alleen Latijnse woorden) beschikbaar is die met kopieren en plakken naar Collatinus wordt overgezet. Het resultaat kan uiteindelijk, (opnieuw met kopieren en plakken) uit Collatinus naar Word/Excel overgezet om te bewerken, zoals uiteengezet in een aparte handleiding.

1 Collega Jan Bart uit Veenendaal heeft dit programma ontdekt en met de auteur, Philippe Verkerk, samengewerkt om het gebruiksvriendelijker te maken. Heel veel dank hiervoor!

Page 2:  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een

1. Alfabetische analyse Collatinus bestaat uit twee velden. In het bovenste veld ‘plak’ je de te analyseren Latijnse tekst. In het onderste veld worden de resultaten zichtbaar van de bewerkingen. Deze bewerkingen worden met ‘knoppen’ (pictogrammen) in de menubalk uitgevoerd.

in het bovenste veld plak je de te analyseren tekst.

Na een druk op de knop ‘tandwieltjes’ verschijnen in het onderste veld, in alfabetische volgorde, alle woorden die Collatinus herkent.

2. Frequentie analyseWanneer een Latijnse tekst in het bovenste veld gepakt is kan Collatinus ook analyseren hoe vaak de afzonderlijke woorden voorkomen in die tekst.

De knop ‘telraam’ geeft per woord aan hoe vaak het in deze tekst voorkomt.

Page 3:  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een

Idealiter staat er achter de haakjes twee keer een 0 en is de toeschrijving aan het lemma waterdicht:

132 (132, 0, 0) ĕt, conj. : and, and even; also, even; (et ... et = both ... and);

Dit betekent: et komt 132 keer voor, al deze 132 “strings” (lettercombinaties) kunnen alleen bij het voegwoord ‘et’ horen.

Maar ambigue vormen worden bij verschillende lemma’s ondergebracht :

54 (41, 17, 13) hīc, haec, hoc, pron. : this; these

Betekent: vormen van hic komen 54 keer voor, 41 van deze “strings” (lettercombinaties) behoren met zekerheid tot het aanwijzend voornaamwoord hic/haec/hoc, maar sommige kúnnen ook, bijvoorbeeld, het bijwoord h ī c zijn.

(17 of 13 slaat op verschillende graden van waarschijnlijkheid)

Disclaimer

N.B. Wie niet in de gelegenheid is om “met de hand”alle 54 gevallen van <hic> uit dit pensum toe te wijzen aan hetzij het bijwoord hetzij het voornaamwoord rekent bij gebrek aan beter met het getal vóór de (haakjes). Op deze manier kan wel het verschil tussen hoogfrequent (bijv 3 keer of meer) en laagfrequent (minder dan 3 keer) worden vastgesteld van de meeste woorden in een pensum, de getallen zijn echter niet ‘waterdicht’. Zowel de absolute als de relatieve getallen (percentages) in dit artikel zijn dus slechts bij benadering juist.

Voor uitleg over ambiguiteit van vormen en woorden en hoe computers daarmee rekenen zie: Wilfred E. Major It’s Not the Size, It’s the Frequency: The Value of Using a Core Vocabulary in Beginning and Intermediate Greek https://www.stilus.nl/woorden/major.pdf

Page 4:  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een

3. Lijsten vergelijkingEen van de meest gebruiksvriendelijke en inzicht schenkende functies van Collatinus is Het inlezen van een lijst bekende woorden uit een bestand die in de tekst herkend moeten worden.

de functie “Lire une liste de mots connus’ in het menu “Fichier”2

Alle woorden die Collatinus herkent uit een ingelezen lijst maakt “hij”3 groen in de tekst. De woorden die niet in die lijst staan blijven zwart.

Slechts een enkel woord dat Collatinus überhaupt niet herkent wordt bruin (bijv. unieke neologismen van een poeta doctus of spellingsvarianten), meestal minder dan 1%.

Een ingelezen lijst kan Collatinus echter alleen correct verwerken als deze uitsluitend bestaat uit kale woorden, één woord per regel, zonder spaties, macrons of leestekens. In dit voorbeeld vergelijken we het Aeneis pensum met de 1000 meest frequente woorden uit de L.A.S.L.A.lijst, zoals gepubliceerd op:

https://www.stilus.nl/woorden/stilusfrequentielijstlatijn.xlsx

“Kaalgemaakt” ziet deze lijst er als volgt uit in de Windows app “kladblok”

2 Hoewel het programma ook een Engelse interface kent met zelfs enkele Latijnse woorden werkt in de praktijk de Franse versie beter.3 Met dank aan Annemieke van der Plaat voor de aanhalingstekens bij deze merkwaardige spreektaal gewoonte.

Page 5:  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een

Het kale ‘Collatinusbestand” stilus1015.txt in de map “kalelijsten” heeft deze service al verleend; sla ze op je computer op in een map die je kunt terugvinden.

Het inlezen gaat als volgt:

Klik op Lire une liste de mots connus (of: Verba cognita, afhankelijk van de taal waarmee Collatinus geinstalleerd is) in het menu Fichier of File.

Blader naar de map waar je de kalelijsten hebt opgeslagen:

Klik op openen

Er staat nu een vinkje vóór Lire une liste de mots connus (of: Verba cognita) in het menu.

Door te klikken op het pictogram met de tandwieltjes wordt de tekst uit het bovenste tekstvak vergeleken met de ingelezen lijst:

Uit dit voorbeeld blijkt dus dat aether, summus en adloquor niet tot de 1000 meest frequente woorden behoren uit de L.A.S.L.A. frequentielijst.

Voorbeeld: Een lijst “kaal maken”Als je de tweede kolom uit de stilus excel lijst https://www.stilus.nl/woorden/stilusfrequentielijstlatijn.xlsx

plakt in een editor (hier: het programma kladblok) en opslaat als kaal tekst bestand, stilus1015.txt, heb je de meeste woorden al in bruikbare vorm. Wel moet handmatig:

het streepje voor [-que] weg gehaald worden [a, ab] moet gescheiden worden in één woord a en één woord ab op de volgende regel: er

mogen geen komma’s of spaties gebruikt worden in het kale tekstbestand. Eventuele macrons moeten verwijderd worden. (zie onder)

Page 6:  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een

4. Dekkingspercentage

Het berekenen van het dekkingspercentage bestaat uit de verhouding van alle woorden in een tekst tot het aantal woorden uit een bepaalde lijst. Beter gezegd: het aantal ‘strings’ (lettercombinaties) uit de tekst dat kan worden toegeschreven aan een lemma-woord uit de lijst, dus alle vervoegde of verbogen vormen van dat woord die herkend worden. Collatinus maakt dat zichtbaar door de woorden uit de ingelezen lijst groen te maken, de woorden die niet in die lijst voorkomen zwart. (Alleen de woorden die Collatinus überhaupt niet herkent worden bruin, doorgaans een te verwaarlozen percentage, bijv. woorden die ongebruikelijk gespeld zijn of neologismen etc). Ook als onduidelijk is hoeveel vormen van hic er precies horen bij het voornaamwoord hic,haec,hoc of het bijwoord hīc, kunnen toch alle vormen worden toegeschreven aan de ingelezen lijst en tellen mee in het dekkingspercentage: ze worden groen. Of summo nu van summus,-a,-um komt of van summum,-i is evenmin relevant: beide komen niet voor in de ingelezen lijst en summo blijft dus zwart.

In de bijlage wordt uiteengezet hoe het dekkingspercentage voor het pensum Aeneis 2020 uit zou pakken afhankelijk van de gekozen leerinspanning; het totaal aantal woorden bedraagt 3938. (Het aantal verschíllende woorden is helaas niet vast te stellen zonder ‘handmatig’ ambigue vormen te duiden).

Door Collatinus wordt in het onderste venster het “dekkingspercentage” berekend: het percentage van de herkende vormen uit de ingelezen lijst ten opzichte van het totaal aantal woorden van de tekst. De woorden worden eerst in alfabetische volgorde opgegeven.

Page 7:  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een

5. FrequentiesHoewel van woorden niet altijd met zekerheid vastgesteld kan worden tot welk lemma ze behoren, telt Collatinus hoe vaak een bepaalde string/vorm voorkomt per woord.

Met de knop ‘telraam’ worden de gevonden woorden op frequentie gesorteerd, van laag naar hoog, met hun woordsoort erachter en een Franse of Engelse betekenis (afhankelijk van het gekozen woordenboek Lewis of Gaffiot).

Achter het getal staan tussen haakjes het aantal keren dat zéker tot dit woord behoord en het aantal ambigue vormen. (18,0,0) betekent bijvoorbeeld dat alle 18 keren dat non voorkomt met zekerheid tot het lemma non behoren.

6. Check in WordDoor nu de te onderzoeken pensumtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een menu knop nodig en komen de resultaten in beeld in een venster ‘navigatie’.

Bijvoorbeeld aut komt volgens Collatinus 25 keer voor.

Bij zoeken op [aut] geeft Word 29 resultaten:

Word zoekt immers niet naar woorden maar naar de ‘string’ (lettercombinatie) <a u t> . Wordt vindt de ‘string’ (lettertekencombinatie) <aut> dus óók in incautum (2x), lautis en autem (1x). Als los woord heeft Collatinus terecht 25 keer het voegwoord aut geteld.

En passant stellen we vast dat autem in dit pensum geen ‘basiswoord’ is.

Lees t.z.t ook: het verwerken van de Collatinus resultaten met Word en Excel tot een leerlijst.

Page 8:  · Web viewtekst naar Word te kopieren kun je zelf desgewenst controleren of deze aantallen en atttibuties bij het juiste lemma kloppen. Om in Word te zoeken is Control F5 of een

Bijlage

Dekkingspercentage en leerrendement in het Aeneis pensum

Volgens oudere literatuur zou 80 a 85 % van de woorden van een tekst bekend moeten zijn om de betekenis van onbekende woorden uit de context te kunnen afleiden. In recenter onderzoek naar lezen en woordenschat wordt uitgegaan van 95%, en om met plezier te kunnen lezen zelfs 98 % (Nation). In het Latijn is een dergelijk percentage niet haalbaar voor middelbare scholieren maar naarmate de dekkingsgraad van woorden die ze wel kennen hoger is, hoe succesvoller hun lectuur zal verlopen. Het rendement op de tijdsinvestering van woorden leren moet dan wel ten goede komen aan het concrete pensum waar ze feitelijk mee bezig zijn, zoals bij de examenpensa goed kan worden vastgesteld. Door zichtbaar te maken welke geleerde woorden er daadwerkelijk voorkomen kan hun motivatie aanzienlijk verhoogd worden. Bovendien kan de lijst met maatwerk zo ‘afgesteld’ worden dat bijvoorbeeld alleen de woorden die 3 keer of vaker voorkomen worden geleerd. Met behulp van Collatinus is het mogelijk te berekenen welke leerinspanning het meest reeel is.

De wetenschappelijk verantwoorde lijst Basiswoordenlijst Latijn (Babeliowsky, Pinkster e.a. staatsdrukkerij, https://www.stilus.nl/woorden/babeliowsky.doc telt 1764 woorden en levert uiteraard het hoogste dekkingspercentage op.

leerinspanning lijst Herkend uit 3938 dekkingspercentage1764 Babeliowsky, Pinkster, Basiswoordenlijst 3056 77%1000 LASLA top1000 (stilus) 2645 67%480 200 ‘inhoudswoorden’ +280 structuur* 2788 71%345 >3x Aeneis 2020 2415 60%

* zie VCN artikel

Worden alleen geleerd: de 1000 meest frequente woorden uit de LASLA lijst (stilus1015.txt) dan herkent Collatinus er 2645 van de 3938. Het dekkingspercentage is circa: 67%.

Worden slechts alle 345 woorden geleerd die 3 keer voorkomen in dit concrete pensum Aeneis 2020 dan is het dekkingspercentage circa 60%.

Zoals in het artikel4 In VCN bulletin beschreven gaat mijn voorkeur uit naar een selectie van 480 woorden: alle 280 in dit pensum vaker dan 3 keer geattesteerde “inhoudswoorden” (substantiva, adjectiva & verba) + 200 ‘structuurwoorden’ (overige woordsoorten). Deze structuurwoorden beschouw ik als relatief pensumonafhankelijk en waarvan vele vaker, sommige minder dan 3 keer voorkomen in dit pensum5.

Door Collatinus worden van deze 480 woorden herkend: 2415 van de 3938.

Zo ontstaat een dekkingspercentage van circa 71%. Dit is dus 4% méér (!) dan na het leren van de 1000 meest frequente woorden uit de LASLA selectie, waarvoor twee keer zoveel woorden geleerd zouden moeten worden. Het dekkingspercentage is helaas 6% minder dan na het leren van de voortreffelijke basiswoordenlijst Latijn van Babeliowsky, Pinkster e.a. Maar er hoeven wel 1284 woorden mínder voor geleerd te worden….

4 https://www.stilus.nl/woorden/mb-ce20-artikel.docx 5 Minstens 187 uit de stilus1000 lijst komen daadwerkelijk voor in pensum Aeneis 2020; de ambigue vormen zijn echter niet handmatig gecheckt. 13 andere woorden zijn toegevoegd.