Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie,...

70
Universiteit Antwerpen, Campus Drie Eiken, IBW Formele ontologieën: een literatuurstudie en een toepassing op citatie- analyse ingediend ter verkrijging van het diploma ‘Gespecialiseerde Studie Informatie- en Bibliotheekwetenschap’ Door Martine Dewulf 19 augustus 2005 Promotor: Prof. Dr. Ronald Rousseau

Transcript of Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie,...

Page 1: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Universiteit Antwerpen, Campus Drie Eiken, IBW

Formele ontologieën: een literatuurstudie en een toepassing op citatie-analyse

ingediend ter verkrijging van het diploma ‘Gespecialiseerde Studie Informatie- en Bibliotheekwetenschap’

Door Martine Dewulf 19 augustus 2005 Promotor: Prof. Dr. Ronald Rousseau

Page 2: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

2

Voorwoord............................................................................................................... 4 Deel 1: Literatuurstudie .............................................................................................. 5

1. Begripsomschrijvingen ........................................................................................ 5 1.1. Ontologie als filosofisch begrip ................................................................. 5 1.2. Ontologie in de kenniswetenschap ........................................................... 6 1.3. De bouwstenen van een ontologie............................................................ 9

1.3.1. De syntax of de zinsbouw van de standaardtalen ............................. 9 1.3.2. De semantiek of de betekenissenleer .............................................. 11 1.3.3. De logica in de talen........................................................................ 12

1.4. Ontologieën als gereedschappen om informatie te ontsluiten ................ 14 1.5. Soorten ontologieën en voorbeelden ...................................................... 19

2. Gebruik van ontologieën ................................................................................... 21 2.1. Het nut van de ontwikkeling van een ontologie .......................................... 21 2.2. Indeling volgens toepassing door Jasper en Uschold................................. 21 2.3. Architectuurmodel van Stuckenschmidt en van Harmelen ......................... 24 2.4. Het semantisch web: situering van ontologieën ......................................... 25

3. Methodologieën voor het ontwerp van een ontologie........................................ 27 3.1. De eerste methodologieën ......................................................................... 27

3.1.1. De CYC-KB methode........................................................................... 27 3.1.2. Uschold en King................................................................................... 28 3.1.3. Gruninger en Fox en de TOVE Methodologie ...................................... 28 3.1.4. Het KACTUS project ............................................................................ 28 3.1.5. SENSUS .............................................................................................. 29 3.1.6. Methontology ....................................................................................... 29

3.1.7. KBSI IDEF5 ............................................................................................. 30 3.2. Methode volgens kenniscreatie van Abou-Zeid.......................................... 30 3.3. Methode voor gedeelde ontologieën op het semantisch web..................... 33 3.4. Hoe ontwikkel je je eerste ontologie? ......................................................... 33

Deel 2 Ontologie voor citatie-analyse ....................................................................... 34 4. Praktische toepassing ....................................................................................... 34

4.1. Doelbepaling en grensafbakening .............................................................. 34 4.2. Hergebruik bestaande ontologieën............................................................ 35

4.2.1. De DAML Ontolgy Library .................................................................... 36 4.2.2. De Ontolingua Server van Stanford University KSL............................. 36 4.2.3. SHOE Ontologies................................................................................. 37

4.3. Opsommen van belangrijke termen............................................................ 37 4.3.1 Citation analysis door Egghe en Rousseau .......................................... 38 4.3.2. Citation indexing door Eugene Garfield ............................................... 38 4.3.3. Dictionary of bibliometrics door Virgil Diodato...................................... 38 4.3.4. Diccionario enciclopédico van Ernesto Spinak..................................... 39

Page 3: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

3

4.3.5. Toward a basic framework for Webometrics van Björneborn & Ingwersen en Sitations, an exploratory study van Ronald Rousseau ........... 39 4.3.6. Begrippenlijst voor citatie-analyse........................................................ 40

4.4. Klassen en klassenhiërarchie definiëren .................................................... 41 4.4.1. De top-down benadering...................................................................... 41 4.4.2. De bottom-up benadering. ................................................................... 41 4.4.3. De middenweg - benadering................................................................ 42 4.4.4. Problemen bij het determineren van de klassen .................................. 42

4.5. Eigenschappen of slots van klassen definiëren.......................................... 44 Problemen bij het bepalen van eigenschappen. ............................................ 44

4.6. Facetten van slots definiëren...................................................................... 44 4.7. Instanties toevoegen .................................................................................. 45 4.8. Besluit......................................................................................................... 45

5. Samenvatting .................................................................................................... 46 Bibliografie ............................................................................................................ 47 Bijlage 1: DAML Ontology Library: Ontology Bibtex.............................................. 52 Bijlage 2 a: De ontologie Bibliographic Data ......................................................... 54

Summary of Bibliographic-Data: ........................................................................ 54 Class hierarchy (38 classes defined): ............................................................ 55 16 relations defined:....................................................................................... 56 25 functions defined:...................................................................................... 56

Bijlage 2 b : inhoud van bibliographic-data.lisp ..................................................... 57 Bijlage 3: Document Ontology (draft) .................................................................... 67

Organization of this Document .......................................................................... 67 Extended Ontologies...................................................................................... 67 Renames ....................................................................................................... 67 Categories ..................................................................................................... 68 Relationships ................................................................................................. 69 Constants....................................................................................................... 69 Inferences ...................................................................................................... 69 Definitions ...................................................................................................... 69 Notes: ............................................................................................................ 70 Change History: ............................................................................................. 70

Page 4: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

4

Voorwoord Wanneer het laatste punt gezet wordt, is er alleen nog maar dankbaarheid. Dat er zoveel mensen zijn die me gesteund hebben. We hebben de eindmeet gehaald! Ik dank in de eerste plaats mijn echtgenoot Wim en de kinderen Bram, Ine en Loes, dat ze mij steunden om deze studie te volgen. En aanspoorden om verder te doen. En het nu wel welletjes vinden. Dit einde is weer het begin van het volgende...(grapje) Uiteraard gaat de meeste dank naar mijn promotor Prof. Dr. Ronald Rousseau, die me van in het begin zinvolle aanwijzingen gaf en met wie de samenwerking zeer aangenaam was. Hij hield me in toom als ik me vergalopeerde en leidde me weer in goede banen als ik de weg kwijt was. Hij beantwoordde ook steeds zeer snel mijn emails, vooral op het einde was dit een opluchting. Hij spoorde mij ook aan verder te zetten als ik het wou opgeven en door zijn waardering en gevatte opmerkingen heb ik de rit gehaald. Marianne Borderé, die met mij deze studie begonnen is, heeft mij zeer waardevolle aanwijzingen gegeven om correct te schrijven. Ook voor de inhoud gaf ze belangrijke opmerkingen en stelde de goede vragen als ik nogal cryptisch de opgedane kennis aan het papier probeerde toe te vertrouwen. Haar interesse naar het volgende stuk werkte aanstekelijk en zette me aan om er elke dag of avond weer in te vliegen. Ine heeft zich ingezet om de figuurtjes goed te krijgen voor deze stuntelaar met Paint, en toen ze ging survivallen nam Bram het van haar over met AutoCad. Ook hier heb ik veel bijgeleerd, die gasten kunnen goochelen met muis en klavier. Tnx. Tot slot wil ik de studenten bedanken die regelmatig vroegen hoe zwaar die loodjes waren, sommige in eenzelfde gekke toestand aangeslagen. Katrien, Annika, nog Katrien, Patricia, Catherine, Hilde, Wim, Charlotte en nog andere, maar vooral Micheline... 't Was toch een fijne tijd, ondanks (of dankzij?) de werkdruk, de informatieoverload en de werken rond Antwerpen.

Page 5: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

5

Deel 1: Literatuurstudie

1. Begripsomschrijvingen In dit hoofdstuk proberen we te schetsen wat onder de term ontologie verstaan wordt en wat de andere begrippen zijn die in die context worden gebruikt. De domeinen waarbinnen die begrippen worden gebruikt zijn de filosofie en de kenniswetenschap.

1.1. Ontologie als filosofisch begrip

Het begrip ontologie is samengesteld uit twee Griekse woorden, τo ỏoν, to oon, het werkwoord “zijn”, met als deelwoord ỏντoς, ontos, “het zijnde” of “bestaande” en λoγoς, logos, het zelfstandig naamwoord “woord”, “leer”. Het algemene begrip leer van het zijnde wordt echter als te absoluut, te algemeen ervaren. Bijgevolg wordt het woord “ontologie” gebruikt als een begripsbepaling voor een deelgebied van het zijnde, een specialisatie. Men maakt een ontologie voor een vakgebied.

In de filosofie is het een hoofddiscipline, naast de ethiek en de metafysica. Op de website “Ontology: a resource for philosophers” vindt men een hele reeks definities van vooraanstaande filosofen. Elke filosoof heeft zijn eigen visie op dit begrip. Filosofen werkzaam in het gebied van de artificiële intelligentie zijn John F. Sowa [Rousseau, 2004] en Barry Smith. John Sowa geeft met zijn definitie al onmiddellijk de link tussen het zijn, taal en logica (Sowa, 1999). Barry Smith komt aan bod bij de kenniswetenschap.

Volgens John F. Sowa is het onderwerp van ontologie de studie van de categorieën van zaken die bestaan of kunnen bestaan in een bepaald domein. Het product van dergelijke studie wordt een ontologie genoemd en is een catalogus van de soorten zaken die verondersteld worden te bestaan in een interessedomein D vanuit het perspectief van een persoon die een taal T gebruikt om te praten over D. De types in de ontologie vertegenwoordigen de predikaten, woordbetekenissen of begrips- en relatietypes van de taal T wanneer ze gebruikt worden om over onderwerpen in het domein D te discussiëren. Een niet-verklaarde logica, zoals een predikatenlogica, conceptuele grafen of KIF1 is ontologisch neutraal. Het legt geen beperkingen op op het onderwerp of op de manier waarop het onderwerp gekenmerkt wordt. Op zich zegt logica niets over alles, maar de combinatie van logica met een ontologie voorziet in een taal die de relaties kan uitdrukken van de eenheden in het interessedomein [Rousseau, 2004].

Nicola Guarino en Pierdaniele Giaretta menen dat ontologie voor filosofen een andere inhoud heeft dan voor wetenschappers uit het vakgebied kenniswetenschap (Guarino & Giaretta, 1995). Zij komen tot zeven mogelijke interpretaties van de term “ontologie”, waarvan de eerste, ontologie als een filosofische discipline, totaal verschilt van de zes andere, die zich voordoen in de domeinen van de kenniswetenschap, kennisrepresentatie, 1Knowledge Interchange Format was created to serve as a syntax for first order logic that is easy for

computers to process. It was intended as an interlingua, rather than a format for human authoring of knowledge, but it has since been more often used for that latter purpose. It was originally created by Mike Genesereth and others participating in the DARPA Knowledge Sharing Project. There have been a number of versions of KIF. en.wikipedia.org/wiki/KIF

Page 6: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

6

artificiële intelligentie, kwalitatief modelleren en van natuurlijke taal verwerking (in het Engels NLP natural language processing). Lassila en McGuinness [2001] voegen er nog volgende domeinen aan toe: bibliotheekwetenschap (Dublin Core), e-commerce, ontologie-ontwikkeling. De zeven interpretaties die Guarino en Giaretta (2005) noteerden zijn de volgende:

1. Ontologie als een filosofische discipline 2. Ontologie als een informeel conceptueel systeem 3. Ontologie als een formeel semantische beschrijving 4. Ontologie als een specificatie van een conceptualisatie 5. Ontologie als een representatie van een conceptueel systeem via een logische theorie 1. gekarakteriseerd door specifieke formele eigenschappen of 2. alleen gekarakteriseerd door specifieke doelen 6. Ontologie gebruikt als een woordenschat door een logisch systeem

7. Ontologie als een meta-niveau van specificatie voor een logische theorie.

“De definities onder twee en drie spreken over een ontologie als een conceptueel en semantisch systeem, terwijl de definities vijf tot en met zeven het over een syntactisch systeem hebben. De definitie vier wordt voorgesteld als de definitie voor het begrip in de artificiële intelligentie, maar die is toch wel problematisch, en we zullen dit verder toelichten,” aldus Guarino en Giaretta (1995) (zie ook pg. 7) . Ze besluiten eigenlijk dat de ontologie volgens definitie twee een kennisbank ondersteunt, volgens definitie drie ook maar op een formele manier (met een computer), volgens defintie vijf is een ontologie een logische theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens zeven is een ontologie een specificatie van een logische theorie. De definitie onder één heeft het over Ontologie met een hoofdletter en zonder lidwoord. Aristoteles definiëerde ontologie reeds als de leer of de wetenschap van het zijn op zich. Nu zouden we dit als een algemene ontologie beschouwen.“

1.2. Ontologie in de kenniswetenschap

Corcho et al. (2003) geven een overzicht van de evolutie die er bestaat in de definities over ontologie binnen het domein van de kenniswetenschappen. Eén van de eerste definities zou gegeven zijn door Neches et al. (1991) en luidt als volgt: “an ontology defines the basic terms and relations comprising the vocabulary of a topic area as well as the rules for combining terms and relations to define extensions to the vocabulary”, wat ikzelf zou vertalen als: “een ontologie definieert de basistermen en relaties binnen de woordenschat van een onderzoeksgebied, alsook de regels om de termen en relaties te combineren en uitbreidingen van de woordenschat mogelijk te maken.”

Thomas Gruber was ook medeauteur met Neches. Hij gaf later de meest geciteerde definitie van ontologie: “an explicit and formal specification of a conceptualization” (Gruber, 1993). Benjamins et al. (1999, p.691) citeren dezelfde definitie, maar voegen er ook nog het woord “shared” (vòòr conceptualization) aan toe. Een conceptualisatie wordt daar uitgelegd als een abstract model voor een fenomeen, dat de relevante begrippen van dit fenomeen identificeert. “Expliciet” betekent dat alle begrippen en de beperkingen op die begrippen

Page 7: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

7

uitdrukkelijk vermeld worden. “Formeel” verwijst naar het feit dat het geheel machine-leesbaar moet zijn.

Volgens de Computational Philosophy Glossary is een conceptualisatie hetzelfde als een abstractie, dat het resultaat is van een proces van vereenvoudiging: iets beschrijven op een meer algemeen niveau dan het niveau van het detail dat men ziet vanuit een andere hoek.

De definitie van Thomas Gruber wordt door Guarino en andere, vooral filosofen, onvolledig bevonden en bekritiseerd. Het probleem ligt in het begrip “conceptualization”: dit is een abstractie die ontstaat in hoofden van mensen. Een ontologie gaat volgens filosofen over de wereld, niet over wat mensen zich van die wereld voorstellen. Volgens Nicola Guarino (1996) is een ontologie niet een specificatie van een conceptualisatie, maar een (mogelijk onvolledige) overeenkomst over een conceptualisatie.

El-Sayed Abou-Zeid als vertegenwoordiger uit de discipline van kennismanagement refereert naar Kassel & Perpette (1998) bij zijn ontleding van het hoofdbestanddeel van een conceptualisatie, namelijk het concept of het begrip (Abou-Zeid, 2003). Een begrip is een complexe eenheid, waarbij drie elementen moeten bepaald worden, namelijk term, notie en ding. De term is het element van representeren, de notie is het intentioneel element, en het ding is het extentioneel element. Zie figuur 1.

figuur 1. : voorstelling van het begrip “begrip”

Omdat ook volgens Guarino (1996) een conceptualisatie vooral over noties gaat, stelt Abou-Zeid dat er een soort metakennis nodig is om de notie en het ding te verbinden. Hij zegt echter niet dat deze verbinding zou moeten kunnen uitgedrukt worden door de term, terwijl dit voor ons juist de functie lijkt van dit element. Deze kennis en de meeste kennis nodig om ontologieën te bouwen is impliciete kennis (in het Engels tacit knowledge) of persoonsgebonden kennis.

Als vertegenwoordiger van de wetenschap kennismanagement legt hij hier de brug met het model van Nonaka en Takeuchi, die stellen dat elke vorm van ontstaan van kennis het gevolg is van vier processen: impliciete kennis ontstaat door socialisatie (gesympathiseerde kennis of meegevoelde kennis) en wordt expliciet gemaakt door externalisatie (conceptuele kennis) dat na het proces van combineren systeemkennis wordt, en na het proces van internaliseren operationele kennis wordt, waarna het door socialisatie weer impliciete kennis wordt (meer hierover op pg. 28). Het verdwijnen van impliciete kennis wordt vooral gevoeld in de bedrijfswereld, als een werknemer het bedrijf verlaat.

Page 8: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

8

figuur 2: Model van Nonaka en Takeuchi (1997) van creëren van kennis

Barry Smith (2003) als vertegenwoordiger van de filosofen die kritiek geven op Gruber, en die tevens onderzoeker is verbonden aan het Gene Ontology project, geeft de volgende definitie en gebruikt daarbij wel de term object, die volgens mij overeenkomst heeft met “ding”, en representatie, of term, maar het element notie is hier niet terug te vinden :

“Ontology is the science of what is, of the kinds and structures of objects, properties, events, processes and relations in every area of reality. For an information system, an ontology is a representation of some pre-existing domain of reality which: (1) reflects the properties of the objects within its domain in such a way that there obtains a systematic correlation between reality and the representation itself (2) is intelligible to a domain expert (3) is formalized in a way that allows it to support automatic information processing”

Een ontologie is een manier om kennis te representeren, net als een taxonomie of een thesaurus. Volgens Davis et al. (1993, p. 17) heeft een kennisrepresentatie vijf kenmerken (zie ook Rousseau [2004] pg. 84-88.):

“Een kennisrepresentatie is een surrogaat, een substituut voor het ding zelf, dat gebruikt wordt, specifiek om over de wereld te denken en niet in eerste instantie om in de wereld te handelen .

Ten tweede is het een verzameling van ontologische overeenkomsten, het is een antwoord op de vraag in welke termen ik over deze wereld moet denken.

Ten derde is het een fragmenttheorie van intelligent nadenken, dat uit drie onderdelen bestaat: de representatie's fundamentele voorstelling van intelligent nadenken gegeven door de representatie, het geheel van gevolgtrekkingen of deductie dat de representatie bekrachtigt en het geheel van gevolgtrekkingen dat de representatie aanbeveelt.

Page 9: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

9

Ten vierde is het een medium voor efficiënte berekeningen, dat is de rekenkundige omgeving waarin denken wordt voltooid.

Ten vijfde is het een manier van menselijke expressie, dat is een taal waarin we dingen zeggen over de wereld.”

Davis et al. halen het voorbeeld van Hayes' ontologie van vloeistoffen aan uit 1978. Hayes zelf schreef een samenvattend artikel over kennisrepresentatie KR, (Hayes, 1999) in de Massachusets Institute of Technology Encyclopedia of Cognitive Science (ook gekend als de MITECS), dat wat meer verheldering brengt in al deze termen. Hij stelt dat “KR formalisms need a precisely defined SYNTAX, a useful SEMANTICS, and a computationally tractable inference procedure”. Syntax is de leer van de zinsbouw, semantics is de leer van de betekenissen, en inference procedure is logica. Deze interessante indeling wordt verder besproken in de bestanddelen van een ontologie.

In de Glossary of knowledge modelling terms wordt het begrip als volgt gedefinieerd: “A partial specification of a conceptual vocabulary to be used for formulating knowledge-level theories about a domain of discourse. The fundamental role of an ontology is to support knowledge sharing and reuse.” De laatste zin komt ook in het artikel van Neches et al. duidelijk naar voor: kennis delen en opnieuw gebruiken zijn drie woorden die overal in de teksten terug te vinden zijn.

In deze verschillende definities komen begrippen als taal, concepten, woordenschat, kennis delen, formeel, syntax, semantiek enzomeer naar voor. Die wijzen op de communicatie tussen mens en machine, machine en machine, en ook tussen mens en mens. Een ontologie wordt ook voorgesteld of geformuleerd in een taal. Omdat ontologieën binnen de kenniswetenschap vooral voor het WWW van belang zijn, behandelen we de talen in relatie met het WWW.

1.3. De bouwstenen van een ontologie

Voortbouwend op de omschrijving van Hayes (MITECS, 1999) van een kennisrepresentatie gaan we op zoek naar de syntax, de semantiek en de logica in ontologieën.

1.3.1. De syntax of de zinsbouw van de standaardtalen Stuckenschmidt en van Harmelen beginnen hun werk over informatie delen op het semantisch web met een beschrijving van de talen en standaarden (2005, pg. 3-10). Het probleem van heterogeniteit ontstaat in drie categorieën: de syntax (bv. data formaat heterogeniteit), de structuur (bv. homoniemen, synoniemen of verschillende eigenschappen in databank tabellen) en de semantiek (bv. de bedoelde mening van termen in een speciale context of toepassing). Ook Corcho et al. (2003) geven een overzicht van talen, gebruikt om ontologieën te bouwen. Brendan en Ronald Rousseau geven ook een goede inleiding van de verschillende standaarden (Rousseau & Rousseau; 2002).

HTML of HyperText Markup Language is de taal om documenten te presenteren op het Wereldwijde Web. Brendan en Ronald Rousseau verduidelijken de term “markup” als een symbool dat tekst markeert, en ze delen die onder in drie verschillende typen, stilistisch, structureel en semantisch (Rousseau & Rousseau, 2002). In feite heeft HTML niets met ontologieën te maken, maar ze is de basistaal van het Wereldwijde Web, ontstaan uit SGML. Daarbij is vooral de structuur van deze taal belangrijk: het is een inkapseling van de tekst in “tags”, waarin de functies uitgelegd worden om die tekst te presenteren. De tags in HTML voegen zelf geen betekenis toe, enkel vorm. Voorbeeld: <heading>hoofdstuk: vrije

Page 10: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

10

tekst</heading>. De tags zijn vooraf vastgelegd door het W3C (World Wide Web Consortium), en kunnen gelezen worden door een browser via het HyperText Transfert Protocol http. Documenten in HTML zijn statisch. De tag-structuur van HTML is ook de basis-structuur van XML en RDF.

XML of eXtended Markup Language is een metataal om structuur aan data te geven. De tags kunnen zelf gecreëerd worden, naargelang de structuur en de velden die men nodig heeft, en worden gedefiniëerd via een Document Type Definition (of DTD) of een XML Schema. Een XML Schema is ook een XML document, dat de geldige waarden van een XML definiëert in de zin van een DTD. Om verschillende XML Schema's te kunnen combineren gebruikt men een NameSpace mechanisme. Documenten kunnen op die manier dynamisch gegenereerd worden. XML beschrijft data op het object-niveau.

RDF of Resource Description Framework heeft de bedoeling om op een simpele manier uitspraken te doen over webpagina’s of webbronnen (uitspraken = beschrijvende logica!). Het gebruikt een XML syntax om informatie op het meta-niveau te beschrijven en de betekenis ervan te definiëren. Het is het eerste niveau om een hiërarchische structuur te kunnen weergeven. Het basis model van RDF is zeer simpel. Elk type van informatie over een bron, die een webpagina of een XML document kan zijn, wordt uitgedrukt in de vorm van een tripel:

(onderwerp, predikaat, voorwerp). Het predikaat (of gezegde of eigenschap) is een tweevoudige relatie, die het onderwerp (of de bron) met een voorwerp verbindt. Het voorwerp kan een data-type zijn, of een andere bron, of een ongedefiniëerde waarde die men literal noemt. Ook kan de waarde vervangen worden door een variabele die een bron vertegenwoordigt, die verder beschreven is door linkende tripels, die beweringen geven over de eigenschappen van de bron, die voorgesteld wordt door de variabele:

(bron, eigenschap, X) (X, eigenschap_1, waarde_1)

...

(X, eigenschap_n, waarde_n)

Een andere eigenschap van RDF is zijn reïficatie-mechanisme dat het mogelijk maakt om een RDF-tripel te gebruiken als een waarde voor de eigenschap van een bron. Door dit mechanisme te gebruiken kunnen we beweringen maken over feiten. ReÎficatie (of concretisering) wordt uitgedrukt door geneste tripels:

(bron_1, eigenschap_1, plaatsvervanger) (plaatsvervanger onderwerp bron_2 (plaatsvervanger predikaat eigenschap_2 (plaatsvervanger, voorwerp, waarde)

Verder laat RDF meerdere waarden toe voor enkelvoudige eigenschappen. Voor dit doel heeft het model drie ingebouwde datatypes, die collecties genoemd worden, namelijk ongeordende lijsten (bag), geordende lijsten (seq) en sets van alternatieven (alt) die in een soort van aggregatie mechanisme voorzien. Inherent aan de structuur van het Web is het mogelijk dat er naamsverwarring ontstaat, wanneer verschillende RDF-modellen door elkaar gebruikt worden om metadata te omschrijven. Daarom worden ook hier Name Spaces gebruikt, en die worden gedefiniëerd door eenmalig te verwijzen naar een Unique Resource Identifier URI, die de naam weergeeft en verbinding maakt met een bron ID die dan gebruikt wordt om elke naam in een RDF specificatie te omschrijven, en de oorsprong van die bepaalde naam te beschrijven:

Page 11: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

11

bron_id:naam

XML en RDF spelen een belangrijke rol in ons doel om informatie te delen. Maar wanneer we een zin willen uitdrukken, bestaat er geen vastgelegde structuur in XML. Als we de volgende zin in XML willen uitdrukken, kan dat op verschillende manieren:

Ronald Rousseau is een docent in kennisrepresentatie

<cursus naam=”kennisrepresentatie”> <docent>Ronald Rousseau</docent> </cursus> <docent naam=”Ronald Rousseau”> <onderricht>kennisrepresentatie</onderricht> </docent> <lesaanbod> <docent>Ronald Rousseau</docent> <cursus>kennisrepresentatie</cursus> </lesaanbod>

Hoewel RDF vaak een taal genoemd wordt, is het eigenlijk een datamodel. RDF kan in de XML syntax weergegeven worden, maar het is belangrijk te begrijpen dat dit niet perse hoeft, omdat RDF domeinonafhankelijk is. Het is aan de gebruiker zijn RDF Schema te bepalen, waarmee hij betekenis legt in het model.

RDF/S, het RDF Schema, is uiteindelijk de eigenlijke taal van de ontologie. De vorige talen waren nodig om tot deze taal of datamodel te komen. Men spreekt ook van een metataal. In het RDF/S maken we de link met de semantiek. Daarom volgen de voorbeelden voor dit model bij de volgende bouwsteen, de betekenissen.

Volgens Eric van den Berg (2005) werd de ontologie-woordenschat aanvankelijk met de DAML en DAML+OIL taal uitgedrukt (DAML staat voor DARPA Agent Markup Language en OIL voor Ontology Inference Layer, DARPA is het Defence Advance Research Projects Agency). Maar er rezen problemen rondom relaties tussen DAML+OIL en RDF, rond cardinaliteit en tegengestelde relaties. Daarom is er nu nog een nieuwe standaard, OWL (Web Ontology Language).

Omdat het verschil in al deze talen vooral ligt in de gebruikte logica, zal dit verder daar besproken worden.

1.3.2. De semantiek of de betekenissenleer Een ontologie bestaat meestal niet op zich, maar ondersteunt een grote hoeveelheid aan data, die opgeslagen wordt in een kennisbank (knowledge base). Noy en McGuinness beschrijven hoe een ontologie is opgebouwd: “het is een beschrijving van begrippen (classes, concepts, objects) in een domein van onderzoek, met daarbij eigenschappen (slots, properties) die de karakteristieken of attributen van elk begrip beschrijven, evenals beperkingen (facets) op die eigenschappen. Vertegenwoordigers van de klassen zijn instanties. Een ontologie samen met een set van individuele instanties en/of klassen vormt een kennisbank. In de praktijk is er maar een fijne lijn waar de ontologie eindigt en de kennisbank begint.” (Noy & McGuinness, 2001).

De betekenis of semantiek van de begrippen ligt dus vervat in de klassen, objecten en eigenschappen. In deze beschrijving vinden we geen relaties terug. De relatie is hier de

Page 12: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

12

eigenschap, zoals we ook al zagen in het RDF model (bron, eigenschap, variabele) of (onderwerp, predikaat, voorwerp).

Stuckenschmidt en van Harmelen (2005, pg. 45-47) geven de definities van een terminologische kennisbank (of ontologie), klassen, objecten en relaties als volgt:

Een terminologische kennisbank is een tripel T = (K, R, O) met K is een set van klasse definities, R is een set van relatie definities en O is een set van object definities. Elementen van O worden ook instanties genoemd, elementen van R worden ook eigenschappen genoemd. Een klasse definitie is een axioma van één van de volgende vormen:

k ≡ (o1, ...on) waar k een klasse definitie is en o1, ...on object definities zijn k1 � k2 met k1 en k2 klasse definities (� lees als : is een deel van, is een subklasse van... ≡ lees als is identiek aan, is gedefiniëerd als...) Verder is de universele klasse genoteerd als T. Objecten van hetzelfde type komen normaal voor in gelijkaardige omstandigheden, waarbij ze een zekere relatie met elkaar hebben. Een relatie definitie is een axioma van één van de volgende vormen:

r � (k1, k2) waar r een rol definitie is en k1 en k2 klasse definities zijn r1 � r2 met r1 en r2 rol definities

De universele rol is gedefiniëerd als T x T. Een object definitie is een axioma van één van de volgende vormen:

o : k met k is een klassedefinitie en o is een individue (o1, o2) : r, waar r een relatie definite is en o1, o2 object definities zijn (lees : als : waarvoor geldt...)

1.3.3. De logica in de talen Elke taal heeft ook een logica. Kan je de logica zomaar afzonderen, zoals Hayes het stelt? Volgens Etienne Vermeersch is de logica verbonden aan de syntax. “In de logische syntax ziet men af van elke semantiek. Een voorbeeld hiervan is de propositielogica.” (Vermeersch, 2005).

Met RDF maken we beweringen over bronnen. Een propositie is hetzelfde als een bewering, en die heeft een onderwerp, gezegde en object. Een bewering kan waar of vals zijn. Niet alle zinnen zijn beweringen. Zo is “eet je bord leeg” geen bewering. De voorbeelden en uitleg komen uit de RDF Primer (Manola & Miller, 2004) en de RDF Vocabulary Description Laguage 1.0 : RDF Schema (Brickley & Guha, 2004).

bijvoorbeeld De webpagina http://www.example.org/index.html heeft een creator met de naam Jan Desmet.

Het onderwerp is de URL http://www.example.org/index.html, het predikaat of gezegde is creator en het object is Jan Desmet.

Bronnen worden ingedeeld in Klassen (Classes). Volgende termen zijn mogelijke Klassen in RDF: rdfs:Resource, rdfs:Class, rdfs:Literal, rdfs:Datatype, rdf:XMLLiteral, rdf:Property. Alle

Page 13: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

13

bronnen zijn instanties van de klasse rdfs:Resource. De klasse rdfs:Class is een instantie van de klasse rdfs:Class.

Volgende termen zijn eigenschappen (Properties): rdfs:range, rdfs:domain, rdf:type, rdfs:subClassOf, rdfs:subPropertyOf, rdfs:label, rdfs:comment. We zien hier het verschil in notatie tussen een klasse en een eigenschap: een klasse begint altijd met een hoofdletter. Dit wordt ook aanbevolen in Protégé, het werktuig dat we gebruiken in deel 2.

Een RDF Schema is nodig om zaken te beschrijven die we in die bronnen terugvinden. Volgende termen zijn eigenschappen (Properties): rdfs:range, rdfs:domain, rdf:type, rdfs:subClassOf, rdfs:subPropertyOf, rdfs:label, rdfs:comment.

Maar deze verzameling is te zwak om bronnen gedetailleerd te beschrijven. We komen in de problemen als we bijvoorbeeld hasChild moeten beschrijven, voor twee aparte types, bijvoorbeeld dat het kind van een persoon ook een persoon is en dat het kind van een olifant ook een olifant is. Ook als we beperkingen moeten opleggen, bijvoorbeeld dat een persoon maar twee personen als (natuurlijke) ouders kan hebben. Tevens kunnen we ook geen transitieve, inverse of symmetrische eigenschappen benoemen. Voor deze noden moeten we overstappen naar andere talen (Horrocks et al, 2003) . Meer hierover vinden we ook bij het W3C Owl Web Ontolgy Language, bij Patel-Schneider et al. (2004).

Stuckenschmidt en van Harmelen (2005) maken volgend overzichtje, van welke “taal” wie gebruikt met welk doel.

RDF/S is de taal die gebruikt wordt door gebruikers die de hiërarchische classificaties nodig hebben. OWL Lite biedt de mogelijkheid om (on)gelijkheden uit te drukken en simpele beperkingen op te leggen aan de hiërarchie. OWL DL is voor die gebruikers die de maximale uitdrukbaarheid wensen, namelijk alle besluiten zijn ook berekenbaar, en beslisbaar, alle bewerkingen zullen ook eindigen in een eindige tijd. OWL Full wordt gebruikt door hen die maximale uitdrukbaarheid wensen en een syntactische vrijheid, maar zonder garantie dat het ook uitvoerbaar is.

DL staat voor Description Logics en is predikatenlogica van de eerste orde.

Volgende voorbeelden van Ian Horrocks (2004) tonen het verschil in notatie tussen DL Syntax en FOL syntax (of lite), bij Klasse constructies.

Page 14: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

14

Volgende tabel is een lijst van axioma's in OWL (Horrocks, 2004).

1.4. Ontologieën als gereedschappen om informatie te ontsluiten

Ontologieën worden vaak in één adem genoemd met trefwoordenlijsten (controlled vocabularies), taxonomieën, thesauri en meta-modellen, als gereedschappen om informatie te ontsluiten, zoals op de studiedag “Taxonomieën” in Amsterdam op 20 januari 2005. Wat is nu het onderscheid tussen al deze begrippen?

Volgens Richard Benjamins et al. (Benjamins et al., 1999, p. 691) is een taxonomie een deel van een ontologie, namelijk als volgt geformuleerd: “een ontologie beschrijft het onderwerp via begrippen, instanties, relaties, functies en axioma's. Begrippen in de ontologie worden georganiseerd in taxonomieën waardoor overervings-mechanismen kunnen toegepast worden.”

Taxonomie en overerving zijn beide begrippen van oorsprong uit de biologie. In de plantkunde, volgens één van de oudste taxonomie, namelijk die van Linnaeus, zijn planten onderverdeeld in stammen, klassen, ordes, subordes, families, geslachten...Het geslacht erft alle eigenschappen van de familie, de orde, de klasse en de afdeling waartoe het behoort. Zo behoort het geslacht Ranunculus (boterbloem) tot de familie Ranunculaceae en tot de orde Ranunculales. Deze orde behoort tot de klasse Magnoliopsidae (voorheen Dicotyledoneae of tweezaadlobbigen) en tot de onderafdeling Angiospermae (bedektzadigen). De afdeling is Spermatophyta (zaadplanten).

Een taxonomie is een classificatieschema. Een classificatie is een indeling van verschijnselen, objecten of processen in groepen op grond van overeenkomende of aanverwante eigenschappen. Organismen werden op grond van overeenkomsten hiërarchisch ingedeeld in een taxonomische boom.

Een taxonomie wordt vaak als synoniem gesteld van een typologie, maar in de computerwetenschappen zou er een verschil in interpretatie zijn, naargelang de manier waarop de classificatie tot stand kwam, empirisch of inductief voor taxonomieën en deductief of conceptueel voor typologieën (bron: Wikipedia Nl).

Woody Pidcock en Michael Uschold van de Boeing Company hebben een poging ondernomen om de begrippen gecontroleerde woordenschat, taxonomie, thesaurus,

Page 15: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

15

ontologie en meta-model te verklaren, in hun nieuwe betekenis voor de informatiewetenschap. (Metamodel.com, 2005). Woody Pidcock verklaart ze als volgt:

“Een gecontroleerde woordenschat (controlled vocabulary) is een lijst van termen die expliciet worden opgesomd. Deze lijst wordt gecontroleerd door en is beschikbaar via een instantie die zorg draagt voor de registratie van deze gecontroleerde woordenschat.

Een taxonomie is een collectie van gecontroleerde woordenschattermen die georganiseerd zijn in een hiërarchische structuur. Elke term in een taxonomie is betrokken in een of meer ouder-kind relatie(s) met andere termen van de taxonomie. Er kunnen verschillende ouder-kind relaties zijn in een taxonomie (bijvoorbeeld geheel-deel, geslacht-soort, type-instantie) maar volgens goede praktijk is er beter maar één relatie. Sommige taxonomieën laten wel poly-hiërarchie toe, wat betekent dat één term meerdere ouders kan hebben. Als deze term dan voorkomt op meerdere plaatsen in de taxonomie, heeft hij daar ook telkens dezelfde betekenis, en als hij daar “kinderen” heeft, heeft hij op die andere plaatsen dezelfde kinderen.

Een thesaurus is een collectie van gecontroleerde woordenschattermen, gerepresenteerd via een bepaalde netwerkstructuur. Dit betekent dat een thesaurus associatieve relaties gebruikt bovenop ouder-kind relaties.

Een ontologie, in de betekenis van een formele ontologie, is een gecontroleerde woordenschat uitgedrukt in een “ontologie presentatie taal”. Deze taal heeft een grammatica om woordenschattermen te gebruiken, om iets betekenisvols uit te drukken, binnen een specifiek domein... Een lichtgewicht ontologie is een ontologie die impliciete regels veronderstelt, de grammatica wordt hier niet expliciet uitgedrukt.

Een meta-model is een expliciet model van de constructies en regels die nodig zijn om specifieke modellen voor een bepaald vakgebied te bouwen. Een geldig meta-model is een ontologie, maar niet alle ontologieën zijn expliciet gebouwd als meta-model...”

Michael Uschold verduidelijkt waarin al deze begrippen van elkaar kunnen verschillen:

in de betekenis die gespecificeerd wordt voor de termen, hoe uitvoeriger die beschreven wordt, hoe meer de lijst neigt naar een ontologie

in de notatie of taal (of syntax) die wordt gebruikt om die betekenis te specificeren,

en in het gebruik, waarvoor ze aangewend worden. Ze worden namelijk vaak in verschillende toepassingen gebruikt, maar kunnen elkaar daarin overlappen.

Brendan en Ronald Rousseau merken op dat er eigenlijk geen verschil bestaat tussen een thesaurus en een ontologie, behalve het domein waarin ze gebruikt worden (thesaurus als bibliotheekwetenschappelijke term, en ontologie als term in de computerwetenschap) (Rousseau & Rousseau, 2002). Maar even verder geven ze wel aan dat een ontologie in een speciale taal (syntax) wordt gecreëerd. Daar ligt nu juist het grote verschil zoals ook Michael Uschold aangeeft. In een ontologie kan een rijkere logica beschikbaar zijn dan enkel maar de postcoordinatieve organisatie van de thesaurus, is een bredere term van... of is een specifiekere term...

Een enigszins andere voorgestelde visie krijgen we van Lassila en McGuinness [2001]. Zij stellen dat een gecontroleerde woordenlijst eigenlijk de simpelste vorm van ontologie is. Deze en nog andere begrippen kunnen voorgesteld worden op een lijn, van simpele catalogus (of gecontroleerde woordenlijst) over verklarende woordenlijst naar thesaurus, en

Page 16: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

16

een informele lijst met is-a relatie. Lassila en McGuinness [2001] trekken een lijn na dit begrip, mat de aanduiding dat daar de grens tussen informele en formele ontologieën ligt. Slechts enkele wetenschappers zullen thesauri ook ontologieën noemen. Zo ook naast Rousseau en Rousseau (2002) zegt Ying Ding (2001) “elke verzameling van georganiseerde objecten is een ontologie, zoals bijvoorbeeld catalogi, indexen van de Information Retrieval gemeenschap, Entitiy-Relationship modellen van de Databank Gemeenschap, thesauri van de Taalcomputer-wetenschap Gemeenschap, object-georienteerde klasse definities van de Software ontwikkelingsgemeenschap”. We kunnen deze opsomming van Ding (2001) allemaal kennisrepresentaties noemen.

De meeste wetenschappers echter eisen een expliciete hiërarchie om over een ontologie te praten. Vreemd genoeg komt de term taxonomie niet voor in het spectrum van Lassila en McGuinness, terwijl deze term voor het eerst het begrip overerving invoert. We hebben hun figuur (enkel linkse kant) uitgebreid met de talen.

figuur 3: spectrum van Ontologie ( aanpassing van Lassila en McGuinness, 2001)

Page 17: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

17

Lassila en McGuinness [2001] stellen dat “iets” (wij zouden liever “classificatie” of “kennisrepresentatie” gebruiken) als een ontologie beschouwd mag worden, als het volgende eigenschappen bezit: - een eindige, gecontroleerde maar mogelijk uit te breiden trefwoordenlijst - een ondubbelzinnige interpretatie van klassen en term relaties - een strikt hiërarchische subklasse relaties tussen de klassen

Volgende eigenschappen zijn typisch, maar niet noodzakelijk: - een specificatie van de eigenschappen op klasse-niveau - individuele invoeging in de ontologie - een specificatie van waardenbeperking op klasse-niveau

En volgende eigenschappen kunnen wenselijk zijn, maar zijn niet noodzakelijk of typisch: - specificatie van gescheiden klassen, inverse relaties, deel-geheel relaties - specificatie van arbitraire logische relaties tussen termen We kunnen dus stellen dat Rousseau en Rousseau (2002) gedeeltelijk gelijk hebben als ze zeggen dat een thesaurus een ontologie is. Een thesaurus is een soort ontologie. Is elke ontologie ook een thesaurus?

Woody Pidcock stelt dat een meta-model ook een ontologie is maar niet elke ontologie is een meta-model. Hij doet dat alleen met deze twee termen, maar volgens ons kunnen we dit doen met alle termen die hij verklaart (zie pg. 15). Dus het volgende begrip heeft iets meer dan het voorgaande. Dan is een meta-model ook een ontologie is ook een thesaurus is ook een taxonomie is ook een gecontroleerde woordenlijst... maar niet omgekeerd. Als we het omkeren, moeten we het begrip “soort” tussenvoegen. Dus elke gecontroleerde woordenlijst is een soort taxonomie is een soort thesaurus is een soort ontologie. Deze voorstelling zien we ook bij Nieuwenhuysen (2004). We kunnen er ook nog kennisrepresentaties aan toevoegen.

figuur 4: aangepaste voorstelling kennisrepresentaties door Nieuwenhuysen (2004)

Page 18: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

18

Alan Gilchrist zocht eveneens het verschil in de termen thesaurus, taxonomie en ontologie te verklaren (Gilchrist, 2003) en kwam die ook voorstellen op de studiedag over Taxonomieën, op 20 januari 2005 te Amsterdam.

Hij onderzocht eerst hun definiëring in encyclopedieën voor het vakgebied informatie- en bibliotheekwetenschap2. Behalve thesaurus komen ze er niet in voor met hun nieuwe betekenis, de term ontologie wordt helemaal niet vermeld. Gilchrist laat spijtig genoeg na zelf een definitie van die nieuwe betekenissen te geven. Hij bekeek hun voorkomen in de index van de databank LISANET, en de verhouding was 2,313 hits for thesaur, 285 for taxonom, and 163 for ontolog. Daarna volgt een interessant stukje geschiedenis, dat we hier beknopt weergeven.

De term thesaurus werd voor het eerst bekend door Roget's “Thesaurus of English words and phrases”, verschenen in 1852. Daar was een thesaurus “a verbal... classification, the same as that which is employed in the various departments of natural history”. Volgens de derde betekenis in de Oxford English Dictionary is een thesaurus “a classified list of terms, especially keywords, in a particular field, for use in indexing and information retrieval”. Gilchrist merkt op dat, hoewel Roget het vermeldt in zijn voorwoord, er eigenlijk geen classificatietechnieken toegepast werden tot de verschijning van de “Thesaurofacet”, een werk van Aitchison et al. in 1969. De thesaurus overleefde de tijd van online opzoekingen, want er verschenen een ISO standaard en een handboek in vier edities, maar het gebruik wordt stilaan overschaduwd door de opkomst sinds 2000 van full text searching technieken. Maar lang voor de komst van de zoekthesaurus zochten onderzoekers naar een oplossing om verschillende thesauri met elkaar te linken of hen te manipuleren tot één geheel. Parallel vonden onderzoekers in het domein van de artificiële intelligentie een structuur die ze “semantische netwerken” heetten. Ze voegden termen als “is-a” toe, en deze verrijking laat ook een manipulatie door een “inference engine” toe, en dit is een typische eigenschap voor ontologieën.

In een artikel over semantisch publiceren beschrijven de onderzoekers Kircz et al. (2005, p. 26) de moeizame ontwikkeling van een ontologie vanuit thesauri: “...Wat we met verschillende thesauri naast elkaar leggen en tot één geheel verwerken willen bereiken is een rijker vocabularium met hiërarchische relaties en gerelateerde termen. Dit is de eerste stap in een verbetering van de zoekresultaten ten opzicht van het zoeken met willekeurige woorden. De relaties tussen de verschillende concepten zijn echter nog niet benoemd. We hebben ontologieën nodig! Thesauri bevatten dubbelzinnigheden als gevolg van een beperkte semantische structuur. De relatieset tussen concepten beperkt zich in de regel door 'broader' en 'narrower', 'use' en 'used for' die niet worden gespecificeerd door exacte semantiek. Een thesaurus ontbeert een expliciete en formele betekenisrepresentatie die door machines kan worden 'begrepen'. In tegenstelling tot thesauri wordt in een ontologie kennis conceptueel expliciet gemaakt door het gebruik van een formele taal met duidelijke relaties. Daarvoor dienen we een set van semantische typen te definiëren die de verschillende relatietypen specificeren. Met deze semantische structuur ontstaat een ontologie of liever een Semantic Knowledge Organization System (SKOS) waarmee we op verschillende

2Volgens Alan Gilchrist: Feather and Sturges,1997International Encyclopaedia of Information and

Library Science, Routledge, London ; Keenan and Johnston, 2000,Concise Dictionary of Library and Information Science, 2nd ed., Bowker Saur, London ; Prytherch, 2000 Harrod's Librarians Glossary, 9th ed., Gower, London

Page 19: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

19

wijzen semantiek in elektronische publicatiedomeinen kunnen aanbrengen. Als dit bereikt is hebben we een eerste stap gezet naar het zoeken van informatie in context.”

Silvia Arano (2005) maakt ook een vergelijking tussen thesauri en ontologieën, en geeft nog volgende aanvulling: een thesaurus komt etymologisch van het Grieks en betekent woordenschat, en is een semantisch controlemechanisme, want het neutraliseert synonymie en polysemie. (Arano, 2005).

De “oude” definitie die Gilchrist vermeldt, terug van de Oxford English Dictionary, voor taxonomie luidt als volgt: “een classificatie, vooral in relatie tot haar algemene wetten en principes; dat deel van de wetenschap of van een deel van de wetenschap of een onderwerp, dat bestaat uit of zich verhoudt tot classificatie; vooral de systematische classificatie van levende organismen”. Dat oude woorden nieuwe betekenissen krijgen, en migreren van een wetenschap als filosofie naar computerwetenschappen moet ons doen nadenken, volgens Gilchrist. Welke zijn de ontstekingsmiddelen die deze reactie in gang zetten? Gilchrist geeft een opsomming: informatie overload, (ontbreken van) informatie vaardigheden, specialisatie in organisaties en “ontstructurering” van organisaties.

De definities die Gilchrist voor ontologie aanhaalt, zijn dezelfde van Gruber en aanvullingen van Benjamins et al. Maar Vickery (1997) zou de eerste zijn die melding maakt van het binnendringen van de term in het vakgebied van informatie- en bibliotheekwetenschap.

Als voorzichtig besluit uit voorgaande beschouwingen zouden we kunnen stellen dat historisch blijkt dat thesauri en taxonomieën bouwstenen zijn voor formele ontologieën. Thesauri leveren de begripsbepalingen en een eerste beperkte netwerk en relatievorming (broader en narrower term, used for en use for, is a...) terwijl taxonomieën de belangrijke overerving van eigenschappen (inheritance) introduceerden. Thesauri en taxonomieën, aangevuld met logica en axioma's leveren een volwaardige formele ontologie in een domein.

1.5. Soorten ontologieën en voorbeelden

De Engelstalige Wikipedia geeft een beknopt overzicht van soorten ontologieën, samen met enkele voorbeelden (Wikipedia). Ying Ding (2001) geeft een indeling die verschillende onderzoekers maakten, en ook een beknopt overzicht van belangrijke ontologieën.

Een formele ontologie (formal ontology) is een ontologie voor gebruik met computers. Volgens Ding maakten Uschold en Gruninger ook een onderscheid in formaliteit: zeer informeel, semi-formeel en strikt formeel.

Een domein-ontologie is een ontologie die de begrippen in een domein exhaustief en rigoureus probeert te omschrijven in een hiërarchische data structuur met relaties en regels binnen dit domein. De meeste ontologieën zijn domein-ontologieën. Ze worden gebouwd met een speciaal doel voor een specifieke toepassing. Op de server Ontolingua van de Stanford Knowledge Systems Laboratory, Stanford KSL Network Services komen dagelijks voorbeelden van dergelijke ontologieën bij. Men kan een paswoord aanvragen en zelf proberen een ontologie te maken. Een voorbeeld vindt men in de biologie, de Genome Ontology of GO (Smith et al. 2005), die bestaat uit drie gecontroleerde woordenlijsten (voor cellulaire bestanddelen, moleculaire functies en biologische processen). Ding geeft nog

Page 20: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 1. Begripsomschrijvingen Martine Dewulf

20

volgende voorbeelden voor domeinontologieën: EngMath ontology, PhysSys, Enterprise, TOVE, (KA)2.

Een basis-ontologie (foundation ontology of upper ontology) is een ontologie die niet tot een bepaald domein behoort, maar poogt algemene begrippen te beschrijven. WordNet is hier een voorbeeld van. Interessant zijn de volledig nieuwe begrippen die uitgelegd worden in de begrippenlijst van WordNet, zoals synset, hypernym, gloss enzomeer. (WordNet). Ook de Suggested Upper Merged Ontology (SUMO) is een uitvoerige ontologie, ontwikkeld door onderzoekers van IEEE. Volgens Ding (2001) wordt WordNet opgesplitst in WordNet upper level, dat dan inderdaad een basis-ontologie is, en in WordNet, dat eigenlijk een linguistieke ontologie is (dit is een aparte categorie, volgens Gomez-Perez en Benjamins)

Een gekende en uitvoerige ontologie is CYC, een privé-project in ontwikkeling sinds 1985 onder de drijvende kracht van Douglas Lenat [Rousseau, 2004]. Deze ontologie is een conglomeraat van een basis-ontologie en verschillende domein-ontologieën. Er bestaat momenteel een Open Source versie van, OpenCyc, waarvan versie 0.7 de courante stabiele versie is, en versie 1.0 binnenkort zal verschijnen, met aanpassingen naar uitwisselingsstandaarden en vertalingen (OpenCyc.org)

Page 21: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 2. Gebruik van ontologieën Martine Dewulf

21

2. Gebruik van ontologieën Uit voorgaande definities blijkt dat ontologieën gebruikt worden om informatie op te slaan, te presenteren en te doorzoeken, met het doel ze te delen via computers. De omgevingen waar informatie gedeeld wordt zijn alle geledingen van de maatschappij, van dienstverlening, over industrie, banken, onderzoeksinstellingen. Stuckenschmidt en van Harmelen (2005, pg. VII-X) schetsen het probleem van informatie delen als een gevolg van de grote hoeveelheid informatie die digitaal geproduceerd, gestockeerd en getransporteerd wordt. Door het steeds groeiende informatieaanbod kunnen we moeilijker informatie vinden en integreren in de informatie die we al hebben. Dit is ook het gevolg van de eigenschappen van het Wereldwijde Web: informatie wordt aangeboden zonder zijn conceptueel model, informatiebronnen veranderen voortdurend en er zijn zeer heterogene vormen van representeren.

2.1. Het nut van de ontwikkeling van een ontologie

De Stanford University Knowledge Systems Laboratory heeft al vele jaren ervaring in het onderzoek naar ontologieën, en enkele van haar onderzoekers (Noy & McGuinness, 2001) hebben de redenen samengevat waarom men een ontologie zou willen ontwikkelen:

1. Om het algemeen begrip van de informatiestructuur tussen mensen en computersoftware te delen

2. Om domeinkennis opnieuw te kunnen gebruiken

3. Om veronderstellingen in een domein expliciet te maken

4. Om domeinkennis te kunnen onderscheiden van operationele kennis

5. Om domeinkennis te ontleden.

2.2. Indeling volgens toepassing door Jasper en Uschold

Jasper en Uschold hebben onderzocht in welke toepassingen een ontologie gebruikt kan worden (Jasper & Uschold, 1999) en hebben deze ingedeeld in drie mogelijke scenario's, die zich kunnen voordoen. Maar ook de ontologie zelf kan een variërende rol spelen, afhankelijk van het feit op welk informatieniveau ze gebruikt wordt. De context is zeer belangrijk, want dezelfde informatie kan op verschillende momenten een andere rol spelen. De informatieniveaus die onderscheiden kunnen worden, zijn de volgende:

N0 : het niveau van de operationele gegevens. De rol die informatie speelt, wanneer ze gebruikt en geproduceerd wordt door en tijdens een toepassing. Informatie op N0 wordt geschreven door gebruik te maken van een woordenschat die gedefiniëerd is op een hoger niveau N1.

N1 : het niveau van de ontologie. De rol die informatie speelt door termen en definities van een domein te specificeren. Het gebruik dat typisch is voor een ontologie komt voor tijdens de ontwikkeling van toepassingen.

Page 22: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 2. Gebruik van ontologieën Martine Dewulf

22

N2 : het niveau van de taal om een ontologie voor te stellen. De rol die informatie speelt waarbij de informatie gebruikt wordt door schrijvers van ontologieën en ontwikkelaars van toepassingen tijdens het ontwikkelingsproces, waarbij ontologieën op N1 ontwikkeld worden.

Om informatie te delen of uit te wisselen op een niveau Nn heeft men een referentiemodel nodig van het niveau Nn+1.

Er zijn volgens Jasper en Uschold (1999) drie soorten draaiboeken, en daarin verschillende rollen en acteurs te onderscheiden:

1. Neutraal schrijven (authoring):

een voorwerp van informatie wordt beschreven in een enkele taal door ontologie-auteurs (OA), en wordt geconverteerd in een vorm om in meerdere systemen gebruikt te worden door de gebruikers van de toepassing (Application Users AU). Voordelen van deze aanpak omvatten onder andere opnieuw gebruiken van kennis, bewezen houdbaarheid en het behoud van kennis op lange termijn.

OA

converteert converteert

AU

figuur 5: schrijven van een ontologie (Jasper & Uschold, 1999)

2. Gewone toegang tot informatie:

een of meer mensen (Knowledge workers KW) of computers hebben informatie nodig die uitgedrukt is in een ongewoon of ontoegankelijk formaat. De ontologie helpt de informatie begrijpelijk te maken door te voorzien in een gedeelde woordenschat van verstaanbare termen, of door sets van termen in te delen. Voordelen van deze

Ontologie

Toepassing N Toepassing 1

Page 23: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 2. Gebruik van ontologieën Martine Dewulf

23

benadering zijn uitwisselbaarheid en meer effectief gebruik en hergebruik van kennisbronnen.

figuur 6: ontologie voor menselijke communicatie en delen van informatie (overgenomen van Jasper & Uschold, 1999)

3. Ontologie-gebaseerd zoeken:

Een ontologie wordt gebruikt door een kenniswerker (KW) om een opslagplaats van informatie te doorzoeken naar gewenste bronnen (bijvoorbeeld documenten, webpagina's, namen van experten... ). Het belangrijkste voordeel is hier een snelle toegang tot belangrijke informatie. Dit leidt weerom tot een effectief gebruik en hergebruik van kennisbronnen.

figuur 7: ontologie voor opzoeken van informatie (Jasper & Uschold, 1999)

Page 24: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 2. Gebruik van ontologieën Martine Dewulf

24

2.3. Architectuurmodel van Stuckenschmidt en van Harmelen

Stuckenschmidt en van Harmelen hebben vijfentwintig benaderingen van ontologieën bestudeerd, en komen tot drie mogelijke architecturen voor de rol van een ontologie als een expliciete beschrijving van de semantiek (Stuckenschmidt & van Harmelen, 2005, p. 31-34): een benadering met een enkelvoudige ontologie, een met meervoudige lokale ontologieën, en een hybride benadering.

Een benadering als enkelvoudige ontologie (figuur 8.a) gebruikt één globale ontologie en biedt een gedeelde woordenschat voor de specificatie van de betekenissen. Alle bronnen zijn gerelateerd tot deze ene ontologie. Dit veronderstelt eenzelfde visie van alle bronnen op het domein, zoniet komt de conceptualisatie in het gedrang en moeten er toegevingen gebeuren, wat de ontologie minimaliseert. Dit nadeel leidde tot de ontwikkeling van een benadering met meervoudige lokale ontologieën.

figuur 8.a.: enkelvoudige ontologie

In een benadering van meervoudige lokale ontologieën (figuur 8.b) heeft elke informatiebron zijn eigen ontologie. Zij delen niet de informatie, maar kunnen wel allen samen één ontologie leveren. Een dergelijke architectuur heeft geen toegevingen nodig, en aanpassingen verlopen vlot. In de praktijk echter is een gebrek aan een gemeenschappelijke woordenschat een groot probleem, in het vergelijken van verschillende bronnen.

figuur 8.b: meervoudige locale ontologieën

Page 25: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 2. Gebruik van ontologieën Martine Dewulf

25

Om deze problemen van beide architecturen op te lossen, komt men tot een hybride benadering (figuur 8.c). Daarbij heeft elke bron zijn eigen ontologie, en om ze met elkaar te vergelijken, wordt er één globale gedeelde woordenschat bovenop voorzien. De gedeelde woordenschat bevat de basistermen (de primitieven) van een domein. Soms is de gedeelde woordenschat ook een ontologie.

figuur 8.c.: hybride ontologieën (uit Stuckenschmidt & van Harmelen, 2005)

2.4. Het semantisch web: situering van ontologieën

Domeinen waarin grote hoeveelheden data beheerst worden, zijn onder andere de geneeskunde, de genetica, de geografie, de biologie, de bioinformatica... Meer algemeen is het wereldwijde web één grote databank van allerlei informatie gepresenteerd in heel veel verschillende formaten en standaarden. Volgens Eric Van den Berg (2005) die Tim Berners- Lee (1999) citeert, bestaat het semantisch web uit verschillende lagen met elk zijn eigen standaardtaal (zie ook pg. 8). Er is momenteel een realisatie tot op de vierde laag, het ontologie-niveau, de rest is nog in ontwikkelingsfase.

De onderste laag is die van de documenten, en wordt in de standaard van URI en Unicode uitgedrukt, met de HTML standaard als presentatietaal. Dit is de oudste laag van het WWW.

Daarboven bevindt zich de laag van de XML standaard, XML Namespaces NS en xmlschema of XML/Scheme. Die beschrijft de grammatica en syntax van individuele documenten.

Maar om een standaardmanier te verkrijgen om metadata te representeren, gebruikt men RDF (Resource Description Framework). Een RDF-triple drukt kenmerken van bronnen uit in de vorm subject, predikaat en object. RDF en RDF Schema (RDF/S) is de derde laag, die dus wel relaties uitdrukt, maar er geen betekenis kan inleggen.

Daarvoor is de vierde laag nodig, die van de otologie-woordenschat. Ontologieën spelen een cruciale rol in het verwerken en delen van kennis en geven expliciet weer wat de

Page 26: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 2. Gebruik van ontologieën Martine Dewulf

26

onderlinge betekenisrelaties zijn van programma's en bestanden op het web. En dat is belangrijk om kennis te representeren.

Figuur 9: The Semantic Web LayerCake, overgenomen uit T. Berners-Lee et al. (2001)

De vijfde laag is de laag van de logica en de regels, die via rule markup languages zoals RuleML en SWRL de ontologie-laag verrijken.

De zesde laag is de proof-laag voor de controle en validatie van gegevens en is belangrijk in het business to business proces, het handel drijven via het web.

Het probleem van de identificatie wordt hier opgelost door digitale handtekening en de trust-laag, de zevende laag, die zekerheid biedt over de betrouwbaarheid van informatiebronnen.

Page 27: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 3. Methodologieën voor het ontwerp van een ontologie Martine Dewulf

27

3. Methodologieën voor het ontwerp van een ontologie Vele ontwikkelaars van ontologieën melden in hun publicaties dat een ontologie ontwerpen (ontological engineering) een tijdrovend en lastig werk is. Een van de redenen is dat elke expert van een vakgebied zijn eigen visie heeft op begrippen en relaties, zodat men vaak moeilijk tot een gemeenschappelijke visie komt. Dit gebeurt wanneer een ontologie door een groep mensen ontwikkeld wordt. Enkele ontologie-ontwikkelaars stellen domein-onafhankelijke richtlijnen voor.

Een overzicht in deze overvloed wordt gegeven door Frenandez (1999) en Corcho et al. (2003, pg. 44 – 47). Er bestaan niet enkel richtlijnen om een ontologie te ontwerpen, maar ook om ontologieën te hervormen, te bestuderen, te evalueren, te laten evolueren, samen te brengen, op te graven enz. Corcho et al. (2003) houden het op een ontologie bouwen, en geven een chronologisch relaas van de verschillende projecten en de beschrijving van hun ontwikkeling, die we hier kort weergeven. Fernandez (1999) vergelijkt die methodologieën met de IEEE Standard for Developing Software Life Cycle Processes, 1074-1995 en analyseert hen minutieus.

El-Sayed Abou-Zeid stelt dat de ontwikkeling van ontologieën momenteel meer een kunst dan een wetenschap is, omdat er een gebrek is aan overeenkomstige richtlijnen (Abou-Zeid, 2003). Hij meent dat het ontwerpen van een ontologie een voorbeeld is van het model van Nonaka en Takeuchi van kenniscreatie en stelt op basis daarvan een nieuw geformuleerde aanpak voor.

Ook Stuckenschmidt en van Harmelen (2005, pg. 65 - 83) geven een aantal methodes in “ontological engineering” maar vinden dat die niet voldoen aan hun eisen. Ze stellen dan zelf een methodologie op die meer aan hun intenties tegemoetkomt, namelijk ontologieën bouwen vertrekkende van bestaande informatiebronnen op het semantisch web.

Er zijn nog methodes ontwikkeld die we niet bespreken (bijvoorbeeld Kraft, Infosleuth en CO4 die vermeld worden bij Stuckenschmidt en van Harmelen), want elk nieuw team heeft nog steeds zijn eigen methode.

Maar de methode die we uiteindelijk voor onze ontologie zullen volgen is die voorgesteld door Noy en McGuinness (2001), waarbij ze de beste praktijken van al deze methoden voor een leek die een ontologie wil bouwen, combineren, en heel praktische aanwijzingen geven. Ze wijzen op veel gemaakte fouten en verkeerde veronderstellingen.

3.1. De eerste methodologieën

3.1.1. De CYC-KB methode

Deze methodologie werd enkel besproken door Corcho et al. (2003). Om de kennisbank van Cyc te bouwen, doorliepen Lenat en Guha drie fases. Eerst werden handmatig uit artikels en informatie-stukken alle relevante termen aangeduid, waarin algemene kennis impliciet vervat ligt in verschillende bronnen. De tweede en derde fase bestond eruit nieuwe kennis te genereren door gebruik te maken van natuurlijke taal of machine-lerende gereedschappen.

Page 28: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 3. Methodologieën voor het ontwerp van een ontologie Martine Dewulf

28

Het verschil tussen de tweede en de derde fase bestaat erin dat er bij de tweede fase nog een menselijke tussenkomst was, bij de derde werd alles alleen door machines gegenereerd.

3.1.2. Uschold en King

Deze methodologie werd besproken door Fernandez (1999), Abou-Zeid (2003), Corcho et al. (2003) en Stuckenschmidt en van Harmelen (2005). Uschold en King stellen vier activiteiten voor: het doel van de ontologie identificeren, de ontologie bouwen, de ontologie evalueren en ze daarna documenteren (Uschold & King, 1995). Bij het bouwen is het nodig kennis te vatten, te coderen en andere ontologieën te integreren in de huidige.

Om de belangrijke begrippen van een ontologie te identificeren, stellen ze drie strategieën voor: een top-down benadering waarbij eerst de abstracte begrippen en dan specialisatie naar meer specifieke termen bepaald worden, en ten tweede een bottom-up benadering met identificatie van de meest specifieke termen met een generalisatie naar meer abstracte begrippen, en dan een middenweg benadering waarbij de meest belangrijke begrippen worden bepaald, en verder uitgebreid naar algemenere en specifiekere termen.

Stuckenschmidt en van Harmelen nemen deze methodologie als basis voor het bespreken van andere methodologieën, refererend echter naar Uschold en Gruninger (1996), en Uschold (1996) als bronnen.

El-Sayed Abou-Zeid (2003) verwijst naar deze methodologie als “skeletal methodology” en neemt hierbij de term over van Uschold en Gruninger (1996).

3.1.3. Gruninger en Fox en de TOVE Methodologie

Deze methodologie wordt besproken door Fernandez (1999), Abou-Zeid (2003) en Corcho et al. (2003). Volgens Corcho et al. is de methode van Gruninger en Fox uit 1995 een methode, gebaseerd op de ontwikkeling van kennissystemen die eerste orde logica gebruiken. TOVE staat voor Toronto Virtual Enterprise.

“Eerst moeten de hoofdscenario's op een intuïtieve manier geïdentificeerd worden (mogelijke toepassingen waarvoor de ontologie gebruikt zal worden), daarna wordt een set vragen in menselijke (of natuurlijke) taal gesteld, die zij competentie-vragen noemen, om het bereik van de ontologie te bepalen. Deze vragen en hun antwoorden worden gebruikt om zowel de hoofdbegrippen en hun eigenschappen te bepalen, als de relaties en axioma's. Dergelijke ontologische componenten worden formeel uitgedrukt in eerste orde logica. Dit is een zeer formele methode die voordelen haalt uit de robuustheid van klassieke logica” aldus Corcho et al.

3.1.4. Het KACTUS project

Fernandez (1999) en Corcho et al. (2003) geven uitleg bij dit project van Berneras en medewerkers uit 1996. De ontologie wordt gebouwd voor een toepassing van een kennisbank. Dit is een bottom-up benadering. Hoe meer toepassingen erbij komen, hoe algemener de ontologie wordt. Zo groeit de ontologie weg van de kennisbank.

Dus eigenlijk wordt eerst een kennisbank gemaakt voor een toepassing. Als dan weer een toepassing bij komt, stellen deze onderzoekers voor van de kennisbank een ontologie te maken en ze te gebruiken voor de twee toepassingen.

Page 29: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 3. Methodologieën voor het ontwerp van een ontologie Martine Dewulf

29

3.1.5. SENSUS

De methode van SENSUS wordt alweer enkel door Fernandez (1999) en Corcho et al; (2003) uitgelegd. In 1997 probeerden Swartout en medewerkers om domein-specifieke ontologieën te verkrijgen uit grote ontologieën.

“Zij stellen voor om “zaad” termen te bepalen die relevant zijn voor een bepaald domein. Deze termen worden met manueel gelinkt aan SENSUS, de ontologie voor gebruik in natuurlijke taal verwerking en ontwikkeld aan het ISI (Information Sciences Institute van de University of Southern California, niet te verwarren met ISI Institute for Scientific Information, Philadelphia). Deze ontologie bevat wel vijftigduizend begrippen (en vier jaar later al zeventigduizend), die in een hiërachie georganiseerd zijn. Alle bijkomende termen die zo geoogst worden, worden toegevoegd. Termen die relevant kunnen zijn, maar niet gevonden werden, worden manueel toegevoegd. Uiteindelijk als een node gevonden wordt met heel veel paden ernaar toe, wordt de hele onderstam mee genomen. Deze stap wordt nog manueel gedaan omdat er domeinkennis nodig is om dit besluit te nemen” aldus Fernandez (1999).

Fernandez wijst erop dat deze methode volledig breekt met de traditie van knowledge engineering omdat er termen manueel toegevoegd worden aan een bestaande ontologie. Hij noemt de strategie voor het bepalen van de concepten bottom-up, terwijl Corcho et al. de benadering top-down noemen.

3.1.6. Methontology

Deze methode wordt naast Fernandez (1999) en Corcho et al. (2003) ook uitgelegd door Abou Zeid (2003). Methontology is ontstaan in 1997 in het labo voor artificiële intelligentie aan de polytechnische universiteit van Madrid en Fernandez, Gomez-Perez en medewerkers berichtten erover.

Er wordt onderscheid gemaakt tussen drie verschillende activiteiten tijdens het ontwikkelingsproces van een ontologie: project-management activiteiten, ontwikkelingsgeorieënteerde activiteiten, en ondersteuningsactiviteiten.

De drie project-management activiteiten zijn planning, controle en kwaliteitsgarantie. De vijf activiteiten bij ontwikkeling (Met een D-nummering bij Abou-Zeid) zijn specificatie, conceptualisatie, formalisatie, implementatie en onderhoud. De vijf activiteiten die hier ondersteuning bieden (met een S-nummering bij Abou-Zeid) zijn kennisverwerving, integratie, evaluatie, documentatie en opstellingsmanagement.

Figuur 10 verduidelijkt de levenscyclus van een ontologie in Methontology, met een nadruk op de drie hoofdprocessen.

Fernandez wijst op de grote overeenkomst met de IEEE standaard omdat dit document als uitgangspunt werd gebruikt om de methodologie te ontwikkelen.

Page 30: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 3. Methodologieën voor het ontwerp van een ontologie Martine Dewulf

30

figuur 10: levenscyclus van een ontologie in Methontology (Corcho et al. 2003)

3.1.7. KBSI IDEF5

Deze methodologie wordt enkel beschreven door Abou-Zeid (2003), die in totaal vier “verstaanbare en toepassings-onafhankelijke” methodologieën bespreekt. TOVE en Skeletal zijn trappen-gebaseerde, en Methontologie en KBSI IDEF5 (KBSI IDEF5, 1994) zijn ontwikkelings-prototype geörienteerd.

De vijf activiteiten die in deze methode beschreven worden, zijn de volgende: 1. Organiseren en doel bepalen 2. Data vergaren die nodig zijn om de ontologie te bouwen 3. Data analyseren om de ontologie te extraheren 4. Begin van het ontwerp van de ontologie met de verkregen data 5. Verfijnen en valideren van de ontologie

Hoewel ze hier sequentieel voorgesteld worden, betekent dit niet dat ze elkaar niet kunnen overlappen.

3.2. Methode volgens kenniscreatie van Abou-Zeid

Omdat Abou-Zeid (2003) met een beetje een uitdagende titel “Wat ontologisten kunnen leren van kennismanagement” ons erop wijst dat door het gebrek aan gemeenschappelijke richtlijnen elk team zijn eigen principes, ontwerpcriteria en stappen volgt, denken we dat hij misschien een oplossing heeft voor het bevorderen van kennis delen tussen de verschillende teams en een meer eenvormige methode kan voorstellen? Kennis ontstaat door de voortdurende interactie tussen impliciete en expliciete kennis.

Het eerste proces in het model van Nonaka en Takeuchi is de socialisatie. Elke ontwikkeling van een ontologie die gebaseerd is op conceptualisatie zou moeten vertrekken van het identificeren van het doel van de ontologie en van wie de deelnemers en belanghebbenden zijn. Nadien moet er een overeenkomst komen over de gehanteerde termen. Deze

Page 31: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 3. Methodologieën voor het ontwerp van een ontologie Martine Dewulf

31

activiteiten hangen in grote mate af van het delen van impliciete kennis onder de ontologie-ontwikkelaars.

Het proces dat volgt op de socialisatie is de externalisatie. Als er een overeenkomst is bereikt onder de deelnemers, moet deze veruitwendigd worden door ze te benadrukken in expliciete en communiceerbare modellen. Dit blijkt één van de knelpunten te zijn in het delen en hergebruiken van ontologieën. Er zijn drie vormen van veruitwendiging in de context van ontologie-ontwikkeling. Eerst de informele: dit is via een voorstelling in de natuurlijke taal, dan de tweede, de semi-formele in een implementatie-onafhankelijke taal als UML en dan de formele veruitwendiging in een formele taal als FOL.

Het proces van combinatie slaat op het hergebruik van delen van een bestaande ontologie of op het samenvoegen van verschillende ontologieën tot één ontologie.

Het volgende proces is dat van internalisatie, en slaat op het inlijven van de ontologie door ze te coderen in een computergestuurde taal.

Abou-Zeid besluit dat vooral de eerste stap, het expliciet maken van de impliciete kennis teveel over het hoofd gezien wordt. Hij vat de vergelijking van vier methodologieën samen in een tabel, vanuit de visie van kennismanagement (zie volgende pagina). Hij wijst daarbij op de hiaten in enkele methodologieën.

Paul van den Brink (2004) maakt de link van kennisdelen met de mogelijkheden van een informatieprofessional. Abou-Zeid bespreekt enkel de technologische condities die nodig zijn om kennis te delen, maar van den Brink gaat veel verder: ook sociale en organisatorische voorwaarden zijn van belang. Ontologieën ontstaan meestal in organisaties zoals universiteiten, waar kennis het hoofdproduct is.

De sociale condities voor kennisdelen volgens van den Brink (2004) zijn: motivatie – zorg – waardering – empowerment – voordeel deelnemer waarden, houding, humeur, emoties – vertrouwen vaardigheden, competenties, organisatorische rol – verbeteren competenties - kennisteam

De organisatorische condities voor kennisdelen zijn: strategie – strategische focus – collectieve ambitie – voordeel klant structuur – organisch gestructureerde organisatie – gedeelde context - doelgerichtheid systemen – speling in tijd – in werkproces geïntegreerd – opbrengst meten stijl – kenniskampioen – voorbeeldgedrag – klimaat van openheid cultuur – gemeenschappen – teamwork – dialoog

De technologische condities van kennisdelen zijn : het delen van expliciete kennis – kennisopslag het delen van expliciete en impliciete kennis – kennisatlas het delen van impliciete kennis – samenwerkingsplatform

Page 32: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 3. Methodologieën voor het ontwerp van een ontologie Martine Dewulf

32

Methodologieën om ontologieën te bouwen

TOVE Skeletal Methontology KBSI IDEF5

SOCIALISATIE

identificatie

van het doel

van de deelnemers

2. data vergaren

EXTERNALISATIE

informele 3. data analyseren

semi-formele 4. Documentatie

formeleS.4. Documentatie

COMBINATIE

S.2. integratie

INTERNALISATIE

implementatie 2.2. Coderen D.3. Implementatie

evaluatie technisch 3. Evaluatie S.3. Evaluatie

evaluatie commercieel

Nonaka en Takeuchi

Knowledge Management

1. bepalen van de scenario's

1. het doel identificeren

D.1.Specificatie S.1.kennisverwerving

1. organiseren en doel bepalen

1. organiseren en doel bepalen

bouwen aan gedeeld begrip

2. formuleren informele

competentie-vragen 3.1. Informele

terminologie verkrijgen

2.1. ontologie vatten

D.2.Conceptualisatie S.1. Kennisverwerving

4. Begin van ontolgogie-ontwerp

2.2. Specificatie van formele terminologie

3. formuleren formele

competentievragen in de terminologie van de ontologie

5. Ontologie verfijning en

validatie

4. Specificatie van axioma's en

definiteis voor de termen in de

ontologie met de formele taal

2.3. integreren van bestaande ontologieën

6. Voorwaarden formuleren voor

karkateriseren van volledigheid van

ontologie

5. Ontologie verfijning en

validatie

Page 33: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 1: Literatuurstudie: 3. Methodologieën voor het ontwerp van een ontologie Martine Dewulf

33

3.3. Methode voor gedeelde ontologieën op het semantisch web

Vertrekkende van de methodologie van Uschold en King stellen Stuckenschmidt en van Harmelen (2005) een aangepaste methodologie voor, geschikt om kennis te delen op het Internet. Het doel van hun methodologie is samenvoegen van begrippen uit verschillende ontologieën tot een gemeenschappelijk geheel.

Het proces-model dat zij voorstellen doorloopt vijf stappen. De eerste stap is de vraag wat er vertaald moet worden, van de bron naar de bestemming. Omdat dit een semantische vertaling is, vraagt dit een identificatie van de brug-begrippen. De tweede stap is het bepalen van de eigenschappen van deze brug-begrippen. Eens de eigenschappen gedefiniëerd zijn, moet men als derde stap de waarden voor deze eigenschappen bepalen. De vierde stap is het aanpassen van de ontologie. Als men bestaande bronnen gebruikt is dit dikwijls niet voldoende om alle begrippen te beschrijven. Daarom moeten we vaak toepassings-specifieke termen uitvinden als deel van de gedeelde ontologie. De laatste stap is te proberen op alle niveaus definities te kunnen verfijnen.

figuur 11: Ontwikkelingsschema gedeelde ontologieën (Stuckenschmidt en van Harmelen, 2005)

3.4. Hoe ontwikkel je je eerste ontologie?

Deze vraag stelden Noy en McGuinness (2001) zich om leken in ontologie toch de mogelijkheid te bieden met het tool Protégé aan de slag te gaan om een ontologie te construeren.

Stap voor stap begeleiden ze je in hoe je naar termen moet kijken, die je als klasse of relatie of eigenschap moet beschouwen, en hoe je het best zo concreet mogelijk te werk gaat. Aan de hand van de wijnontologie maken ze de te nemen stappen heel aanschouwelijk.

Deze stappen worden praktisch uitgelegd in het volgende deel, maar citatie-analyse heeft betrekking tot een veel abstracter domein en is niet zomaar te vergelijken met en/of te reduceren tot het domein van de wijn. Daarom wordt hier vooral de nadruk op de oefening gelegd en bestaat er niet zoiets als “de juiste ontologie”.

De ervaring leert ons dat een ontologie geen éénpersoonswerk kan zijn, via overleg vergroot men de kennis en de mogelijkheden van de ontologie. En misschien kan men wel stellen dat een ontologie eigenlijk ook nooit “af” is, en dat ze steeds in ontwikkeling is….

Page 34: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

34

Deel 2 Ontologie voor citatie-analyse

4. Praktische toepassing Voor de vergelijking van verschillende programma's om een ontologie te ontwikkelen, verwijzen we naar Corcho et al. (2003). Voor de praktische toepassing volgen we de aanbevelingen van Noy en McGuinness (2001), die het beste van alle vorige methodologieën gecombineerd hebben in een artikel ter aanbeveling van gebruikers van het ontologie-tool Protégé. Dit werkinstrument is ontwikkeld door de medische faculteit aan Stanford, en heeft een steeds groeiend aantal gebruikers, een levendige discussie-groep van ontwikkelaars, sinds 1995 een internationale workshop en een attendering van zijn gebruikers voor nieuwe versies en wijzigingen.

4.1. Doelbepaling en grensafbakening

Noy en McGuinness (2001) raden aan eerst het doel en het gebied van de ontologie te bepalen. Daarbij is het nodig een antwoord op volgende vragen te formuleren:

welk domein zal de ontologie beslaan? waarvoor gaan we de ontologie gebruiken? op welke soort van informatievragen zou de ontologie een antwoord moeten bieden? wie zal de ontologie gebruiken en onderhouden?

Het doel van deze ontologie is een nadere studie van het domein citatie-analyse, zoals geformuleerd op pg. 21, om domeinkennis expliciet te maken en te ontleden. Deze ontologie is enkel bedoeld als een studie-object. Het is helemaal niet de bedoeling dat iemand dit echt zou gebruiken.. Misschien kan het andere onderzoekers wel aanzetten om met deze denkoefening verder te gaan.

Citatie-analyse is een deelwetenschap van de informetrie dat op dezelfde hoogte staat als econometrie, biometrie, chemometrie, sociometrie, kwantitatieve linguistiek... Informetrie leent aan de ene kant “gereedschappen” zoals technieken, modellen en analogieën van de wiskunde, natuurkunde en computerwetenschappen. Aan de andere kant wordt informetrie gebruikt binnen bibliotheekmanagement, sociologie en geschiedenis van de wetenschap, informatie zoeken en wetenschapsbeleid (Egghe & Rousseau, 1990, pg. 3). Zij plaatsen citatie-analyse op hetzelfde niveau als bibliometrie, scientometrie en theoretische aspecten van informatie vergaring (information retrieval). Hoe deze takken zich tot elkaar verhouden, is echter een discussiepunt onder informatiewetenschappers.

Diodato (1994) meldt net als Egghe en Rousseau de controverse die er bestaat bij de wetenschappers over de termen bibliometrie, scientometrie en informetrie. Hij ziet bibliometrie als een deel van de informetrie (cfr. Egghe en Rousseau), maar stelt dan dat scientometrie een deel is van de bibliometrie terwijl Egghe en Rousseau wijzen op het ontstaan van de term scientometrie in het Oosten, en die van bibliometrie in het Westen. Citatie-analyse is volgens Diodato een deelwetenschap van de bibliometrie.

Met de komst van het WWW heeft citatie-analyse zich ook uitgebreid naar deze virtuele omgeving. Daarbij spreken we van een apart vakgebied, de webometrie. Een schets van hoe

Page 35: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

35

deze vakgebieden zich tot elkaar verhouden, zien we bij Lennart Björneborn en Peter Ingwersen (2004), in de volgende figuur.

figuuur 12: Webometrie (Björneborn & Ingwersen, 2004)

We kunnen stellen dat webometrie deel uitmaakt van citatie-analyse.

Citatie-analyse is gebaseerd op het erkenningsmechanisme in de wetenschap, dat elk werk dat gepubliceerd wordt, steunt op het werk van eerdere onderzoekers, en daarom citaties ontvangt. We willen een antwoord geven op de vraag welke begrippen in deze deelwetenschap voorkomen, en hoe die begrippen in relatie tot elkaar staan. Citatie-analyse heeft drie toepassingen (Egghe en Rousseau, pg. 203) :

1. kwalitatieve en kwantitatieve analyse van wetenschappers, publicaties en wetenschappelijke instellingen 2. in kaart brengen van de historische ontwikkeling van wetenschap en technologie 3. informatie zoeken en oogsten

Enkele competentievragen (zie ook pg. 28, Gruninger & Fox, 1995) die we zouden moeten kunnen beantwoorden met onze ontologie zouden de volgende kunnen zijn:

hoeveel citaties krijgt een document? wat is de motivatie van de citatie? wat is het percentage zelfcitaties van een onderzoeker? welke zijn de meest geciteerde personen in een vakgebied? heeft de taal van het document invloed op zijn citatie-graad?

4.2. Hergebruik bestaande ontologieën

De volgende vraag die we moeten stellen, is of er reeds een dergelijke ontologie gemaakt is, die we zouden kunnen hergebruiken en aanpassen aan ons doel. Er bestaan verschillende bibliotheken waar ontologieën kunnen gezocht worden. Noy en McGuinness (2001) bevelen de DAML Ontolgy Library aan, naast de Ontolingua ontolgy library op de server van Stanford University Knowledge Systems Laboratory, en er zijn ook commerciële ontologieën als UNSPSC, RosettaNet en DMOZ. Ding en Fensel (2001) beschrijven naast deze reeds vernoemde ook nog SHOE, WebOnto en Ontology Server van de VUB. Zij menen dat de organisatie van ontologieën in bibliotheeksystemen nodig is omwille van de vele vragen

Page 36: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

36

vanuit academische en industriële hoek. Een dergelijk systeem moet wel aan een aantal voorwaarden voldoen om zijn efficiëntie te garanderen: het management omvat de activiteiten bewaring, identificatie en bijhouden van verschillende versies. Dan kan er ook aanpassing gebeuren, zodat gebruikers de ontologieën gemakkelijk kunnen zoeken, zichtbaar maken en gebruiken. Welke graad van standaardisatie is aanwezig: welke ontologie-talen worden ondersteund en welke basisontologieën bieden een basis in het ontologie-bibliotheeksysteem.

4.2.1. De DAML Ontolgy Library

In de DAML Ontology Library ( zie referentie DAML Ontolgy Library) zitten er tweehonderd tweeëntachtig publiek beschikbare ontologieën (laatst bezocht op 9 augustus 2005). Men kan op verschillende karakteristieken zoeken (eigenlijk meer lijsten overlopen), zoals datum van toevoeging, trefwoord, organisatie, URI... Wanneer we zoeken op trefwoord, vinden we vier ontologieën met trefwoord “bibliography”.

Daarbij is de BibTex Ontology een ontologie die overeenkomt met bibliografische beschrijvingen met volgende klassen (zie ook bijlage 1, pg 52):

article, book, booklet, collection, conference, inbook, incollection, inproceedings, manual, mastersthesis, misc, patent, phdthesis, proceedings, techreport, unpublished .

De eigenschappen die alfabetisch opgesomd worden, zijn de volgende:

abstract, address, affiliation, annote, author, booktitle, chapter, contents, copyright, crossref, edition, editor, howpublished, institution, ISBN, ISSN, journal, key, keywords, language, LCCN, location, month, mrnumber, note, number, organization, pages, price, publisher, school, series, size, title, type, URL, volume, year

BibTex is een veel gebruikt programma om bibliografieën te beschrijven. We vinden ze onder andere terug in “The Collection of Computer Science Bibliographies” (zie gelijknamige referentie).

Hoewel bij de andere trefwoorden reference en citation nog vermeld worden om de ontologie te beschrijven, vinden we ze niet expliciet terug onder de klassenbeschrijving. Bij de eigenschappen staat wel crossref. Deze ontologie zou als basis gebruikt kunnen worden om documenten en documenttypes te beschrijven, maar zou nog verder aangevuld moeten worden voor ons doel. Kijken we hoe de ontwikkelaars het domein beschouwden, dan zien we dat een author een eigenschap is van een article of book. We merken op dat klassen hier niet met hoofdletter beginnen. Deze ontologie heeft dus een andere taal dan RDF of OWL.

4.2.2. De Ontolingua Server van Stanford University KSL

Om de server Ontolingua van de Stanford Knowledge Systems Laboratory te kunnen raadplegen, moet men zich eerst identificeren. Als je een nieuwe gebruiker bent, maak je een loginnaam en een paswoord en geef je de instelling op waarvoor je werkt. Dan krijg je een sessie, waarop je moet aangeven hoelang je denkt te werken. Na inloggen vinden we een ontologie met als titel Bibliographic Data. Ze werd laatst aangepast op 18 februari 2001. Er staan volgende karakteristieken vermeld: algemeenheid: zeer laag, rijpheid: hoog, I/O syntax: case sensitive, private by default: no, source-code: bibliographic-data.lisp. Er zitten negenenzeventig definities in deze ontologie.

Page 37: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

37

Verdere gegevens over de ontologie staan in de beschrijving eronder. Voor deze ontologie worden nog vijf andere ontologieën gebruikt: de ontologieën Agents, Documents, Frame-Ontology, Simple-Time en Slot-Constraint-Sugar. Deze ontologieën bevatten volgens de Library of Ontology die op de KSL-server staat respectievelijk acht definites, éénendertig, zevenenzestig, tweehonderd-vierenvijftig en veertien definities. Agents, Documents en Slot-Constraint-Sugar dateren van dezelfde periode als Bibliographic Data (2001). Frame-Ontolgoy en Simple-Time werden zeer recent nog vernieuwd (Juni-Juli 2005).

Het blijkt dat deze ontologie zeer complex is en een zwaargewicht-ontologie is voor de basis van de citatie-analyse, namelijk de documenten en de bibliografische lijsten die ze bevatten. Bij de definitie vinden we terug waarvoor deze ontologie dient: “De Bibliographic-Data Ontologie bevat de termen gebruikt voor het beschrijven van bibliografische referenties. Ze bevat de basisklassen voor referentie-objecten en typen voor de gegevens-objecten”. In de bijlage 2 a (pg. 54) kan men de beschrijving van de bouw van deze ontologie zien. Ook het bijhorende programma in lisp met meer uitleg over de gebruikte termen kan men bekijken in bijlage 2 b (pg. 57). Een nadere studie wijst uit dat Tom Gruber zelf de auteur is van deze ontologie. Hij heeft over deze ontologie ook een artikel geschreven (Gruber, 1995)

Maar begrippen waarnaar we op zoek zijn, zoals impact factor en zelfcitatie komen er niet in voor, deze moeten we dan nog definiëren. We besluiten dat deze ontologie wel zou kunnen voorkomen in een hybride architectuur naast onze ontologie.

4.2.3. SHOE Ontologies

Deze bibliotheek (zie referentie SHOE Ontologies) heeft ook een kladversie van een ontologie genaamd “Document Ontology” die gelijkenissen vertoont met de “Bibliography Ontology” van de DAML bibliotheek. In bijlage 3 (pg. 67) zien we de bouw van deze ontologie.

Het is telkens interessant om te kijken welke visie ontwikkelaars hadden op het domein. Zo blijkt hier een author uitgedrukt als een relatie tussen een Document en een Person. Klassen beginnen met hoofdletter, zodat we een onderscheid kunnen maken in de definitie-lijst.

4.3. Opsommen van belangrijke termen

Welke zijn de termen die we willen verklaren? Dit is een volgende stap die we kunnen zetten in de ontwikkeling van onze ontologie, nog steeds volgens Noy en McGuinness (2001): “Het is nuttig om een lijst te maken van alle termen waarover we beweringen willen maken of die we willen uitleggen aan de gebruiker. Welke zijn de termen waarover we willen praten? Welke eigenschappen hebben deze termen? Wat willen we zeggen over deze termen?...In het begin is het belangrijk om een uitvoerige lijst te bekomen zonder ongerust te worden over overlappingen tussen begrippen die ze voorstellen, tussen relaties onder de termen of gelijk welke eigenschappen deze begrippen zouden kunnen hebben, of als de begrippen nu klassen of slots zijn.”

Als student weten we dat citatie-analyse zich bezighoudt met citaties dat een document, geschreven door een (of meer) auteur(s) ontvangt van een later gepubliceerd document, ook geschreven door een (of meer) auteur(s).

Voor meer termen dan voorgaande in het vet gedrukt gaan we op zoek naar handboeken, woordenboeken, beschrijvingen of thesauri binnen het vakgebied van de citatie-analyse.

Page 38: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

38

We baseren ons op vijf werken. We houden de termen in het Engels, omdat het ook de bedoeling is om onze ontologie in het Engels op te stellen. De termen op deze manier opzoeken en kiezen lijkt een beetje op het werk van Lenat en zijn medewerkers bij het opstellen van hun Knowledge Base voor CYC.

4.3.1 Citation analysis door Egghe en Rousseau

Het werk “Introduction to informetrics: quantitative methods in library, documentation and information science” van Leo Egghe en Ronald Rousseau (1990) is een standaardwerk voor informetrie.

Het derde deel “Citation analysis” levert ons volgende mogelijke termen: “citation indexing, citation and reference, citer motivations and classifications, objections (as self-citation, multiple authorship, homographs, synonyms, types of sources, american bias, english domination...), indicators of scholarly merit, peer judgement, measures of eminence, failure to cite, plagiarism, citation amnesia, field differences, citation networks, citation matrices, citation graphs, bibliographic coupling, coupling strenght, co-citation analysis as measure of relationship, retrospective coupling, prospective coupling, citation measures such as the impact factor...”.

Zij geven aan dat Garfield's boek Citation indexing een algemene referentie is voor dit deel citation analysis. Er is ook een bespreking van de indexen en van het werk van Garfield terug te vinden. Het Institute of Scientific Information ISI heeft deze indexen ter beschikking bij het Web of Knowledge, vroeger Web of Science, als de Science Citation Index ®, de Social Science Citation Index® en de Art and Humanities Citation Index® . Deze indexen hebben een grote impact omdat ze gebruikt worden om het wetenschapsbeleid in vele landen te bepalen.

4.3.2. Citation indexing door Eugene Garfield

Het werk van Eugene Garfield “Citation indexing, its theory and application in science, technology and humanities” geeft weer hoe een index of bibliografische databank voor citatie-analyse opgebouwd wordt (Garfield, 1983). We vinden er begrippen als coverage, citation index, source index, permuterm index, Bradford's law of dispersion, Garfield's law of concentration...Vele van deze begrippen vinden we ook terug in het eerder geciteerde werk van Rousseau (1990).

De citatie- indexen zijn belangrijke zoekinstrumenten. Sedert de full text search technieken winnen ze nog aan belang. Garfield wees er op dat onderwerpsindexen veel vertraging teweegbrengen in het beschikbaar stellen van de inhoud van dergelijke bibliografische databanken. Hier kan gezocht worden door de relatie die er tussen documenten bestaat op basis van onderzoek.

4.3.3. Dictionary of bibliometrics door Virgil Diodato

Een derde werk is de “Dictionary of bibliometrics” van Virgil Diodato (1994). Dit woordenboek presenteert tweehonderdvijfentwintig termen in het domein van de bibliometrie. Diodato (1994) meent dat citatie-analyse een deelwetenschap is van de bibliometrie. Daarom is er soms twijfel of een term die in het boek voorkomt wel behoort tot het vakgebied van citatie-

Page 39: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

39

analyse (bijvoorbeeld is Bradford's law niet meer een bibliometrische term dan een die bij citatie-analyse thuishoort?).

Veel begrippen vinden we onder “citation -” terug: Citable document, citation age, - analysis, - behavior, - biased, - (categorization or function or motivation or taxonomy or) type, - (count or - frequency or) - rate, - factor, - index, - international, - internal, - location, - matrix, - network, - outside, self - or autocitation or citation intrajournal or self citation, hidden, citations mutual, - speed (or mean response time, response tim or time lag citation), successive -. Zoals blijkt uit de vorige opsomming zijn er veel verwijzingen naar synoniemen, en ook naar verwante termen.

4.3.4. Diccionario enciclopédico van Ernesto Spinak

Een volgende werk is van Ernesto Spinak (1996): Diccionario enciclopédico de bibliometría, cienciometría e informetría. Dit werk lijkt wel heel erg op het vorige, behalve dat het in het Spaans geschreven is en de vakgebieden scientometrie, bibliometrie, informetrie en librometrie ontsluit. De auteur verwijst naar het werk van Diodato als “zeer beknopt en basis” en naar dat van Egghe en Rousseau als “een tekstboek met wiskundige inslag”. Verder is de enorme hoeveelheid informatie over het vakgebied terug te vinden in een vier- à vijfduizend gepubliceerde artikels in zo'n tweehonderdtal tijdschriften. De tweehondervijftig termen die uitgelegd worden, zijn voornamelijk gehaald uit zo'n duizend artikels wat ongeveer twee jaar in beslag nam. Spinak maakt duidelijk dat sommige begrippen door verschillende auteurs op een andere manier worden geïnterpreteerd. Wanneer er conflicten in de gebruikte termen voorkwamen, werden bovengenoemde werken van Egghe en Rousseau en van Diodato gevolgd, en daarna in die volgorde Scientometrics, Journal of documentation, Journal of information science en Journal of the american society of information science. We vinden praktisch alle voorgaande termen terug, maar naast de term “citación” vinden we ook nog de term “cita”, wat Spinak naar het Engels vertaalt als “quotation”. Een vreemde term lijkt citación economica, vertaald als parsimonious citation. In het Spaans komt het adjectief na het substantief, wat lijkt op de hiërarchische structuur van een thesaurus en daardoor het opzoekwerk vergemakkelijkt. Onder de term citación vinden we Onder de term factor vinden we (onmiddellijk de Engelse termen overgenomen) consumption factor, echo factor, impact factor, impact factor author, impact factor discipline, impact factor expected, popularity factor. Als we op zoek gaan naar citation index (indice de citación), komen we terecht bij nog achttien andere indices. Onder de term bibliometric index vinden we dat Vinkler een tabel gemaakt heeft met zo'n achtenveertig bibliometrische indices, simpele en samengestelde. Welke horen nu tot het vakgebied citatie-analyse? We kiezen hot-topic index, attractivity index, country coauthorship index, collaborative index, impact index, importance index, influence index, immediacy index, Price's index.

4.3.5. Toward a basic framework for Webometrics van Björneborn & Ingwersen en Sitations, an exploratory study van Ronald Rousseau

Het artikel Toward a basic framework for Webometric van Lennart Björneborn en Peter Ingwersen (2004) wil een typologie en terminologie maken van de termen in het vakgebied van de webometrie. Zij waarschuwen echter tegen een verregaande vergelijking van citatie-analyse en link-analyse.

Kunnen we er wel van uitgaan dat webometrie een deelgebied is van citatie-analyse? Rousseau (1997) wijst erop dat de motivatie voor linken op het web niet vergelijkbaar is met die binnen de wetenschappelijke wereld, omwille van het informele karakter. Maar wanneer

Page 40: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

40

we links zouden beschouwen binnen Google Scholar (dat pas zijn openstelling kende in oktober 2004!) zouden we een meer vergelijkbare situatie krijgen. Rousseau (1997) wou met de studie bewijzen “dat de oude bibliometrische begrippen ook toepasbaar zijn op het nieuwe web”. Hij neemt de term sitation over van McKiernan als een geciteerde website, en breidt die uit met self-sitation, als een link van een website waarvan het eerste deel van het url-adres dezelfde naam heeft.

Björneborn & Ingwersen (2004) houden het meer op de term link. Een outlink is vergelijkbaar met reference en een inlink met citation. Een self-link met een self-citation en een colink met een co-citation. Daarna gaan ze ook webometrie vergelijken met sociale netwerkanalyse, zoals Otte en Rousseau (2002) al eerder deden voor de informatiewetenschap algemeen, maar dit zou ons te ver leiden van ons hoofddoel, een ontologie voor citatie-analyse.

Bij Egghe en Rousseau (1990, pg. 204) vinden we onmiddellijk een verduidelijking van referentie en citatie: gebaseerd op Price, als document R een bibliografische nota bevat die document C gebruikt en beschrijft, dan bevat R een referentie naar C en C ontvangt een citatie van R. Anders gezegd, een referentie is een erkenning die een document aan een ander document geeft, terwijl een citatie een erkenning is die een document van een ander document krijgt. Referentie is dus een begrip dat terugblikt in de tijd, terwijl een citatie vooruitblikt. Onderzoekers nemen het niet zo nauw met deze terminologie, maar voor een ontologie is dit een belangrijk gegeven. Zo zijn deze twee begrippen in zekere zin tegenpolen.

Ook Björneborn en Ingwersen wijzen op deze moeilijkheid, van positie innemen. Dat het web toch nog een ander aspect heeft, is namelijk dat een link in beide richtingen kan gaan, wat bij documenten niet mogelijk is. Dit is een reciprocal link. Maar dat is er niet altijd geweest. Men zou dan elke versie van de site moeten beschouwen om te zien wie eerst naar wie refereerde.

4.3.6. Begrippenlijst voor citatie-analyse

Wanneer we een samenvatting en een herschikking maken van alle gevonden termen in onze voorgaande beschouwingen, krijgen we deze lijst:

author – coauthor coverage document or work citation – cocitation - colink– autocitation or self-citation – self-link – self-sitation– internal citation – citation outside – parsimonious citation – sitation – inlink coupling – of documents? - of authors? index – citation index - factor or measure motivation organization person – researcher – citer – author – network – matrix – graph rate reference – quotation – outlink reciprocal link time

De volgende stappen – het definiëren van de klassen, de klassenhiërarchie en de eigenschappen van de begrippen (de slots) – zijn volgens Noy en McGuinness (2001) sterk

Page 41: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

41

verweven. Het is bijzonder moeilijk eerst de eerste af te maken en dan aan de volgende te beginnen. “Een typische manier van werken is: eerst creëren we enkele definities van de begrippen in de hiërarchie, gaan dan door met de eigenschappen te beschrijven en zo voort. Deze twee stappen zijn wel de meest belangrijke in het ontologie-ontwerp proces.”

4.4. Klassen en klassenhiërarchie definiëren

De verschillende benaderingen om een klassenhiërarchie te ontwikkelen zijn die van Uschold en King(1995) (zie pg. 20) en Uschold en Gruninger (1996), die Noy en McGuinness toelichten aan de hand van hun wijnontologie.

4.4.1. De top-down benadering

Een top-down benadering start met de definitie van de meest algemene begrippen in het domein, en men gaat vervolgens naar de specialisatie van de begrippen. De meest algemene begrippen in de citatie-analyse zijn volgens ons author, work, affiliation, time, reference, citation, factor, index, motivation, network. De eerste vijf begrippen vinden we ook al terug in de ontologieën van Ontolingua, namelijk in Agents, Time, Documents en Bibliographic Data.

We kunnen ons bijvoorbeeld eens verder concentreren op het begrip citation. Stel dat we citation als een klasse zouden beschouwen. Welke subklassen van citation bestaan er? We moeten er rekening mee houden dat als we eigenschappen voor een klasse zullen definiëren, al die eigenschappen overgeërfd zullen worden door de subklassen. In ons lijstje zijn alle begrippen die naast citation staan speciale vormen van “een erkenning geven”. Zijn ze ondergeschikt of evenwaardig of hoeven ze geen aparte definitie? En wat doen we met inlink? Is die analoog ? Die heeft toch wel heel andere eigenschappen dan een citatie, alleen al omwille van het medium.

Misschien is de categorie motivation beter in te delen? Hierover vinden we veel uitleg bij Egghe en Rousseau (1990, pg. 211-216). We vinden er twee lijsten van motivaties: die van Weinstock als zijnde serieuze, verantwoorde motivaties, en die van Thorne als zijnde meer “strategische” motivaties. Er zijn ook vier groepen met elk een paar categorieën, gedetermineerd door Moravcsik en Murugesan: - conceptueel of operationeel

- organisch of plichtmatig - evolutionair of nevengeschikt - bevestigend of ontkennend

Maar de meest vergaande onderverdeling vinden we als het classificatieschema van Chubin-Moira. Daarin is een citation negatief (gedeeltelijk of geheel) of bevestigend. Bevestigend wordt onderverdeeld in essentieel of supplementair, essentieel in fundamenteel of ondergeschikt, supplementair wordt dan weer onderverdeeld in aanvullend of plichtmatig. We kunnen misschien stellen dat dit een eigenschap is van een citatie. Is een motivation nu een klasse of een eigenschap?

4.4.2. De bottom-up benadering.

De volgende benadering is de bottom-up benadering. Dit is het bepalen van de meest specifieke klassen, de “bladeren van de boom” hiërarchie. In de wijnontologie wordt hier een

Page 42: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

42

specifieke wijn genoemd. De bladeren of eindpunten zijn dus de instanties zelf. Dus een voorbeeld van een citatie, of een persoon.

Stel dat we het eerder vermelde boek “Introduction to informetrics: quantitative methods in library, documentation and information science” met auteurs Egghe en Rousseau als voorbeeld nemen. Dit werk heeft bv. honderdveertig citaties ontvangen in Google Scholar. We zien citatie als een inverse van een referentie. Dus moeten we dan de werken die dit boek citeren, ingeven als citaties van het boek.

4.4.3. De middenweg - benadering

We kunnen deze citaties ook onderverdelen in zelfcitatie, interne citatie, referentie-citatie (in de zin van dat het in een referentielijst staat).

4.4.4. Problemen bij het determineren van de klassen

We zitten met het probleem of een motivatie van een citatie zelf een citatie is, namelijk uitgedrukt als adjectief (een substantiële citatie, een kritiek-gevende citatie). Een van de eerste regels om te controleren of onze hiërachie correct is, is de relatie “is een” gebruiken. A is een subklasse van B als elke instantie van B ook een instantie is van A. “Een subklasse van een klasse vertegenwoordigt een begrip dat een “soort van” begrip is dat de superklasse vertegenwoordigt” (Noy en McGuinness, 2001). Hieruit zouden we kunnen concluderen dat een motivatie een aparte klasse is, en geen soort citatie.

Een andere valkuil vormen de synoniemen. Een onderzoeker is meestal een auteur, en een auteur is altijd iemand die citeert. Het zijn dus allemaal namen voor dezelfde klasse. Dit kan in de beschrijving van de klasse opgenomen worden.

We zitten ook met het probleem of een citatie eigenlijk een klasse is, of een eigenschap, of een relatie. We menen dat het een relatie is tussen een werk en een ander werk, als inverse van de relatie referentie. Hier zien we het essentiële verschil tussen de twee ontologieën Document Ontology en Bibliographic Data, de eerste ziet een referentie als een relatie, namelijk containedIn(Document, Document) (pg. 68) en de tweede beschouwt een referentie als een klasse met zijn eigenschappen (pg. 55).

Gruber legt uit waarom hij van een referentie ook een klasse maakt: door document en referentie onafhankelijk van elkaar te plaatsen, kunnen er integriteitsbeperkingen afgedwongen worden, en kunnen de data in de verschillende velden vergeleken worden (Gruber, 1995, pg. 922), zoniet belandt men in een cyclus die een oneindige computerbewerking impliceert. Hier zien we dat het doel van de ontologie belangrijk is en het perspectief van waaruit men naar de ontologie kijkt.

Wanneer moeten we een nieuwe klasse creëren (of niet), of wanneer is het een eigenschap van een vorige klasse? Dit zijn enkele van de moeilijkste vragen waarmee we geconfronteerd worden, maar er zijn vuistregels voor goede praktijk.

Het voorbeeld van de wijnontologie geeft een zelfde probleem: is witte wijn een klasse of een eigenschap, die we uitdrukken als “kleur”? Dit hangt af van hoe gedetailleerd men de ontologie zal maken. Als de kleur er niet veel toe doet en geen belangrijke invloed heeft op relaties met andere elementen in de ontologie, dan beschouwt men het als eigenschap. Wanneer de wijn echter gecombineerd wordt met voedsel, zijn er belangrijke eigenschappen, die ervoor zorgen dat we van rode en witte wijn twee zusterklassen maken. Dus als we weer

Page 43: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

43

de motivatie bij een citatie beschouwen, zouden we kunnen nagaan of dit voor ons een belangrijk begrip is. Gaan we proberen netwerken bloot te leggen? Dan is motivatie wel belangrijk. Als we echter meer geconcentreerd zijn op het mathematische aspect (citaties tellen), dan is het meer een eigenschap.

Hoe diep gaan we in de classificatie? Wanneer is het begrip een klasse of een instantie? Je hebt bijvoorbeeld citaties van een werk of van een pagina of een begrip uit een werk (zoals in deze context, de definitie van Gruber of het artikel van Gruber waaruit die definitie komt). Noy en McGuinness (2001) spreken van “granulariteit” van de ontologie. De graad van granulariteit wordt alweer bepaald door de mogelijke toepassingen van de ontologie. In de wijnontologie wordt hier het voorbeeld van de naam van de wijn gebruikt. Als we wijn koppelen aan voedsel zullen we aan de naam van de wijn als de meest specifieke term voldoende hebben. Maar als we de wijnkelder van een chique restaurant willen vullen, zullen alle verschillende oogsten belangrijk zijn en hebben we met de naam alleen niet genoeg informatie.

Wanneer is onze ontologie compleet? “Een ontologie hoeft niet alle informatie over het domein te bevatten. Je moet niet meer specialiseren (of generaliseren) dan nodig is voor je toepassing (maximaal één niveau meer in beide richtingen)” is een geruststelling die Noy en McGuinness geven.

We hebben niet onmiddellijk de intentie om citatie-analyse als een vorm van netwerk-analyse te beschouwen (dit is wel belangrijk voor de sociale wetenschappen, en indien daar een ontologie voor uitgewerkt wordt, kan de citatie-analyse misschien gebruik maken van deze begrippen). Dan houden we volgende klassen over: Author, Work (or Document or Biblio), Reference, Citation, Organization (or Agent), Factor, Index, Time. Cocitation en Autocitation zijn subklassen van Citation. Als een bepaalde citatie niet tot een van die beiden behoort, is het een instantie van de klasse Citation. Dit is een mogelijke indeling in klassen: figuur 13.

figuur 13: overzicht van de klassen van Citationanalysis

Page 44: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

44

4.5. Eigenschappen of slots van klassen definiëren

De volgende stap bij Noy en McGuinness (2001) is het bepalen van de slots. Klassen alleen kunnen onze competentievragen niet beantwoorden. Daarvoor moeten we eigenschappen of de interne structuren van begrippen formuleren.

De lijst die we maakten onder 4.3. hebben we gebruikt om onze klassen te bepalen. Wat er nog rest zijn meestal eigenschappen van deze klassen. Als we de term niet kunnen onderbrengen als een eigenschap, hebben we vermoedelijk toch nog met een klasse te maken.

Een object kan verschillende soorten eigenschappen hebben, intrinsieke, dus eigen aan het object (bijvoorbeeld de smaak van de wijn, of voor citaties de taal? het onderwerp waarover de werken handelen?), extrinsieke (zoals wijn: de naam en het gebied waar het vandaan komt, aantal keren geciteerd worden), delen en relaties met andere individuen.

Coupling en rate hebben nog geen bestemming gekregen, en zijn volgens ons eigenschappen van citation. In onze competentievragen is er ook sprake van taal en vakgebied, maar deze eigenschappen vinden we in de andere ontologieën Document en Bibliographic Data terug. We gaan ervan uit deze klassen en hun eigenschappen over te nemen. Maar een citatie heeft dezelfde basis-eigenschappen als een referentie.

Problemen bij het bepalen van eigenschappen.

Volgens Noy en McGuinness is het redundant om de informatie die twee kanten uitgaat, en die tegengestelden zijn van elkaar, ook tweemaal op te slaan; elk systeem kan de omkering maken. Toch is het goed om expliciet te maken dat die slots elkaars inverse zijn. Dit wordt enkel besproken bij slots, niet bij klassen.

4.6. Facetten van slots definiëren

Slots hebben ook nog “eigenschappen” of beperkingen of facetten: de waarde die toegestaan is, het soort waarde, het aantal waarden (cardinaliteit). Een slotwaarde dat uit een opsomming komt, is in Protégé van het type Symbol. Zie figuur 14.

Wanneer we een de “value type” Instance kiezen, moeten we een klasse opgeven. Zo kunnen we een relatie leggen tussen de huidige klasse of subklasse en een andere.

figuur 14: beeld van de facetten van een slot

Dit noemen we het bereik van de eigenschap bepalen. De klasse waaraan de eigenschap gekoppeld wordt, wordt het domein van de eigenschap genoemd.

Page 45: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Deel 2 Ontologie voor citatie-analyse: 4. Praktische toepassing Martine Dewulf

45

Er zijn enkele regels die men moet volgen als men het domein en het bereik van de eigenschap wil bepalen.

Zoek de meest algemene klasse om het domein of het bereik van een eigenschap te definiëren. Aan de andere kant moet je geen domein of bereik beschrijven dat te algemeen is, zoals bv. voor THING. Dit is de meest algemene klasse in de ontologie.

4.7. Instanties toevoegen

Wanneer men de instanties toevoegt, wordt de ontologie ook functioneel en opzoekbaar. Dit is hier niet onze bedoeling.

4.8. Besluit

We hebben geprobeerd een ontologie over citatie-analyse te maken. Daarbij moesten we nadenken over het domein citatie-analyse, haar begrippen, eigenschappen en mogelijke waarden.

Dat dit een moeilijke oefening was, hebben we aan den lijve ondervonden, want vaak is men vastgeroest in een bepaald beeld dat men over zaken heeft. Om het met Marvin Minsky te zeggen: hoe meer kennisrepresentaties we hebben over een bepaald onderwerp, hoe beter we onze problemen kunnen oplossen (Minsky, 1994).

Page 46: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

5. Samenvatting Martine Dewulf

46

5. Samenvatting

Met deze scriptie hebben we ons verdiept in het begrip ontologie, en wat het voor verschillende wetenschappen kan betekenen. Er werd een poging gedaan het begrip te plaatsen binnen het domein van kennisrepresentatie voor de bibliotheek en informatiewetenschap. De bestanddelen van de ontologie werden ontleed, met name de syntax, de semantiek en de logica.

Het gebruik van een ontologie werd bepaald, en daarbij onthouden we het gebruik in specifieke toepassingen, het gebruik voor menselijke communicatie en het gebruik voor informatie zoeken. Of het gebruik van ontologieën zal slagen om van het syntactisch web het semantisch web te maken moet de toekomst nog uitwijzen.

We gingen op zoek naar methodologieën om zelf een ontologie te bouwen. Daarbij werden de methodes van verschillende onderzoeksteams belicht. We vonden het belangrijk om het ook eens door de bril van een kennismanager te bekijken, omdat een ontologie bouwen wel een specifiek geval van kenniscreatie is.

Daarna hebben we gepoogd zelf een ontologie te maken, om na te denken over het vakgebied van de citatie-analyse. Met veel enthousiasme zijn we begonnen, maar naarmate we verdere stappen moesten nemen, moeilijke beslissingen en overwegingen moesten maken, werden we geconfronteerd met onze beperkte kennis binnen dit domein, of kunnen we zeggen onze eigen onwetendheid? Toch hebben we al veel bijgeleerd en een primitieve ontologie met enkele relaties en beperkingen kunnen bepalen. Als we moeilijke keuzen moesten maken leverde het ontleden van bestaande ontologieën dikwijls interessante informatie.

Page 47: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bibliografie Martine Dewulf

47

Bibliografie Abou-Zeid (2003): El-Sayed Abou-Zeid: What can ontologists learn from knowledge management? Journal of computer information systems. (2003), Spring, pg. 109-117.

Arano (2005): Silvia Arano. Thesauruses and ontologies. "Hipertext.net", num. 3, 2005. [Available at http://www.hipertext.net/english/pag1009.htm ] [laatst bezocht op 8 augustus 2005]

Bateman (1992) : John A. Bateman: The Theoretical Status of Ontologies in Natural Language Processing. 43 p. [Available at http://arxiv.org/PS_cache/cmp-lg/pdf/9704/9704010.pdf ]

Benjamins et al. (1999): V. Richard Benjamins, Dieter Fensel, Stefan Decker, Asuncion Gomez-Perez. (KA)2 : building ontologies for the Internet :a mid-term report. International Journal of human-computer studies, Vol. 51(1999), p. 687-712

Björneborn & Ingwersen (2004): Lennart Björneborn and Peter Ingwersen. Toward a Basic Framework for Webometrics. Journal of the American society for information and sicence technology, Vol. 55(2004) nr. 14 pg. 1216 –1227

Brickley & Guha (2004): Dan Brickley, R.V. Guha (eds.). RDF Vocabulary Description Language 1.0: RDF Schema. [Available at http://www.w3.org/TR/rdf-schema/ ]

Collection of Computer Science Bibliographies : [ Available at http://liinwww.ira.uka.de/bibliography/ ]

Computational Philosophy Glossary. http://www.crumpled.com/cp/cpglossary.html [laatst bezocht op 4 juli 2005]

Corcho et al. (2003): Oscar Corcho, Mariano Fernández-López, Asunción Gómez-Pérez. Methodologies, tools and languages for building ontologies. Where is their meeting point? Data & Knowledge Engineering, Vol. 46 (2003) p. 41-64.

DAML Ontology Library: http://www.daml.org/ontologies/

Davis et al. (1993): Randall Davis, Howard Shrobe and Peter Szolovits. What is a knowledge representation? AI Magazine, Vol. 14, (1993) Spring, p. 17-33.

Ding (2001): Ying Ding. A review of ontologies with the Semantic Web in view. Journal of Information Science, 27 (6) 2001, pp. 377–384

Diodato (1994): Virgil Diodato. Dictionary of bibliometrics. New York: Haworth, 1994.

Egghe & Rousseau (1990): Leo Egghe and Ronald Rousseau: Introduction to Informetrics : quantitative methods in library, documentation and information science. Elsevier Science Publishers. [Available at http://eprints.rclis.org/archive/00003297/ ]

Page 48: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bibliografie Martine Dewulf

48

Garfield (1983): Eugene Garfield: Citation indexing, its theory and application in science, technology, and humanities. Reprinted in 1983 by ISI Press, originally published by John Wiley & Sons 1979.

Gilchrist, Alan (2003): Thesauri, taxonomies and ontologies - an etymological note. Journal of Documentation. Vol. 59 (2003), 1, p. 7-18

Glossary of knowledge modelling terms [Available at http://kmi.open.ac.uk/projects/irs/glossary.html ]

Gruber (1993): Gruber, Thomas: What is an ontology? [Available at http://www-ksl.stanford.edu/kst/what-is-an-ontology.html ]

Gruber (1995): Gruber, Thomas R. : Toward principles for the design of ontologies used for knowledge sharing. International Journal of Human Computer Studies, 43, 5/6 (1995), pg; 907–928 [Also Available as Technical report KSL, 93-04 at : http://www.itee.uq.edu.au/~infs3101/_Readings/OntoEng.pdf ]

Guarino & Giaretta (1995): Nicola Guarino, Pierdaniele Giaretta: Ontologies and Knowledge Bases. Towards a terminological clarification. http://www.loa-cnr.it/Papers/KBKS95.pdf

Guarino, Nicola (1996): Understanding, building and using ontologies. http://ksi.cpsc.ucalgary.ca/KAW/KAW96/guarino/guarino.html

Hayes, Patrick (1999) : Patrick Hayes. Knowledge representation. The MIT encyclopedia of Cognitive Science, 1999. Massachusetts Institute of Technology http://www.cs.umbc.edu/771/papers/hayesp.html

Horrocks et al. (2003): Ian Horrocks, Peter F. Patel-Schneider, and Frank van Harmelen. From SHIQ and RDF to OWL: The making of a web ontology language. Journal of Web Semantics, 2003. [Available at http://www.cs.man.ac.uk/~horrocks/Publications/download/2003/HoPH03a.pdf ]

Horrocks. (2004) Ian Horrocks. Reasoning with Expressive Description Logics: Logical Foundations for the Semantic Web. Keynote talk at ICIIP, Beijing, China, October 2004. [Slides available at http://www.cs.man.ac.uk/~horrocks/Slides/index.html ]

Jasper & Uschold (1999): Robert Jasper and Michael Uschold: A framework for understanding and classifying ontology applications. In Twelfth Workshop on Knowledge Acquisition Modeling and Management KAW’99, 1999. [Available at http://fac-staff.seattleu.edu/jasperr/web/papers/final-ont-apn-fmk.pdf ]

KBSI IDEF5 (1994): IDEF5 Method report. Texas: Knowledge Based Sysems, Inc., 1994. [Available at http://www.idef.com/pdf/Idef5.pdf ]

KIF Knowledge Interchange Format [Available at http://logic.stanford.edu/kif/dpans.html ]

Page 49: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bibliografie Martine Dewulf

49

Kircz et al. (2005): Joost Kircz, Gert Goris en Gusta Drenthe. Bouwstenen voor semantisch publiceren: van thesaurusverrijking naar ontologieën, Informatie Professional 9(2005) 2, febr. p. 24-27.

Lassila & McGuinness [2001]: Ora Lassila and Deborah McGuinness. The role of frame-based representation of the semantic web. Technical Report KSL-01-02 [Available in html at http://www.ksl.stanford.edu/people/dlm/etai/lassila-mcguinness-fbr-sw.html ] [Available in pdf at http://www.ida.liu.se/ext/epa/ej/etai/2001/018/01018-etaibody.pdf ]

Lenat D.B. & Guha R.V. (1990): Building large knowledge-based systems: representation and inference in the Cyc Project, Addison-Wesley, Boston, 1990.

Manola & Miller (2004) : Frank Manola and Eric Miller (eds.) RDF Primer. [Available at http://www.w3.org/TR/2004/REC-rdf-primer-20040210/ ]

Metamodel.com (2005): What are the differences between a vocabulary, a taxonomy, a thesaurus, an ontology and a meta-model? [Available at: http://www.metamodel.com/artikcle.php?story=20030115211223271 ]

Minsky (1994) Marvin Minsky. Will robots inherit the earth? [Available at: http://web.media.mit.edu/~minsky/papers/sciam.inherit.html ]

Nieuwenhuysen (2004): Paul Nieuwenhuysen: Documentaire informatiemarkt 2004-2005. Brussel: Dienst uitgaven VUB, 2004. [Available online at http://www.vub.ac.be/BIBLIO/nieuwenhuysen/courses/docinfo/index.html ]

Nonaka & Takeuchi (1991): Ikujiro Nonaka and Hirotaka Takeuchi.The knowledge-creating company. Harvard Business review. Nov-Dec.(1991) pg. 96-104.

Nonaka & Takeuchi (1997): Ikujiro Nonaka, Hirotaka Takeuchi. De kenniscreërende onderneming: hoe Japanse bedrijven innovatieprocessen in gang zetten. Schiedam: Scriptum, 1997 [figure of the SECI-model from the original book 1995 available at http://www.12manage.com/methods_nonaka_seci_nl.html ]

Neches et al. (1991): Robert Neches, Richard Fikes, Tim Finin, Thomas Gruber, Ramesh Patil, Ted Senator, and William R. Swartout. Enabeling technology for knowledge sharing. AI Magazine, Vol.12, No. 3, Fall 1991. [Available at: http://www.csee.umbc.edu/~finin/papers/aim91/ ]

Noy & McGuinness (2001): Natalya F. Noy and Deborah L. McGuinness: Ontology development 101: a guide to creating your first ontology. [Available at: http://www-protege.stanford.edu/publications/ontology_development.html ]

Ontology: a resource guide for philosophers. http://www.formalontology.it/section_4.htm en http://www.formalontology.it/table_onto_frames_file/slide0001.htm

OpenCyc.org: http://www.opencyc.org/

Page 50: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bibliografie Martine Dewulf

50

Otte & Rousseau (2002): Evelien Otte, Ronald Rousseau. Social network analysis: A powerful strategy, also for the information sciences. Journal of Information Science, Vol. 28 (2002) nr. 6, pg. 441–454. Protégé: http://protege.stanford.edu/

Patel-Schneider et al. (2004): Peter F. Patel-Schneider, Patrick Hayes, Ian Horrocks. OWL Web Ontology Language Semantics and Abstract Syntax. W3C Recommendation. [Available at: http://www.w3.org/TR/owl-semantics/ ]

Rousseau (1997): Ronald Rousseau. Sitations: an exploratory study. Cybermetrics. Vol. 1 (1997) nr. 1. [Available at http://www.cindoc.csic.es/cybermetrics/ articles/v1i1p1.pdf ].

Rousseau [2004]: Ronald Rousseau. Kennisrepresentatie. [onuitgegeven cursus] [s.l.]: Universiteit Antwerpen – IBW [2004].

Rousseau & Rousseau (2002): Brendan Rousseau and Ronald Rousseau: Some ideas concerning the semantic web. Library and Information Service, 2002, 8, p. 39-49.

SHOE Ontologies: [Available at http://www.cs.umd.edu/projects/plus/SHOE/onts/index.html ]

Smith, Barry (2003): Draft version of chapter published in Luciano Floridi (ed.), Blackwell guide to the Philosophy of Computing and Information, Oxford: Blackwell, 2003, 155-166. [Available at: http://ontology.buffalo.edu/smith/articles/ontology_PIC.pdf ]

Smith et al. (2005): Barry Smith, Werner Ceusters, Bert Klagges, Jacob Köhler, Anand Kumar, Jane Lomax, Chris Mungall, Fabian Neuhaus, Alan L. Rector and Cornelius Rosse: Relations in biomedical ontologies.

Sowa (1999): John F. Sowa. [Cited definition of ontology available at http://www.jfsowa.com/ontology/ ]

Spinak (1996): Ernesto Spinak. Diccionario enciclopédico de bibliometría, cienciometría e informetría. Caracas (Venezuela): UNESCO, 1996. 245 pg.

Stanford University Knowledge Systems Laboratory, Stanford KSL Network Services: http://www-ksl-svc.stanford.edu:5915/

Stuckenschmidt & van Harmelen (2005): Heiner Stuckenschmidt, Frank van Harmelen: Information sharing on the semantic web. Springer: Berlin, 2005. 276 p.

SUMO: Suggested Upper Merged Ontology http://www.ontologyportal.org/

Page 51: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bibliografie Martine Dewulf

51

Uschold & King (1995): Mike Uschold, M. King: Towards a methodology for building ontologies. in: IJCAI95 Workshop on basic ontological issues in knowledge sharing, Montreal, 1995. [Available at http://citeseer.nj.nec.com/uschold95toward.html ]

Van den Berg, Eric (2005): Het semantisch web: nieuwe www-dimensie. Informatie Professional, 9(2005)2, p. 28-33.

van den Brink (2004): Paul van den Brink. Een essentiële bijdrage aan kennisdelen. Informatieprofessional Vol. 8(2004) nr. 5, pg. 18-21

Vermeersch (2005): Etienne Vermeersch. Historisch overzicht van de wijsbegeerte. [cursus online, available at http://www.etiennevermeersch.be/cursussen/historisch_overzicht_wijsbegeerte/richting_talen ]

Vickery, B.C., 1997, "Ontologies", Journal of Information Science, Vol. 23 (1997), nr. 4, pg. 277-86.

OntologyWorks citeert Barry Smith http://ontologyworks.com/what_is_ontology.php

Wikipedia. http://en.wikipedia.org/wiki/Ontology_(computer_science)

WordNet Lexicon http://wordnet.princeton.edu/

Page 52: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 1: DAML Ontology Library: Ontology Bibtex Martine Dewulf

52

Bijlage 1: DAML Ontology Library: Ontology Bibtex Link http://www.isi.edu/webscripter/bibtex.o.daml (hyperdaml) (dumpont) Description The BibTex ontology is a one-to-one mapping to the BibTex types and fields, as defined in The LaTeX Companion and Dana Jacobsen's BibTex tutorial at http://www2.ecst.csuchico.edu/~jacobsd/bib/formats/bibtex.html

Point of Contact Baoshi Yan, Martin Frank of USC Information Sciences Institute, Distributed Scalable Systems Division

Submitter Baoshi Yan, Martin Frank of USC Information Sciences Institute, Distributed Scalable Systems Division

Submission Date 2001-02-01

Keywords bibliography BibTex citation reference

Open Directory Categories Computers: Software: Typesetting: TeX: BibTeX Reference: Libraries: Library and Information Science: Technical Services: Cataloguing: Bibliographic Utilities Reference: Libraries: Library and Information Science: Technical Services: Cataloguing: Metadata: Resource Description Framework - RDF Â

Classes article book booklet collection conference inbook incollection inproceedings

manual mastersthesis misc patent phdthesis proceedings techreport unpublished

Page 53: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 1: DAML Ontology Library: Ontology Bibtex Martine Dewulf

53

Properties abstract address affiliation annote author booktitle chapter contents copyright crossref edition editor howpublished institution ISBN ISSN journal key keywords

language LCCN location month mrnumber note number organization pages price publisher school series size title type URL volume year

Namespaces Used http://www.daml.org/2001/03/daml+oil http://www.w3.org/1999/02/22-rdf-syntax-ns

Funding Source DARPA DAML Program

Notes There should be a common superclass for Article, InProceedings, and so on, but there isn't.

Page 54: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 a: De ontologie Bibliographic Data Martine Dewulf

54

Bijlage 2 a: De ontologie Bibliographic Data op de server van Ontolingua, Stanford University Knowledge Systems Laboratory Ontology BIBLIOGRAPHIC-DATA

• Last modified: Thursday, 18 January 2001 • Generality: Very low • Maturity: High • I/O Syntax: Case Insensitive • Private by default: No • Source code: bibliographic-data.lisp

Ontology documentation: The bibliographic-data ontology defines the terms used for describing bibliographic references. This ontology defines the basic class for reference objects and the types (classes) for the data object

Summary of Bibliographic-Data:

Bibliographic-Data includes the following ontologies: Agents Documents Frame-Ontology Simple-Time Slot-Constraint-Sugar No ontologies include Bibliographic-Data. 38 classes defined: Article-Reference Artwork-Reference Author-Name Biblio-Name Biblio-Nl-Text Biblio-Text Book-Publication-Data-Constraint Book-Reference Book-Section-Reference Cartographic-Map-Reference City-Address Computer-Program-Reference Conference Doctoral-Thesis-Reference Edited-Book-Reference Generic-Unpublished-Reference Inherits-Author-From-Document Inherits-Publisher-From-Document Inherits-Title-From-Document

Inherits-Year-From-Document Journal-Article-Reference Keyword Magazine-Article-Reference Masters-Thesis-Reference Misc-Publication-Reference Multimedia-Document-Reference Newspaper-Article-Reference Non-Publication-Reference Personal-Communication-Reference Proceedings Proceedings-Paper-Reference Publication-Reference Publisher-Name Reference Technical-Manual-Reference Technical-Report-Reference Thesis-Reference Title

Page 55: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 a: De ontologie Bibliographic Data Martine Dewulf

55

Class hierarchy (38 classes defined):

Biblio-Text Biblio-Name Author-Name City-Address Keyword Publisher-Name Biblio-Nl-Text Conference Proceedings Reference Non-Publication-Reference Generic-Unpublished-Reference Personal-Communication-Reference Publication-Reference Article-Reference Journal-Article-Reference Magazine-Article-Reference Newspaper-Article-Reference Book-Publication-Data-Constraint Book-Reference Edited-Book-Reference Book-Section-Reference Book-Reference ... Book-Section-Reference Inherits-Author-From-Document Artwork-Reference Book-Reference ... Cartographic-Map-Reference Computer-Program-Reference Multimedia-Document-Reference Technical-Manual-Reference Technical-Report-Reference Thesis-Reference Doctoral-Thesis-Reference Masters-Thesis-Reference Inherits-Publisher-From-Document Book-Publication-Data-Constraint ... Inherits-Title-From-Document Artwork-Reference Book-Reference ... Cartographic-Map-Reference Computer-Program-Reference Multimedia-Document-Reference Technical-Manual-Reference Technical-Report-Reference Thesis-Reference ... Inherits-Year-From-Document Artwork-Reference Book-Publication-Data-Constraint ... Cartographic-Map-Reference Multimedia-Document-Reference Proceedings-Paper-Reference Technical-Manual-Reference Technical-Report-Reference Thesis-Reference ... Misc-Publication-Reference Artwork-Reference Cartographic-Map-Reference Computer-Program-Reference Multimedia-Document-Reference Technical-Manual-Reference Proceedings-Paper-Reference Technical-Report-Reference Thesis-Reference ... Title

Page 56: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 a: De ontologie Bibliographic Data Martine Dewulf

56

16 relations defined:

No individuals defined. 186 unnamed axioms defined. No named axioms defined.

25 functions defined:

Author.Name-Of Conf.Address Conf.Date Conf.Organization Conference-Of Edition-Of Name Ref.Abstract Ref.Booktitle Ref.Day Ref.Document Ref.Edition Ref.Issue

Ref.Magazine-Name Ref.Month Ref.Newspaper-Name Ref.Number-Of-Volumes Ref.Organization Ref.Pages Ref.Periodical Ref.Publisher Ref.Report-Number Ref.Type-Of-Work Ref.Volume Ref.Year

Has-Author-Name Has-Name Has-Penname Has-Textual-Representation Publisher.Address Ref.Address Ref.Author Ref.Editor Ref.Keywords

Ref.Labels Ref.Notes Ref.Secondary-Author Ref.Secondary-Title Ref.Series-Editor Ref.Tertiary-Author Ref.Translator

Page 57: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

57

Bijlage 2 b : inhoud van bibliographic-data.lisp (In-Package "ONTOLINGUA-USER") ;;; Written by user Jessicaj from session "rkf" owned by group JUST-ME ;;; Date: Nov 11, 2000 09:58 ;;; Definitions: 79 (Define-Ontology Bibliographic-Data (Simple-Time Agents Frame-Ontology Slot-Constraint-Sugar Documents) "The bibliographic-data ontology defines the terms used for describing bibliographic references. This ontology defines the basic class for reference objects and the types (classes) for the data objects that appear in references, such as authors and titles. Specific databases will use schemata that associate references with various combinations of data objects, usually as fields in a record. This ontology is intended to provide the basic types from which a specific database schema might be defined. <H3>Notes:</H3> <UL>Author: Thomas Gruber Version: 3The objective of this ontology is to define the concepts and relationships that underlie a family of databases and tools in the domain of bibliographies. Such a conceptualization is intended to help with automatic translation among existing databases, to enable the development of reference-formatting styles that are independent of database or tool, and to support remote services such as bibliography database search and reference-list generation. An ontology can be partitioned into ontologies. This file contains the BIBLIOGRAPHIC-DATA ontology, which establishes the basic terminology. Child ontologies that include (specialize) the bibliographic-data ontology will describe the constraints of specific bibliographic databases and tools. Basic ontological commitments: A bibliography is made up of references. A REFERENCE describes the information needed to identify and retrieve a publication. A publication is associated with a DOCUMENT of some sort (e.g., a book or journal). In some cases there are several publications per document (e.g., papers in an edited collection). Thus documents are distinguished from references. Documents are created by AUTHOR s, which are PEOPLE or other agents (e.g., ORGANIZATION ). They are published by PUBLISHER s or other organizations. Bibliographic-Data includes a simple ontology of time, Time-Points. A TIMEPOINT is a specification of a single point in historical time. CALENDAR-DATE is a timepoint at the resolution of days; that is, the day, month, and year are known. A CALENDAR-YEAR is a timepoint at the resolution of years. The publication date of a DOCUMENT is some kind of timepoint; for many publications only the year is known. Events such as a CONFERENCE also occur on dates specified with timepoints. All documents have titles. TITLEs are names (strings of characters), as are AGENT-NAME s, CITY-ADDRESS es, and other data types that are used as identifiers and are not further destructured. The class called BIBLIO-NAME is a place holder for these atomic identifiers. The class BIBLIO-NL-TEXT is for strings of characters meant for human reading, rather than as an identifier. The most interesting ontological commitment is the distinction between the data fields in a reference and the facts about documents. Facts are stated as relationships over and properties of explicitly-represented objects. For example, some facts are about publishers: the publisher name, the city with which the publisher is associated, and the year of (latest) publication. In a document, the PUBLISHER-OF is an ORGANIZATION. In a REFERENCE, the REF.PUBLISHER is the NAME of the publisher, and the REF.ADDRESS is the PUBLISHER.ADDRESS of the document's publisher. The REF.YEAR of the reference is a number, which is the year-of of the Publication-Date-Of (a timepoint) of the document associated with a reference. Thus, in a reference -- the entity we are trying to share – many of the facts have been mapped onto these atomic data types such as name strings, title strings, and numbers. In a document, some of the meaning of these data types can be

Page 58: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

58

stated as logical constraints. This is in the spirit of the Cyc project, which aims to provide the background knowledge behind the narrow, brittle representations of expert systems and conventional databases. This distinction between data in references and facts in other parts of the ontology is there to support the interoperability of tools that commit to this ontology, and the integration of this ontology and associated databases with other ontologies and databases. Part of the incompatibility between bibliography databases and tools is due to different encodings and presentations of the same information. For example, one database might encode a date as a string, another as a structured record of integer fields. Their ontological commitments might be the same -- they might both support years and months for a magazine article reference -- but their encodings mask their conceptual agreement. Similarly, different bibliography formatting styles might disagree on whether a publisher city is required for a given reference type, but they both agree that the city is a function of the publisher (not a name for it found in some reference field). Explicitly representing agents (authors), organizations (publishers), events (conferences), and time (publication dates) as objects in the conceptualization allows one to write knowledge-full constraints about how the data fields are related. Capturing these constraints is part of good database design, because it reduces redundancy and anticipates integration with other databases. For example, associating author and publisher names (which are all that appear in references) with independently defined agents ensures that these agents will be named consistently in the references and facilitates the importation of data on authors and publishers from other databases. This ontology is a set of definitions of classes, relations, and functions. It is represented in Ontolingua forms, which use KIF as the formal language and English documentation strings to describe meanings that we haven't formalized. We are using a slightly new-and-improved syntax for Ontolingua, in which the result variable of a function resides next to the argument list. Also, some new second-order relations are introduced (SAME-VALUES, HAS-SOME, HAS-ONE, CAN-HAVE-ONE, CANNOT-HAVE, HAS-ONE-OF-TYPE, COMPOSE). These are defined in an ontology called slot-constraint-sugar, and ontolingua turns sentences in these forms into their canonical forms using the frame ontology vocabulary (cardinality, value-type, etc.).ACKNOWLEDGEMENTS: Many thanks to Richard Fikes, who helped with the formalization and style decisions, and Fritz Mueller, who implemented Ontolingua code to support these definitions. This work is supported by DARPA. We used to say that (Disjoint-Decomposition Biblio-Thing (Setof Agent Timepoint Document Reference Conference)) but now we've ditched biblio-thing. We could make this a stand-alone axiom or an augmentation of individual-thing. Substantially hacked by JPR and AXF to remove any reasonably general stuff on 30-Oct-95.<B>Copyright: </B>Copyright (c) 1992 Thomas R. Gruber <BR></UL>" :Io-Package "ONTOLINGUA-USER" :Maturity :High) (In-Ontology (Quote Bibliographic-Data)) ;;; Has-Penname (Define-Relation Has-Penname (?Author ?Name) "An author's pseudonym [Webster]. An author may use several pseudonyms. Which name is a function of the document. The penname of an author cannot be his or her real name [denoted by the function name]; it must be some made-up name." :Def (And (Author ?Author) (Biblio-Name ?Name) (Not (Name ?Author ?Name)))) ;;; Multimedia-Document-Reference (Define-Class Multimedia-Document-Reference (?Ref) "A bibliographic reference to a multimedia document. Who knows what conventions the future holds for these things." :Def (And (Misc-Publication-Reference ?Ref) (Inherits-Author-From-Document ?Ref) (Inherits-Title-From-Document ?Ref) (Inherits-Year-From-Document ?Ref))) ;;; Generic-Unpublished-Reference (Define-Class Generic-Unpublished-Reference (?Ref) :Def (Non-Publication-Reference ?Ref)) ;;; Edited-Book-Reference

Page 59: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

59

(Define-Class Edited-Book-Reference (?Ref) "like a book-reference, except the document is an edited-book and the author and editor are the same." : Iff-Def (And (Book-Reference ?Ref) (Has-One-Of-Type Ref.Document ?Ref Edited-Book) (Has-Some ?Ref Ref.Editor) (Same-Values Ref.Author ?Ref Ref.Editor))) ;;; Publisher-Name (Define-Class Publisher-Name (?Name) "A name of some publisher" :Axiom-Def (Exact-Range Name Publisher-Name) :Constraints (Biblio-Name ?Name)) ;;; Publisher.Address (Define-Relation Publisher.Address (?Publisher ?City) "The publisher.address is the name of a city with which a publisher is associated for document ordering purposes. There may be several cities associated with a publisher. If the city is well-known, then just its name is given; otherwise its name and state and sometimes country are given as the location." :Def (And (Publisher ?Publisher) (City-Address ?City))) ;;; Ref.Number-Of-Volumes (Define-Function Ref.Number-Of-Volumes (?Ref) :-> ?Number "In a reference, the number of volumes in the associated document." :Def (And (Reference ?Ref) (Natural ?Number))) ;;; Proceedings-Paper-Reference (Define-Class Proceedings-Paper-Reference (?Ref) "An article appearing in the published proceedings of some conference or workshop." :Def (And (Publication-Reference ?Ref) (Value-Type Ref.Document ?Ref Proceedings) (Has-Some ?Ref Ref.Author) (Has-One ?Ref Title-Of) (Inherits-Year-From- Document ?Ref) (Has-One ?Ref Ref.Booktitle) (Same-Values Ref.Booktitle ?Ref (Compose Title-Of Ref.Document)) (Same-Values Ref.Secondary-Title ?Ref Ref.Booktitle) (Same-Values Ref.Secondary-Author ?Ref Ref.Editor) (Same-Values Ref.Organization ?Ref (Compose Conf.Organization Conference-Of Ref.Document)) (Same-Values Ref.Address ?Ref (Compose Conf.Address Conference-Of Ref.Document)) (Same-Values Ref.Month ?Ref (Compose Month-Of Publication-Date-Of Ref.Document)) (Same-Values Ref.Day ?Ref (Compose Day-Of Publication-Date-Of Ref.Document)))) ;;; Personal-Communication-Reference (Define-Class Personal-Communication-Reference (?Ref) "A reference to a personal communication between the author of the paper in which the bibliography appears and some other person. The ref.author of the reference is the person with whom the conversation was held." :Def (And (Non-Publication-Reference ?Ref) (Has-One ?Ref Ref.Author) (Has-One ?Ref Ref.Year) (Has-One ?Ref Ref.Month) (Has-One ?Ref Ref.Day))) ;;; Ref.Pages (Define-Function Ref.Pages (?Ref) :-> ?Page-Range "In a reference, the pages of an article or analogous subdocument in which a publication resides. Specified as a sequence of two integers." :Def (And (Or (Book-Section-Reference ?Ref) (Article-Reference ?Ref) (Proceedings-Paper-Reference ?Ref)) (List ?Page-Range) (Integer (First ?Page-Range)) (Integer (First (Rest ?Page-Range))))) ;;; Conf.Date (Define-Function Conf.Date (?Conference) :-> ?Date "Conference date." :Def (And (Conference ?Conference) (Calendar-Date ?Date))) ;;; Misc-Publication-Reference (Define-Class Misc-Publication-Reference (?Ref) :Def (Publication-Reference ?Ref) :Axiom-Def (Disjoint-Decomposition Misc-Publication-Reference (Setof Technical-Manual-Reference Computer-Program-Reference Cartographic-Map-Reference Artwork-Reference Multimedia-Document-Reference)))

Page 60: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

60

;;; Inherits-Publisher-From-Document (Define-Relation Inherits-Publisher-From-Document (?Ref) "When a reference is a one-to-one account of a document, then the publisher in the reference (ref.publisher) is the name of the publisher of the document. This relation captures this relationship. Inherits the publisher's address as well." :Iff-Def (And (Publication-Reference ?Ref) (Same-Values Ref.Publisher ?Ref (Compose Name Publisher-Of Ref.Document)) (Same-Values Ref.Address ?Ref (Compose Publisher.Address Publisher-Of Ref.Document)))) ;;; Conference-Of (Define-Function Conference-Of (?Proc) :-> ?Conference "The conference associated with a proceedings." :Def (And (Proceedings ?Proc))) ;;; Thesis-Reference (Define-Class Thesis-Reference (?Ref) "A reference to a master's or doctoral thesis." :Def (And (Publication-Reference ?Ref) (Value-Type Ref.Document ?Ref Thesis) (Inherits-Author-From-Document ?Ref) (Inherits-Title-From-Document ?Ref) (Inherits-Year-From-Document ?Ref) (Has-One ?Ref Ref.Publisher) (Same-Values Ref.Publisher ?Ref (Compose Name Organization-Of))) :Axiom-Def (Disjoint-Decomposition Thesis-Reference (Setof Doctoral-Thesis-Reference Masters-Thesis-Reference))) ;;; Ref.Translator (Define-Relation Ref.Translator (?Ref ?Translator) "A reference's translator is the name of the document's translator." :Axiom-Def (= Ref.Translator (Compose Name Has-Translator Ref.Document))) ;;; Newspaper-Article-Reference (Define-Class Newspaper-Article-Reference (?Ref) "A newspaper article reference is like a magazine article reference" :Def (And (Article-Reference ?Ref) (Value-Type Ref.Document ?Ref Newspaper) (Has-One ?Ref Ref.Newspaper-Name) (Same-Values Ref.Magazine-Name ?Ref Ref.Periodical) (Has-One ?Ref Ref.Month) (Has-One ?Ref Ref.Day) (Value-Type Ref.Address ?Ref City-Address))) ;;; Author.Name-Of (Define-Function Author.Name-Of (?Doc ?Author) :-> ?Name "The name used by an author is a function of the document and the author." :Def (And (Document ?Doc) (Author ?Author) (Author-Name ?Name))) ;;; Conf.Organization (Define-Function Conf.Organization (?Conference) :-> ?Name "Conference name." :Def (And (Conference ?Conference) (Organization ?Name))) ;;; Artwork-Reference (Define-Class Artwork-Reference (?Ref) "A reference to a work of art that does not fit the other categories of documents. The author is the artist." :Def (And (Misc-Publication-Reference ?Ref) (Inherits-Author-From-Document ?Ref) (Inherits-Title-From-Document ?Ref) (Inherits-Year-From-Document ?Ref))) ;;; Keyword (Define-Class Keyword (?Keyword) "A keyword is a string used as an index." :Def (Biblio-Name ?Keyword)) ;;; Has-Name (Define-Relation Has-Name (?X ?Name) "An author name is the name of an agent used to identify it as an author. It is not necessarily unique; authors may go by pseudonyms. A particular

Page 61: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

61

name of an author must be either the author's real name (i.e., her name), or else it is one of her pennames." :Axiom-Def ((=> (Author ?X) (=> (Has-Name ?X ?Name) (And (Biblio-Name ?Name) (Or (= (Name ?Author) ?Name) (Has-Penname ?Author ?Name))))))) ;;; Ref.Booktitle (Define-Function Ref.Booktitle (?Ref) :-> ?Title "The title of the document that is a collection in which a reference appears. For example, the title-of of a paper in an edited collection would be the name of the paper, and the ref.booktitle would be the name of the edited book." :Def (And (Reference ?Ref) (Title ?Title))) ;;; Ref.Volume (Define-Function Ref.Volume (?Ref) :-> ?Number "in a reference, the volume number of a journal or magazine in which an article occurs." :Def (And (Or (Book-Reference ?Ref) (Book-Section-Reference ?Ref) (Article-Reference ?Ref)) (Natural ?Number))) ;;; Book-Reference (Define-Class Book-Reference (?Ref) "A book reference. Book references usually include complete publisher information, and may have a series editor and title, edition, and translator. A reference to a book gets many of its publication data from the book qua document." :Def (And (Publication-Reference ?Ref) (Has-One-Of-Type Ref.Document ?Ref Book) (Inherits-Author-From-Document ?Ref) (Inherits-Title-From-Document ?Ref) (Book-Publication-Data-Constraint ?Ref) (Same-Values Ref.Secondary-Author ?Ref Ref.Series-Editor) (Same-Values Ref.Secondary-Title ?Ref Series-Title-Of))) ;;; Conference (Define-Class Conference (?X) "A conference is a big meeting where people wear badges, sit through boring talks, and drink coffee in the halls." :Def (And (Individual-Thing ?X) (Has-One-Of-Type Name ?X Biblio-Name) (Has-One-Of-Type Conf.Organization ?X Organization) (Has-One-Of-Type Conf.Date ?X Calendar-Date) (Value-Type Conf.Address ?X City-Address) (Can-Have-One ?X Conf.Address))) ;;; Ref.Abstract (Define-Function Ref.Abstract (?Ref) :-> ?Abstract-String "In a reference, the abstract field contains a string of natural language text that is used to describe all sorts of things." :Def (And (Reference ?Ref) (Biblio-Nl-Text ?Abstract-String))) ;;; Edition-Of (Define-Function Edition-Of (?Doc) :-> ?Nth "Refers to the nth edition of a document." :Def (And (Document ?Doc) (Natural ?Nth))) ;;; Ref.Notes (Define-Relation Ref.Notes (?Ref ?Note-String) "In a reference, the notes field contains a set of strings that is used to describe all sorts of things." :Def (And (Reference ?Ref) (Biblio-Nl-Text ?Note-String))) ;;; Ref.Labels (Define-Relation Ref.Labels (?Ref ?Label) "Labels associated with a reference." :Def (And (Reference ?Ref) (Biblio-Name ?Label))) ;;; Ref.Keywords (Define-Relation Ref.Keywords (?Ref ?Keyword) "Keywords associated with a reference." :Def (And (Reference ?Ref) (Keyword ?Keyword))) ;;; Ref.Document

Page 62: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

62

(Define-Function Ref.Document (?Ref) :-> ?Document "Function from references to associated documents. Is only defined on publication-references, since by definition they are the references associated with documents." :Def (And (Publication-Reference ?Ref) (Document ?Document))) ;;; Technical-Manual-Reference (Define-Class Technical-Manual-Reference (?Ref) "A reference to a manual that may accompany a product but is otherwise unpublished." :Def (And (Misc-Publication-Reference ?Ref) (Inherits-Author-From-Document ?Ref) (Inherits-Title-From-Document ?Ref) (Inherits-Year-From-Document ?Ref))) ;;; Masters-Thesis-Reference (Define-Class Masters-Thesis-Reference (?Ref) :Def (And (Thesis-Reference ?Ref) (Value-Type Ref.Document ?Ref Masters-Thesis) (Ref.Type-Of-Work ?Ref "Masters Thesis"))) ;;; Ref.Periodical (Define-Function Ref.Periodical (?Ref) :-> ?Journal-Title "Most general relation between a reference and a journal." :Def (And (Reference ?Ref) (Title ?Journal-Title))) ;;; Ref.Year (Define-Function Ref.Year (?Ref) :-> ?Year "The year field is a function from a reference to the year in which the publication was published." :Def (And (Reference ?Ref) (Year-Number ?Year))) ;;; Biblio-Name (Define-Class Biblio-Name (?Name) "A name of something in the bibliographic-data ontology. Names are distinguished from strings in general because they may be treated specially in some databases; for example, there may be uniqueness assumptions." :Def (Biblio-Text ?Name) :Axiom-Def (Disjoint-Decomposition Biblio-Name Title Keyword City-Address)) ;;; Publication-Reference (Define-Class Publication-Reference (?Ref) "A reference associated with some kind of published document, where publication and documenthood are interpreted broadly." :Def (And (Reference ?Ref) (Has-One-Of-Type Ref.Document ?Ref Document) (Has-One ?Ref Title-Of)) :Axiom-Def (Disjoint-Decomposition Publication-Reference (Setof Book-Reference Book-Section-Reference Article-Reference Proceedings-Paper-Reference Thesis-Reference Technical-Report-Reference Misc-Publication-Reference))) ;;; Reference (Define-Class Reference (?Ref) "A bibliographic reference is a description of some publication that uniquely identifies it, providing the information needed to retrieve the associated document. A reference is distinguished from a citation, which occurs in the body of a document and points to a reference. Note that references are distinguished from documents as well. The information associated with a reference is contained in data fields, which are binary relations (often unary functions). A reference should at least contain information about the author, title, and year. (Since there are exceptions, that constraint is associated with a specialization of this class.) ." :Def (Individual-Thing ?Ref) :Axiom-Def (Partition Reference (Setof Publication-Reference Non-Publication-Reference))) ;;; Ref.Day (Define-Function Ref.Day (?Ref) :-> ?Day "In a reference, the day of the month in which a publication is published. Useful for conference proceedings, personal communications." :Def (And (Or (Article-Reference ?Ref) (Personal-Communication-Reference ?Ref)) (Day-Number ?Day))) ;;; Ref.Address

Page 63: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

63

(Define-Relation Ref.Address (?Ref ?Address) "The place (e.g., city) where a document is published. Means different things depending on the reference type." :Def (And (Reference ?Ref) (City-Address ?Address))) ;;; Has-Author-Name (Define-Relation Has-Author-Name (?Doc ?Name) "Each author of a document is identified by an author-name. Although an author can have several pennames, the author only gets to use one of them for a particular document." :Def (And (Document ?Doc) (Author-Name ?Name) (Exists (?Author) (And (Has-Author ?Doc ?Author) (Author.Name-Of ?Doc ?Author ?Name))))) ;;; Computer-Program-Reference (Define-Class Computer-Program-Reference (?Ref) "A reference to a computer program. The title-of is the name of the program. The author is the programmer." :Def (And (Misc-Publication-Reference ?Ref) (Inherits-Author-From-Document ?Ref) (Inherits-Title-From-Document ?Ref))) ;;; Inherits-Author-From-Document (Define-Relation Inherits-Author-From-Document (?Ref) "When a reference is a one-to-one account of a document, then the author in the reference (ref.author) is the name of the author of the document. This relation captures this relationship." :Iff-Def (And (Publication-Reference ?Ref) (Same-Values Ref.Author ?Ref (Compose Has-Author-Name Ref.Document)))) ;;; Name (Define-Function Name (?X) :-> ?Name "Conference name, and the name of a publisher; one per publisher." :Axiom-Def ((=> (Conference ?X) (=> (= (Name ?X) ?Name) (Biblio-Name ?Name))) (=> (Publisher ?X) (=> (= (Name ?X) ?Name) (And (Biblio-Name ?Name)))))) ;;; Inherits-Title-From-Document (Define-Relation Inherits-Title-From-Document (?Ref) :Iff-Def (And (Publication-Reference ?Ref) (Same-Values Title-Of ?Ref (Compose Title-Of Ref.Document)))) ;;; Technical-Report-Reference (Define-Class Technical-Report-Reference (?Ref) :Def (And (Publication-Reference ?Ref) (Inherits-Author-From-Document ?Ref) (Inherits-Title-From-Document ?Ref) (Inherits-Year-From-Document ?Ref) (Has-One ?Ref Ref.Publisher) (Same-Values Ref.Publisher ?Ref (Compose Name Organization-Of)))) ;;; Ref.Magazine-Name (Define-Function Ref.Magazine-Name (?Ref) :-> ?Name "Field for name of the magazine in a magazine article reference." :Def (And (Magazine-Article-Reference ?Ref) (Title ?Name))) ;;; Ref.Editor (Define-Relation Ref.Editor (?Ref ?Editor) "A reference's editor is the name of the document's editor." :Axiom-Def (= Ref.Editor (Compose Name Has-Editor Ref.Document))) ;;; Biblio-Text (Define-Class Biblio-Text (?X) "The most general class of undifferentiated text objects." :Def (And (Individual-Thing ?X) (Has-Some ?X Has-Textual-Representation))) ;;; Title (Define-Class Title (?X) "A title is a string naming a publication, a document, or something analogous. Title strings are distinct from strings naming agents (books can't talk)." :Def (Biblio-Name ?X))

Page 64: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

64

;;; Doctoral-Thesis-Reference (Define-Class Doctoral-Thesis-Reference (?Ref) :Def (And (Thesis-Reference ?Ref) (Value-Type Ref.Document ?Ref Doctoral-Thesis) (Ref.Type-Of-Work ?Ref "Doctoral Thesis"))) ;;; Ref.Report-Number (Define-Function Ref.Report-Number (?Ref) :-> ?Identifier "An alphanumeric identifier that identifies a technical report within a series sponsored by the publishing institution. For example, STAN-CS-68-118 is the 118th report number of a report written at Stanford in the computer science department in 1968." :Def (And (Technical-Report-Reference ?Ref) (Biblio-Name ?Identifier))) ;;; Non-Publication-Reference (Define-Class Non-Publication-Reference (?Ref) "A reference to something that just isn't a document." :Def (And (Reference ?Ref) (Cannot-Have ?Ref Ref.Document)) :Axiom-Def (Disjoint-Decomposition Non-Publication-Reference (Setof Personal-Communication-Reference Generic-Unpublished-Reference))) ;;; Cartographic-Map-Reference (Define-Class Cartographic-Map-Reference (?Ref) "A reference to a map created by a cartographer." :Def (And (Misc-Publication-Reference ?Ref) (Inherits-Author-From-Document ?Ref) (Inherits-Title-From-Document ?Ref) (Inherits-Year-From-Document ?Ref))) ;;; Has-Textual-Representation (Define-Relation Has-Textual-Representation (?X ?String) "The textual representation of a text object. This is a relation rather than a function because the textual representation of a thing could have manifestations in multiple languages or formats." :Def (And (Individual-Thing ?X) (String ?String))) ;;; Ref.Secondary-Title (Define-Relation Ref.Secondary-Title (?Ref ?Title) "In a reference, the secondary title usually names the book or serial in which the publication is published." :Def (And (Reference ?Ref) (Title ?Title))) ;;; Ref.Organization (Define-Function Ref.Organization (?Ref) :-> ?Address "The organization that publishes a referenced document. May be inherited from a conference organization for proceedings." :Def (And (Reference ?Ref) (Organization ?Address))) ;;; Ref.Month (Define-Function Ref.Month (?Ref) :-> ?Month "In a reference, the month in which a publication is published. Useful for magazines, conference proceedings, and technical reports." :Def (And (Or (Article-Reference ?Ref) (Technical-Report ?Ref)) (Month-Name ?Month))) ;;; Conf.Address (Define-Function Conf.Address (?Conference) :-> ?Address "Conference address." :Def (And (Conference ?Conference) (City-Address ?Address))) ;;; Ref.Author (Define-Relation Ref.Author (?Ref ?Author-Name) "Relation between a reference and the name(s) of the creator(s) of the publication." :Def (And (Reference ?Ref) (Author-Name ?Author-Name))) ;;; Author-Name

Page 65: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

65

(Define-Class Author-Name (?Name) "A string that is used as the name of some author. Often databases of author names are kept separately from databases of people or documents." :Constraints (Biblio-Name ?Name)) ;;; Inherits-Year-From-Document (Define-Relation Inherits-Year-From-Document (?Ref) "When a reference is a one-to-one account of a document, then the year in the reference (ref.year) is the year of publication of the document. This relation captures this relationship." :Iff-Def (And (Publication-Reference ?Ref) (Same-Values Ref.Year ?Ref (Compose Year-Of Publication-Date-Of Ref.Document)))) ;;; Ref.Series-Editor (Define-Relation Ref.Series-Editor (?Ref ?Editor) "A reference's series editor is the name of a series editor of the document." :Axiom-Def (= Ref.Series-Editor (Compose Name Has-Series-Editor Ref.Document))) ;;; Ref.Edition (Define-Function Ref.Edition (?Ref) :-> ?Nth "Refers to the nth edition of a document." :Def (And (Reference ?Ref) (Natural ?Nth)) :Lambda-Body (Edition-Of (Ref.Document ?Ref))) ;;; Ref.Newspaper-Name (Define-Function Ref.Newspaper-Name (?Ref) :-> ?Name "Field for name of a newspaper in a newspaper article reference." :Def (And (Newspaper-Article-Reference ?Ref) (Title ?Name))) ;;; Ref.Issue (Define-Function Ref.Issue (?Ref) :-> ?Issue-Number "In a reference, the issue number of a journal or magazine in which an article occurs." :Def (And (Article-Reference ?Ref) (Natural ?Issue-Number))) ;;; Article-Reference (Define-Class Article-Reference (?Ref) "An article is a piece published in a journal, magazine, or newspaper." :Def (And (Publication-Reference ?Ref) (Value-Type Ref.Document ?Ref Periodical-Publication) (Has-Some ?Ref Ref.Author) (Has-One ?Ref Title-Of) (Has-One ?Ref Ref.Year) (Has-One ?Ref Ref.Periodical) (Same-Values Ref.Periodical ?Ref (Compose Title-Of Ref.Document)) (Same-Values Ref.Secondary-Title ?Ref Ref.Periodical))) ;;; Book-Publication-Data-Constraint (Define-Relation Book-Publication-Data-Constraint (?Ref) "In references associated with books, the reference fields for publication data such as publisher, place, and edition are all taken from the data on the book-document itself. This unary relation captures these constraints in one place, so that each of the book reference types can just inherit them." :Iff-Def (And (Publication-Reference ?Ref) (Has-One-Of-Type Ref.Document ?Ref Book) (Has-One ?Ref Ref.Publisher) (Inherits-Publisher-From-Document ?Ref) (Has-One ?Ref Ref.Year) (Inherits-Year-From-Document ?Ref))) ;;; Ref.Tertiary-Author (Define-Relation Ref.Tertiary-Author (?Ref ?Editor) "Teritiary author of a reference. Beats me what this is." :Def (And (Reference ?Ref) (Agent-Name ?Editor))) ;;; Biblio-Nl-Text (Define-Class Biblio-Nl-Text (?Text) "A string of natural language text mentioned in some bibliographic reference. Texts are distinguished from strings in general because they may be treated specially in some databases, or presented as free-flowing text to a human reader. BIBLIO-NL-TEXT's are used for different purposes than biblio-names. BIBLIO-NL-TEXT's are for things like notes and abstracts; BIBLIO-NAME's are meant to identify some object or some property." :Def (Biblio-Text ?Text))

Page 66: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 2 b : inhoud van bibliographic-data.lisp Martine Dewulf

66

;;; City-Address (Define-Class City-Address (?Name) "A city-address is a string that identifies a city somewhere in the world. We distinguish it from other names to facilitate integrating it with ontologies that include representations for locations and alternative ways of identifying places." :Def (Biblio-Name ?Name)) ;;; Journal-Article-Reference (Define-Class Journal-Article-Reference (?Ref) "A reference to article in a journal must give information sufficient to find the issue containing the article." :Def (And (Article-Reference ?Ref) (Value-Type Ref.Document ?Ref Journal) (Cannot-Have ?Ref Ref.Month))) ;;; Magazine-Article-Reference (Define-Class Magazine-Article-Reference (?Ref) "A reference to an article in a magazine is essentially the same as a journal article reference. Some formatting styles need the distinction. Magazine article references sometimes include the month instead of the volume/issue numbers." :Def (And (Article-Reference ?Ref) (Value-Type Ref.Document ?Ref Magazine) (Has-One ?Ref Ref.Magazine-Name)(Same-Values Ref.Magazine-Name ?Ref Ref.Periodical))) ;;; Book-Section-Reference (Define-Class Book-Section-Reference (?Ref) "A section of a book, like a chapter or a paper in an edited collection." :Def (And (Publication-Reference ?Ref) (Has-One-Of-Type Ref.Document ?Ref Edited-Book) (Has-Some ?Ref Ref.Author) (Has-Some ?Ref Ref.Editor) (Has-One ?Ref Ref.Booktitle) (Same-Values Ref.Booktitle ?Ref (Compose Title-Of Ref.Document)) (Book-Publication-Data-Constraint ?Ref) (Same-Values Ref.Secondary-Author ?Ref Ref.Editor) (Same-Values Ref.Tertiary-Author ?Ref Ref.Series-Editor))) ;;; Ref.Publisher (Define-Function Ref.Publisher (?Ref) :-> ?Publisher-Name "The publisher field of a reference points to the publisher of the associated document." :Def (And (Reference ?Ref) (Publisher-Name ?Publisher-Name))) ;;; Ref.Secondary-Author (Define-Relation Ref.Secondary-Author (?Ref ?Editor) "In a reference, the secondary author field usually names an editor of some sort who was involved in the production of the work but who was not a original author." :Def (And (Reference ?Ref) (Agent-Name ?Editor))) ;;; Proceedings (Define-Class Proceedings (?X) "The published proceedings of a conference, workshop, or similar meeting. If the proceedings appear as an edited book, the document is an edited book with a title other than ``proceedings of...'' Proceedings may have editors, however." :Def (And (Has-One-Of-Type Conference-Of ?X Conference) (Same-Values Title-Of ?X (Compose Name Conference-Of)))) ;;; Ref.Type-Of-Work (Define-Function Ref.Type-Of-Work (?Ref) :-> ?Name "An identifier of some specialization within the reference type. For example, technical reports are labeled with types-of-work such as ``technical report'' and ``memo''. Dissertations are specialized by the level of the associated degree." :Def (And (Or (Thesis-Reference ?Ref) (Technical-Report-Reference ?Ref) (Misc-Publication-Reference ?Ref)) (Biblio-Name ?Name)))

Page 67: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 3: Document Ontology (draft) Martine Dewulf

67

Bijlage 3: Document Ontology (draft) Id: document-ont

Version: 1.0

Description: This ontology models documents of all kinds, but focuses on publications. Many of the document types were borrowed from the Structuralist Dublin Core Resource Types proposal. [ http://sunsite.berkeley.edu/Metadata/structuralist.html ] Others were borrowed from the PubMed document classifications. Please send any comments or suggestions to the contact listed below. This is a draft ontology and may change at any time.

Contact: Jeff Heflin ([email protected])

Revision Date: 03 Apr 2000

Organization of this Document

This ontology is declared in this document both in human-readable form (what you see in front of you now) and machine-readable SHOE form (which you can see from viewing the html source of this document). The rest of this document is divided into the following sections:

• Extended Ontologies

• Renames

• Categories

• Relationships

• Constants

• Inferences

• Definitions

• Notes

• Change History

Extended Ontologies

The following ontologies are extended by the current ontology:

• Base Ontology (base: base-ontology, v. 1.0 )

• General Ontology (gen: general-ont, v. 1.0 )

Renames

An ontology may rename elements from another ontology in order to provide a shortcut for referencing that element or to provide an alternate term for it.

No elements are renamed by this ontology.

Page 68: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 3: Document Ontology (draft) Martine Dewulf

68

Categories

The following taxonomy is the collection of categories declared in this ontology. The hierarchical form is intended to show the ISA chain. Categories in [Brackets] are not defined here but are defined in an ontology extended by this one. Elements in {Braces} are additional supercategories of the category immediately before them (signifying multiple inheritance). Categories followed by an asterisk are defined in another ontology but are provided with a local alias.

[gen.Event] Communication Document Abstract Comment Correspondence Discussion Email Letter Postcard Form Guideline Homepage OrganizationHomepage PersonalHomepage Index Lecture Manuscript Minutes Preprint Promotion Publication Advertisement Article BookArticle ConferencePaper JournalArticle WorkshopPaper Book Dictionary Editorial Manual Periodical Journal Magazine Newsletter Newspaper Proceedings Regulation Specification TechnicalReport Thesis DoctoralThesis MastersThesis Review PhoneCall Software Speech [gen.Artifact] DocumentRepresentation PaperDocument ElectronicDocument

Page 69: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 3: Document Ontology (draft) Martine Dewulf

69

Relationships

Relationships are declared between one or more arguments, where each argument is either a type or a category. If the argument is a category, any subcategory of that category is valid as well. Relationships which have a local alias but are defined in another ontology are followed by an asterisk.

author(Document, Person) authorOrg(Document, Organization) communicator(Communication, Agent) containedIn(Document, Document) publishDate(Document, .DATE) publisher(Document, Organization) recipient(Communication, Agent) softwareDocumentation(Software, Publication) softwareVersion(Software, .STRING) subject(Document, .SHOEEntity) title(Document, .STRING) volume(Periodical, .NUMBER)

Constants

Constants are used to identify instances that may be commonly used with an ontology. In this section, each constant is grouped under its category.

No constants are defined.

Inferences

Inference rules are used to determine what additional facts can be implied if other facts are known. They take the form of if/then rules.

No inference rules are defined.

Definitions

Abstract A summarization of another document.

Advertisement For example, a job posting.

Article Objects where the contents are of such length and/or self-contained in subject matter that the author would consider this as an article. The purpose of the contents is to fully realize a particular objective in a relatively concise form. This class includes essays, stories, preprints, and other short written forms.

Communication Something that is communicated between people or groups. Communications generaly have a language, a communicator and one or more recipients. A program is a communication between a person and a computer, in particular it is a set of commands.

Dictionary An organized list of terms and their definitions.

Document A representation of someone's thinking. There are three ways of looking at a document: the physical object that one reads, the set of ideas contained within that object or as the event of communicating the ideas. The later is a little more iffy when we try to pin down

Page 70: Formele ontologieën: een literatuurstudie en een ...mcdewulf/ontologies2005.pdf · theorie, volgens zes is het de woordenschat die gebruikt wordt door een logische theorie en volgens

Bijlage 3: Document Ontology (draft) Martine Dewulf

70

the location and date of the event that is a Book. We must be able to handle all sorts of documents, including driver's licenses, grocery lists, the Constitution, etc.

Form A structured solicitation of input from a user (for example: comments, a survey, or an order)

Index A summary list of other items.

Manual A reference book for giving instructions.

Manuscript For unpublished texts not described elsewhere.

Minutes A summary of a meeting.

Publication A printed work offered for distribution.

author A person that creates a document.

authorOrg An organization that creates a document.

communicator An agent that suplies a communication.

containedIn A document in which another document is included.

publisher An organization that distributes a document.

publishDate The date that a document was first offered for distribution.

recipient An agent that recieves a communication.

subject A topic covered by or described in the document.

title The name of a document.

volume

Notes:

• none

Change History:

• 04/03/00 - Added BookArticle and WorkshopPaper as types of Article.