WITTEN, Ian H. & FRANK, Eibe (2005). Data Mining. Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers/Elsevier. ISBN 0-12-088407-0
——————————————————————————————————————————————-
Een beschouwing door Marten Kuilman (September 2015).
In deze bespreking wil ik een verband proberen te leggen tussen de data mining activiteit en de relatie met de quadralektiek (het vierdelingsdenken). Deze gebieden hebben meer met elkaar te maken dan men op het eerste gezicht zou denken. Het boek van Witten & Frank is daarbij als richtlijn gebruikt, omdat hierin, in redelijk begrijpelijke taal, een overzicht wordt gegeven van deze moderne ontwikkeling. Het boek is al weer tien jaar oud en het belang en de kennis van data mining is in deze periode sterk toegenomen. Maar de uitgangspunten zijn nog steeds geldig. En de plaats van data-mining in een ethische context is hetzelfde gebleven. Everything depends on the application – alles hangt af van de toepassing. En de schrijvers zijn zich ook bewust van een serious problem, namelijk dat data worden gebruikt op een manier, die ver af kan liggen van de intenties, waarmee ze oorspronkelijk werden verzameld: Surprising things emerge from data mining (p. 35).
Allereerst is het van belang om de ‘plaats’ te weten, waar de aktie zich afspeelt. In het eerste hoofdstuk wordt hier een duidelijke vierdeling voorgesteld, die in een ‘quadralektische’ benadering niet zou misstaan:
- Wisdom – wijsheid (waardering op basis van kennis)
- Knowledge – kennis (verzameling van verwachtingen)
- Data – gegevens (waargenomen feiten)
- Information – informatie (verzameling van patronen)
In eerste instantie richt het proces van data mining zich op de tweedeling input en output: With any software system, understanding what the inputs and outputs are is far more important than knowing what goes on in between (p. 41). Een dergelijke verklaring verwijst naar de vereenvoudiging, die zich in het databereik voltrekt. Ook, en met name, in de manier van denken. In het huidige vierdelingsdenken (quadralektiek) is het gebied dat tussen input en output ligt even belangrijk als de punten zelf en ook de gebieden die ervoor en erna liggen. Door deze gebieden bij het denken te betrekken ontstaat een veel evenwichtiger beeld. Het is belangrijk om te realiseren, dat ‘data mining’ zich, in de huidige, algemene benadering, afspeelt in een beperkt gebied van het (quadralectische) denkproces.
De verdeling, die vervolgens op de input wordt toegepast, is samengesteld uit:
- –
- Concepts
- Instances
- Attributes
Een quadralektische benadering kan het karakter van de onderverdeling interpreteren. Het idee van een concept – zoals het idee van het leren zelf – is niet scherp te omschrijven. In die zin is het dus een Tweede Kwadrant entiteit (van de zichtbare onzichtbaarheid). Als de schrijvers zich beperken tot het intelligible en operationele deel, bevindt het denken zich in het zichtbare deel (van het Tweede Kwadrant; II, 3). De instances vormen dan een Derde Kwadrant entiteit (the things that are to be classified, associated, or clustered, de zichtbare zichtbaarheid in het spectrum, examples). Expressing the input data as a set of independent instances is by far the most common situation for practical data mining (p. 45). En de attributes krijgen tenslotte een Vierde Kwadrant karakter aangemeten (de onzichtbare zichtbaarheid).
In de definitie van een attribute wordt een waarde (value) geïntroduceerd (voor een bepaalde instance), die een verwijzing is naar de kwantiteit, waarvan deel wordt uitgemaakt: The value of an attribute for a particular instance is a measurement of the quantity to which the attribute refers (p. 50). Een vertaling naar de quadralektiek zou er als volgt kunnen uitzien: de positie van een specifiek (meet)punt wordt weergegeven door een waarde (CF-waarde), die een uitdrukking is van de verschuiving binnen een vierdeling (V).
Vervolgens wordt een breed onderscheid gemaakt tussen ‘levels of measurements’. In de statistiek worden deze aangeduid als nominal, ordinal, interval en ratio. Deze vierdeling heeft weer zijn eigen kenmerken (die quadralectisch kunnen worden gerangschikt):
- Nominal (categorical, discrete)
- Ordinal (numeric, continous)
- Interval
- Ratio
Nominale kwantiteiten hebben waarden, die als symbolen worden uitgedrukt. De waarde is slechts een naam, waar geen specifieke waarde wordt gehecht (onzichtbare onzichtbaarheid, I). Ordinale kwantiteiten kennen een beginnende ordening, maar er is nog geen waardering van de afstand (zichtbare onzichtbaarheid, II). Interval kwantiteiten zijn geordend en afgemeten in gelijke eenheden (zichtbare zichtbaarheid, III). Ratio kwantiteiten vormen numerieke punten, bestaande uit werkelijke getallen, die uit een vergelijking met een nulpunt zijn ontstaan (onzichtbare zichtbaarheid, IV).
Witten & Frank (2005) merken op dat ‘Most practical data mining systems accomodate just two of these four levels of measurements: nominal and ordinal’. Het lijkt erop, of de wereld van de data-mining nog niet klaar is voor de implicaties van het vierdelingsdenken. Liever wordt een nominale schaal als een dichotomie gebruikt (met slechts twee componenten, aangeduid met termen als ‘waar of niet-waar’ en ‘ja of nee’, een Boolean configuratie). Dan floreert het tweedelingsdenken, en kan de huidige wetenschap zich geborgen weten.
Bij de output gaat het om knowledge representation, een weergave van de resultaten waarbij regels een rol spelen.
- Decision trees, met tweedelingspunten (regels in knopen, nodes),
- Classification rules (regels in de classificering, met uitzonderingen),
- Association rules (waarbij een zekere mate van voorspelling mogelijk is),
- Rules involving relations (testing een waarde met een constante, propositional)
Deze vierdeling heeft weer raakmomenten met de quadralektiek. Ook bij de verdeling in clusters zijn er vier verschillende soorten van representaties, maar hun aantal lijkt niet inherent aan de methode.
In hoofdstuk 4 worden de grondmethoden van de algoritmen voorgesteld. De rekenmethode ligt tussen de in- en output en werd eerder (p. 41) als minder belangrijk beschouwd. Toch gaat het om de wezenlijke technieken van data mining (the real implementations of machine learning methods). De schrijvers bevelen eenvoud aan. Direkt hierop worden acht verschillende, eenvoudige structuren van data sets genoemd, waarmee een classificatie uitgevoerd kan worden. Waaruit geconcludeerd kan worden, dat de wereld van sets en regels, zelfs in haar eenvoud, tamelijk gecompliceerd is. Voor de geïnteresseerde lezer van buiten het vakgebied wordt de spanningsboog hierdoor verbroken. Dit is ook het gedeelte in het boek (p. 90 en verder) waar de eerste formules verschijnen, die een hoger begrip van de materie vereisen. De beslissingsboom en algoritmes worden verder uitgewerkt.
Ook voor de evaluatie van het leerproces in hoofdstuk 5 – Evaluation is the key to making real progress in data mining – voeren de technische details de boventoon (leave-one-out cross-validation en de bootstrap methode (sampling with replacement). In hoofdstuk 8 treedt de praktijk weer op de voorgrond met een verdere bespreking van de toepassingen van het machine learning proces. De applicaties worden niet door de data geleverd, maar door de mensen, die ze gebruiken.
Metadata hebben te maken met relaties tussen de attributes. De laatste kunnen als ‘Vierde Kwadrant’ eenheden in een (quadralectische) communicatie (relatie) worden aangemerkt. Het boek geeft drie soorten relaties:
- semantic, twee attributen, die met elkaar te maken hebben en afhankelijk zijn
- causal, de ene attribute wordt gevolgd door een andere (chain of dependence).
- functional relaties zijn afhankelijk van elkaar
Deze opsomming zou – binnen een quadralectische context – moeten worden aangevuld met attributes, die niets met elkaar te maken hebben.
Data mining is about looking for patterns in data (p. 351). Deze statement is in zijn algemeenheid juist, maar daarbij mag niet worden vergeten, dat een patroon (pattern) ook door de waarnemer wordt bepaald. Het is uiteindelijk de waarnemer, die de regels van het patroon vaststelt en het patroon vervolgens ‘ziet’. Bij ongewenste e-mails (zogenaamde ‘spam’) komt het subjectieve karakter (van de selectie) direct naar voren. Wat zijn ‘unusual patterns of activity’? Naast de reclamewereld zijn ook de diensten van de ‘staatsveiligheid’ in dergelijke uitingen geïnteresseerd. Profielen en sociale netwerken kunnen wijzen naar personen, die bepaalde dingen willen kopen, maar ook naar hun neigingen om staatsgevaarlijk te zijn. Om het hoogstaande goed van de privacy in dit proces te handhaven ‘is easier said than done’.
Op de optimistische prognose, dat ‘Today’s visionaries foresee a world of ‘calm’ computing in which hidden machines silently conspire behind the scenes to make our lives richer and easier’ is nog wel het een en ander af te dingen. De vraag ‘who’s in charge – me or it? wordt steeds moeilijker te beantwoorden. De schrijvers zien – misschien wel terecht – in deze situatie een uitdaging. Wij – als individuen in een complexe wereld – doen er beter aan om data mining, als onderdeel van het leven, te accepteren.