89. Data Mining

WITTEN, Ian H. & FRANK, Eibe (2005). Data Mining. Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers/Elsevier. ISBN 0-12-088407-0

——————————————————————————————————————————————-

Een beschouwing door Marten Kuilman (September 2015).

In deze bespreking wil ik een verband proberen te leggen tussen de data mining activiteit en de relatie met de quadralektiek (het vierdelingsdenken). Deze gebieden hebben meer met elkaar te maken dan men op het eerste gezicht zou denken. Het boek van Witten & Frank is daarbij als richtlijn gebruikt, omdat hierin, in redelijk begrijpelijke taal, een overzicht wordt gegeven van deze moderne ontwikkeling. Het boek is al weer tien jaar oud en het belang en de kennis van data mining is in deze periode sterk toegenomen. Maar de uitgangspunten zijn nog steeds geldig. En de plaats van data-mining in een ethische context is hetzelfde gebleven. Everything depends on the application – alles hangt af van de toepassing. En de schrijvers zijn zich ook bewust van een serious problem, namelijk dat data worden gebruikt op een manier, die ver af kan liggen van de intenties, waarmee ze oorspronkelijk werden verzameld: Surprising things emerge from data mining (p. 35).

Allereerst is het van belang om de ‘plaats’ te weten, waar de aktie zich afspeelt. In het eerste hoofdstuk wordt hier een duidelijke vierdeling voorgesteld, die in een ‘quadralektische’ benadering niet zou misstaan:

  1. Wisdom                    –   wijsheid (waardering op basis van kennis)
  2. Knowledge               –   kennis (verzameling van verwachtingen)
  3. Data                           –   gegevens (waargenomen feiten)
  4. Information              –   informatie (verzameling van patronen)

In eerste instantie richt het proces van data mining zich op de tweedeling input en output: With any software system, understanding what the inputs and outputs are is far more important than knowing what goes on in between (p. 41). Een dergelijke verklaring verwijst naar de vereenvoudiging, die zich in het databereik voltrekt. Ook, en met name, in de manier van denken. In het huidige vierdelingsdenken (quadralektiek) is het gebied dat tussen input en output ligt even belangrijk als de punten zelf en ook de gebieden die ervoor en erna liggen. Door deze gebieden bij het denken te betrekken ontstaat een veel evenwichtiger beeld. Het is belangrijk om te realiseren, dat ‘data mining’ zich, in de huidige, algemene benadering, afspeelt in een beperkt gebied van het (quadralectische) denkproces.

De verdeling, die vervolgens op de input wordt toegepast, is samengesteld uit:

  1. Concepts
  2. Instances
  3. Attributes

Een quadralektische benadering kan het karakter van de onderverdeling interpreteren. Het idee van een concept – zoals het idee van het leren zelf – is niet scherp te omschrijven. In die zin is het dus een Tweede Kwadrant entiteit (van de zichtbare onzichtbaarheid). Als de schrijvers zich beperken tot het intelligible en operationele deel, bevindt het denken zich in het zichtbare deel (van het Tweede Kwadrant; II, 3). De instances vormen dan een Derde Kwadrant entiteit (the things that are to be classified, associated, or clustered, de zichtbare zichtbaarheid in het spectrum, examples). Expressing the input data as a set of independent instances is by far the most common situation for practical data mining (p. 45). En de attributes krijgen tenslotte een Vierde Kwadrant karakter aangemeten (de onzichtbare zichtbaarheid).

In de definitie van een attribute wordt een waarde (value) geïntroduceerd (voor een bepaalde instance), die een verwijzing is naar de kwantiteit, waarvan deel wordt uitgemaakt: The value of an attribute for a particular instance is a measurement of the quantity to which the attribute refers (p. 50). Een vertaling naar de quadralektiek zou er als volgt kunnen uitzien: de positie van een specifiek (meet)punt wordt weergegeven door een waarde (CF-waarde), die een uitdrukking is van de verschuiving binnen een vierdeling (V).

Vervolgens wordt een breed onderscheid gemaakt tussen ‘levels of measurements’. In de statistiek worden deze aangeduid als nominal, ordinal, interval en ratio. Deze vierdeling heeft weer zijn eigen kenmerken (die quadralectisch kunnen worden gerangschikt):

  1. Nominal (categorical, discrete)
  2. Ordinal (numeric, continous)
  3. Interval
  4. Ratio

Nominale kwantiteiten hebben waarden, die als symbolen worden uitgedrukt. De waarde is slechts een naam, waar geen specifieke waarde wordt gehecht (onzichtbare onzichtbaarheid, I). Ordinale kwantiteiten kennen een beginnende ordening, maar er is nog geen waardering van de afstand (zichtbare onzichtbaarheid, II). Interval kwantiteiten zijn geordend en afgemeten in gelijke eenheden (zichtbare zichtbaarheid, III). Ratio kwantiteiten vormen numerieke punten, bestaande uit werkelijke getallen, die uit een vergelijking met een nulpunt zijn ontstaan (onzichtbare zichtbaarheid, IV).

Witten & Frank (2005) merken op dat ‘Most practical data mining systems accomodate just two of these four levels of measurements: nominal and ordinal’. Het lijkt erop, of de wereld van de data-mining nog niet klaar is voor de implicaties van het vierdelingsdenken. Liever wordt een nominale schaal als een dichotomie gebruikt (met slechts twee componenten, aangeduid met termen als ‘waar of niet-waar’ en ‘ja of nee’, een Boolean configuratie). Dan floreert het tweedelingsdenken, en kan de huidige wetenschap zich geborgen weten.

Bij de output gaat het om knowledge representation, een weergave van de resultaten waarbij regels een rol spelen.

  1. Decision trees, met tweedelingspunten (regels in knopen, nodes),
  2. Classification rules (regels in de classificering, met uitzonderingen),
  3. Association rules (waarbij een zekere mate van voorspelling mogelijk is),
  4. Rules involving relations (testing een waarde met een constante, propositional)

Deze vierdeling heeft weer raakmomenten met de quadralektiek. Ook bij de verdeling in clusters zijn er vier verschillende soorten van representaties, maar hun aantal lijkt niet inherent aan de methode.

In hoofdstuk 4 worden de grondmethoden van de algoritmen voorgesteld. De rekenmethode ligt tussen de in- en output en werd eerder (p. 41) als minder belangrijk beschouwd. Toch gaat het om de wezenlijke technieken van data mining (the real implementations of machine learning methods). De schrijvers bevelen eenvoud aan. Direkt hierop worden acht verschillende, eenvoudige structuren van data sets genoemd, waarmee een classificatie uitgevoerd kan worden. Waaruit geconcludeerd kan worden, dat de wereld van sets en regels, zelfs in haar eenvoud, tamelijk gecompliceerd is. Voor de geïnteresseerde lezer van buiten het vakgebied wordt de spanningsboog hierdoor verbroken. Dit is ook het gedeelte in het boek (p. 90 en verder) waar de eerste formules verschijnen, die een hoger begrip van de materie vereisen. De beslissingsboom en algoritmes worden verder uitgewerkt.

Ook voor de evaluatie van het leerproces in hoofdstuk 5 – Evaluation is the key to making real progress in data mining – voeren de technische details de boventoon (leave-one-out cross-validation en de bootstrap methode (sampling with replacement). In hoofdstuk 8 treedt de praktijk weer op de voorgrond met een verdere bespreking van de toepassingen van het machine learning proces. De applicaties worden niet door de data geleverd, maar door de mensen, die ze gebruiken.

Metadata hebben te maken met relaties tussen de attributes. De laatste kunnen als ‘Vierde Kwadrant’ eenheden in een (quadralectische) communicatie (relatie) worden aangemerkt. Het boek geeft drie soorten relaties:

  1. semantic, twee attributen, die met elkaar te maken hebben en afhankelijk zijn
  2. causal, de ene attribute wordt gevolgd door een andere (chain of dependence).
  3. functional relaties zijn afhankelijk van elkaar

Deze opsomming zou – binnen een quadralectische context – moeten worden aangevuld met attributes, die niets met elkaar te maken hebben.

Data mining is about looking for patterns in data (p. 351). Deze statement is in zijn algemeenheid juist, maar daarbij mag niet worden vergeten, dat een patroon (pattern) ook door de waarnemer wordt bepaald. Het is uiteindelijk de waarnemer, die de regels van het patroon vaststelt en het patroon vervolgens ‘ziet’. Bij ongewenste e-mails (zogenaamde ‘spam’) komt het subjectieve karakter (van de selectie) direct naar voren. Wat zijn ‘unusual patterns of activity’? Naast de reclamewereld zijn ook de diensten van de ‘staatsveiligheid’ in dergelijke uitingen geïnteresseerd. Profielen en sociale netwerken kunnen wijzen naar personen, die bepaalde dingen willen kopen, maar ook naar hun neigingen om staatsgevaarlijk te zijn. Om het hoogstaande goed van de privacy in dit proces te handhaven ‘is easier said than done’.

Op de optimistische prognose, dat ‘Today’s visionaries foresee a world of ‘calm’ computing in which hidden machines silently conspire behind the scenes to make our lives richer and easier’ is nog wel het een en ander af te dingen. De vraag ‘who’s in charge – me or it? wordt steeds moeilijker te beantwoorden. De schrijvers zien – misschien wel terecht – in deze situatie een uitdaging. Wij – als individuen in een complexe wereld – doen er beter aan om data mining, als onderdeel van het leven, te accepteren.

88. The Utopia of Rules

‘The Utopia of Rules. On Technology, Stupidity, and the Secret Joys of Bureaucracy’ By David Graeber (2015). Melville House, Brooklyn & London.

—-

Een bespreking door Marten Kuilman, 10 September 2015.

 

Graeber afficheert zichzelf als anarchist en dat is verfrissend, want deze stroming kent de laatste decennia weinig tot geen aanhangers meer. Het revolutionaire is so-wie-so uit het straatbeeld verdwenen en wat overblijft zijn grote, regulerende instituten, die volgens bureaucratische principes werken. De schrijver betrapt zich erop, dat er een zekere charme uitgaat van zulke instituten, ondanks het feit dat wij dagelijks met de (kwalijke) gevolgen ervan worden geconfronteerd. Volgens de schrijver heeft er een ‘explosion of credentialism’ plaatsgevonden vanaf de jaren tachtig van de vorige eeuw, waarbij de bewijzen van bureaucratische competentie belangrijker zijn dan de feitelijke werkzaamheden (Schools of Excellence). De taal van de regels en verordeningen is de enige taal waarin gecommuniceerd kan worden (en waaruit de inkomsten (boetes, fees) kunnen worden verkregen).

Vanuit een anarchistisch standpunt is te verklaren, waarom Graeber afstand neemt van zowel ‘links’ (Left) als ‘rechts’ (Right) en met deze richtingen jongleert als tennisballen. Beide richtingen worden in feite door de bureaucratie gegijzeld en weten er geen weg mee. Na het beschrijven van enige bureaucratische horror-stories, die door schrijvers als Franz Kafka en Borges van een literair jasje worden voorzien, gaat de aandacht naar de ‘plaatsen van dichtheid’ (places of density). Dit zijn tevens de plaatsen, waar de macht wordt uitgeoefend (p. 57). Eigenlijk vindt Graeber de machinatie van de macht belangrijker dan de bureaucratisering. Als geweld om de hoek kijken, zet de vereenvoudiging in. ‘Police are bureaucrats with weapons’ (p. 73) Bij de simplificatie van het tegenstellings-denken hoort de omkering (inversie). Links loopt weg met het gedachtegoed van extreem-rechts en rechts gebruikt linkse verworvenheden. ‘There are all sorts of ironies here’ (p. 117) verzucht de schrijver.

Verbeelding (imagination) wordt tegenover werkelijkheid (reality) geplaatst. Het is duidelijk, dat er onder beide begrippen zeer verschillende ladingen kunnen schuilgaan. Ongelijkheden resulteren in verschillen, waarbij ook de verbeelding verschillende vormen aanneemt. Graeber spreekt van een onevenwichtigheid (‘lobsided structures of imagination’, p. 94) en geeft daarbij reeds aan een keuze in het tweedelings/tegenstellingsdenken te hebben gemaakt. Als hij in hoofdstuk 2 zijn teleurstelling uitspreekt over het afgezwakte tempo en het minder dynamische karakter van de technologische ontwikkeling (p. 114), schrijft hij dat toe aan een verschuiving naar ‘investment technologies that furthered labor discipline and social control’ (Thesis: p. 120). Door het invullen van formulieren, het doorwerken van beoordelingen, het administreren van vorderingen en het verkrijgen van fondsen, is er aan de scholen, in de universiteiten en bij institutionele bedrijven weinig tijd en plaats meer voor creatief-innovatief denken (en doen). Daarentegen zal de bureaucratie, als die eenmaal in werking is gezet, zich alleen maar uitbreiden en het streven zal zijn ‘to monopolize access to certain key types of information’ (De gedachte van de patiëntengegevens van de huisarts als prooi van de verzekeringsmaatschappijen dringt zich hier op).

Graeber’s beschrijving van het ontstaan van de bureaucratie in de Duitse Post is zeer informatief (p. 153). ‘The post office was, essentially, one of the first attempts to apply top-down, military forms of organization to the public good.’ Ook de omslag van het aanzien van de Postal Service (in Amerika) van een respectabele organisatie met een baan voor het leven tot een degradatie na Reagan in een instituut met een slechte naam (toen de banenzekerheid verloren ging). Graeber trekt een vergelijking met het Internet: een nieuwe communicatievorm wordt ontwikkelt door het leger, een snelle verspreiding vindt plaats en heeft een grote invloed op het dagelijks leven. Naast een grote efficiëntie, wordt het medium ook een bron van overheidsinformatie, -toezicht en leidt tot nieuwe bureaucratische handelingen: ‘We live in a universe where accounting procedures define the very fabric of reality’ (p. 189).

De verhandeling over de ‘Utopia of Rules’ is eveneens interessant, zeker omdat ‘games’ een substantieel deel van het Internetgebruik uitmaken. Het verschil (in het Engels) tussen ‘play’ and ‘game’ raakt de kern van de menselijke aktie. ‘We play games’. Het verschil heeft te maken met de regels (rules), die in een ‘game’ een utopische vorm hebben aangenomen. Bij het spelen (play) daarentegen hoeven er geen regels te zijn. ‘One could simply be playing around’ (p. 191). Het spel is een pure uiting van een creatieve energie, terwijl een spel-als-wedstrijd zich heeft te houden aan vooraf opgestelde regels. In quadralectische termen zou het spel (play) in het Vierde Kwadrant (IV) thuishoren, terwijl het spel-als-wedstrijd (game) in het Derde Kwadrant (III) is gepositioneerd.

Graeber’s conclusie (suggestie) is tamelijk drastisch: ‘What ultimately lies behind the appeal of bureaucracy is fear of play’ (p. 193). De angst voor creativiteit (in vrijheid) is een wezenskenmerk van de bureaucratie…

De verdere opmerkingen over anti-authoritarianism en de nadruk op creativiteit en improvisatie, brengen geen nieuwe inzichten. De conclusie moet zelf worden getrokken: Een communicatie ‘werkt’ eenvoudig niet als de veelheid (van een groep, meningen, gedachten, etc. Graeber’s ‘dichtheid’) zich niet bewust is, of wil zijn van de noodzaak om het deeldenken onder ogen te zien (en liefst te kiezen voor een hogere vorm daarvan). De Occupy Wall Street beweging, die mede door Graeber werd georganiseerd, bloedde om diezelfde reden dood.

De Appendix over de film ‘The Dark Knight Rises’ (2008, van Christopher Nolan) wil een kritiek zijn op de strekking van de film. Volgens Graeber is de film rechtstreeks geïnspireerd op de Occupy Wall Street beweging. In de film vindt een aanval op de Stock Exchange plaats. Het karakter van de super-hero wordt onder de loep genomen en als blauwdruk van een bepaalde denkwijze ontleed. De plot is altijd ‘profoundly, deeply conservative’ (p. 219). De scheiding tussen de gevoeligheden van Left en Right worden uitvergroot. Links zou de verbeelding en creativiteit van een nieuwe sociale orde toejuichen. Vanuit een rechtse optiek is de wil tot vernieuwing een kwaad (evil) met destructieve neigingen. Graeber ziet de film als een verbeelding ‘to enact a comic version of the universe’. Hij blijft daarbij binnen de zelfopgelegde grenzen van het tegen-stellingsdenken. Van een echte kritiek, die de kern van de zaak raakt is daarom geen sprake.

In zekere zin is het lezen van dit boek, zoals reeds bij de introductie werd gezegd, een genoegen, omdat hier een overtuigende anarchistische benadering wordt verwoord. Na de ‘Revolutie van 1968’ is het tamelijk stil gebleven vanuit deze politieke hoek. De Occupy Wall Street beweging – als reactie op het onverant-woordelijke gedrag van de banken – kan zeker als een opleving worden gezien, maar de afloop van het verhaal is niet hoopgevend. Zo zou, om een volgende (ernstiger) crisis te vermijden, het principe van het ‘flitskapitaal’ per direct moeten worden verboden. Maar daar ziet het niet naar uit. Liever drukt men meer geld (illusie) tot de ballon vanzelf barst. Of het anarchisme ook werkelijk de oplossing kan brengen, is maar de vraag. En of een kritiek op de bureaucratie hout snijdt, wordt zelfs door de schrijver in twijfel getrokken.

Er lijkt geen andere weg dan door te gaan in de ‘Era of Total Bureaucratization’. We blijven de formulieren invullen, we produceren de data, die door anderen ‘big’ worden gemaakt, en graven daarmee het graf van onze geloofwaardigheid. Wij hebben niets te verbergen, maar anderen zullen de maat nemen van ons doen en laten. Ons enige verweer is gelegen in de mogelijkheid om zelf onze positie in kaart te brengen en te leven volgens richtlijnen, die door onszelf zijn opgesteld. Misschien is dat wel het nieuwe anarchisme.