Achter deze grafiek gaat veel schuil

De gedachte aan historisch bronnenonderzoek roept al snel beelden op van archieven, oude manuscripten en papyrusrollen. Dr. Pim Huijnen laat in deze rubriek echter zien dat dit ook anders kan. De Digital Humanities docent toont ons hoe de visualisatie van Topic Modeling nieuwe mogelijkheden biedt. 

afbeeldingschuilt2

Negentig jaar in één oogopslag. Het lijkt een simpele Excel-grafiek, maar erachter schuilt een golfbeweging aan technologische ontwikkelingen die de gehele twintigste eeuw omvatten. Wat deze grafiek uitbeeldt, is de thematische ontwikkeling van het Amerikaanse tijdschrift Popular Science tussen 1925 en 2014. Het populair-wetenschappelijke tijdschrift is een goudmijn voor de wijze waarop (natuur)wetenschappelijke inzichten de afgelopen eeuw doorsijpelden naar de samenleving.

Van die rijkdom is op het eerste gezicht niet veel terug te zien in deze grafiek, al schuilt er veel meer achter. Het is moeilijk dit begrijpelijk te maken zonder ietwat technisch te worden: de ‘thematische ontwikkeling’ wordt tot uitdrukking gebracht door een algoritme dat woorden in een groot digitaal corpus automatisch in verschillende groepen deelt. Deze techniek heet ‘topic modeling’ en is mede dankzij de computer – die in staat is automatisch thema’s (‘topics’) in een tekst te herkennen – al enkele jaren zeer populair in
geesteswetenschappelijke kringen. [1]

Het doel van het algoritme is om te kijken welke woorden in een tekstcorpus opvallend vaak in elkaars nabijheid worden gebruikt. De aanname is dat dit een indicatie is voor inhoudelijke verwantschap – en daar zit wel wat in. Neem bijvoorbeeld een krant: je kunt verwachten dat sportberichten in het taalgebruik te onderscheiden zijn van economische artikelen. Topic modeling is in staat deze onderscheidende taal op te pikken. Daartoe gaat hij aanvankelijk uit van de verbindingen tussen woorden die hij in de tekst tegenkomt. Aan de hand daarvan speurt het algoritme het hele corpus door om te kijken of die verbindingen significant zijn. Dat wil zeggen: komen de verbindingen vaker voor en zijn ze uniek, of komen de verbonden woorden eigenlijk veel vaker voor met andere woorden? In dat geval past het zijn ordening aan. Het algoritme moet de tekst hiertoe diverse malen doorploegen voordat het kan evalueren welke verbindingen het meeste recht doen aan de structuur van het corpus.

Wat hebben de woorden binnen die topics met elkaar te maken? Je weet in elk geval dat ze vaker in elkaars nabijheid voorkomen dan in de context van woorden uit andere topics. Het wordt interessant het als je deze thema’s tegen elkaar en tegen de tijd afzet. Op deze wijze hebben anderen disciplinaire ontwikkelingen kunnen volgen binnen vaktijdschriften [2] , terugkerende patronen in kranten ontwaard [3] of de veranderende belangstelling van dagboekauteurs geordend. [4] Om iets vergelijkbaars met mijn corpus van Popular Science te doen heb ik het archief opgedeeld in jaargangen en op basis daarvan een topic-verdeling per jaar gegenereerd. Met twintig topics levert dit de volgende resultaten op: jaargang 1933 bestaat voor 34 procent uit topic 18, voor 20 procent uit topic 3, etc. Doe dit voor elk jaar en je krijgt een aardig beeld van hoe het taalgebruik in dit tijdschrift mettertijd verandert. Zo is topic 18 niet alleen in 1933 dominant, maar zelfs gedurende de hele vooroorlogse periode (vlak a). Het zal niet verbazen dat het tweede voorbeeld uit een latere periode stamt. Dit topic correspondeert met vlak b.

Nog interessanter aan de resultaten is dat wat je ziet zónder te duiken in wat de afzonderlijke topics betekenen, maar puur door te kijken naar de verdeling over tijd.
Literatuurwetenschapper Franco Moretti noemt de term ‘distant reading’ voor deze enigszins afstandelijke manier van kijken naar een tekstcorpus als geheel. [5] Vergelijkbaar met de gangbare definities van big data beschouwt Moretti distant reading als een methode die nieuwe kennis oplevert: een grafiek als deze herbergt informatie die je nooit zo snel had gevonden door te bladeren door afzonderlijke uitgaves van Popular Science.

Wat valt bijvoorbeeld op? Dat veel topics erg dominant zijn, maar een beperkte levensduur hebben – slechts twintig tot vijfentwintig jaar. Enkele topics houden langer aan, maar zijn ‘subtieler’. Er is een Tweede Wereldoorlog-topic (vlak c), maar verder lijkt de Tweede Wereldoorlog nauwelijks een thematische cesuur in te luiden. Soms is er sprake van opdeling (met in de jaren zestig soms wel zeven topics per jaar) en soms het tegenovergestelde, met enkel twee dominante topics in de jaren 2000. Dit zijn stuk voor stuk inzichten die eenvoudig zijn te koppelen aan relevante geschiedwetenschappelijke vragen rond kennisoverdracht, disciplinevorming en specialisering.

Tegelijkertijd – en dat is de reden dat dit stuk in deze rubriek thuishoort – levert distant
reading geen hapklare kennis op. Je kunt veel afleiden uit deze grafiek, maar je zult altijd
terug moeten gaan naar de teksten zelf – ‘close reading’ – om te bekijken of het gegronde
aannames zijn. Dit is zeker het geval bij topic modeling, omdat de topics niet voor zichzelf spreken. Bovendien is topic modeling gebaseerd op waarschijnlijkheidsrekening die gepaard gaat met een zekere mate van toeval.

De zo gehete ‘nieuwe teksten’ [6] geven wel een aardig beeld van de resultaten van dit soort computationele technieken , zij behoeven dezelfde soort interpretatie als de teksten waarop ze gebaseerd zijn. Een grafiek als deze is daarom eveneens het resultaat van (computationeel)historisch handwerk als bron van nieuwe studie – een tussenstap die alleen maar aan belang zal toenemen. Voor wie zich hierin wil verdiepen is het uitstekende platform “The Programming Historian” een uitstekend begin [7] , inclusief een introductie in het gebruik van topic modeling.[8]

 

[1] David M. Blei, “Probabilistic Topic Models,” Communications of the ACM 55, 4 (2012):         77–84; Zie ook: Megan R. Brett, “Topic Modeling: A Basic Introduction,” Journal of              Digital Humanities 2, 1 (n.d.); John W. Mohr and Petko Bogdanov, “Introduction—                Topic Models: What They Are and Why They Matter,” Poetics 41, 6 (December 2013):          545–69.
[2] David Hall, Daniel Jurafsky, and Christopher D. Manning, “Studying the History of              Ideas Using Topic Models,” in Proceedings of the Conference on Empirical Methods in        Natural Language Processing (Association for Computational Linguistics, 2008), 363–          71, http://dl.acm.org/citation.cfm?id=1613763.
[3] Robert K. Nelson, ‘Mining the Dispatch’, http://dsl.richmond.edu/dispatch/
[4] Cameron Blevins, ‘Topic Modelling Martha Ballard’s Diary’,
http://www.cameronblevins.org/posts/topic-modeling- martha-ballards- diary/
[5] Franco Moretti, Distant Reading (London; New York 2013).
[6] D. Sculley and Bradley M. Pasanek, “Meaning and Mining: The Impact of Implicit               Assumptions in Data Mining for the Humanities,” Literary and Linguistic Computing         23, 4 (2008): 17.
[7] http://programminghistorian.org.
[8] Shawn Graham, Scott Weingart and Ian Milligan, ‘Getting started with Topic                       Modeling   and MALLET’, http://programminghistorian.org/lessons/topic-modeling-             and-mallet.

Dit artikel verscheen in Aanzet 32-3 in de rubriek Beeldspraak.

Advertenties