Gastblog Arjan Verhoeff - Kwaliteitspotentieel Web 3.0
De komst van het Nederlandstalige semantische web opent een bron van nieuwe mogelijkheden. Het semantische web stelt ons namelijk voor het eerst in staat om de betekenis van tekst automatisch te duiden. Dit zal een enorme winst betekenen voor de snelheid en effectiviteit van online onderzoek. Het semantische web heeft zodoende grote potentie om de kwaliteit van het geschreven woord te verbeteren. Journalisten, bloggers en andere schrijvers zullen met semantische tools over ongekende mogelijkheden beschikken. Zij zullen daardoor met meer gemak doortastender kunnen werken. Voor de lezers zal het makkelijker worden om kwaliteit te kunnen onderscheiden. Het zal daardoor voor hen ook makkelijker worden om nieuwe bronnen te verkennen.
Standaard zoekmachines behandelen documenten als een zak met woorden, waarbij er vooral gekeken wordt naar de frequenties van de woorden en de frequenties van de hyperlinks tussen de documenten. De mens is echter voornamelijk geïnteresseerd in de betekenis van tekst. En de betekenis van woorden leidt men grotendeels af door naar de relatie met de context te kijken. Het World Wide Web Consortium heeft daarom een model ontworpen dat relaties kan representeren, het Resource Description Framework (RDF). De basisbouwsteen daarvan is de 'triple': subject, predicaat en object. Deze triple kan de aard van de relatie tussen twee entiteiten beschrijven. Doordat elke entiteit in meerdere 'triples' kan deelnemen kan men met dit model een netwerk van relaties representeren. Door zin voor zin de relaties te extraheren kan men dus een representatie van het internet creëren die door betekenis verbonden is (in plaats van alleen met hyperlinks). Met Open Sahara is een start gemaakt van zo'n RDF representatie van het Nederlandstalige internet.
Wat betekent dit voor de toekomst? Dankzij het semantische web wordt het mogelijk om gerichter te zoeken, om verborgen connecties naar voren te brengen en om informatie sneller te integreren. Bovendien zijn er een groot aantal linguïstische concepten die hiermee geoperationaliseerd kunnen worden. Met andere woorden, computers gaan begrijpend lezen en zinnige informatie teruggeven. Dit betekent dat veel taalkundige vaardigheden kunnen worden geautomatiseerd. Laten we eens kijken naar de invloed die dit op de productie en consumptie van online journalistiek kan hebben.
In de journalistiek is het online zoeken en integreren van informatie iets dat bij uitstek goed gefaciliteerd kan worden door het gebruik van het semantische web. Met een semantische zoektocht zal je snel een compleet beeld krijgen van een onderwerp of entiteit. Zo zal het checken van feiten, citaten en plagiaat, makkelijker worden doordat je sneller bij de relevante informatie in de relevante bronnen bent. Een causaal verband tussen twee gebeurtenissen zal sneller vast te stellen zijn. Dit komt omdat je de timing, relatie en exclusiviteit van die relatie automatisch zichtbaar kan maken. Het mooiste is misschien nog wel het in kaart brengen van de connecties tussen twee entiteiten. Doordat pseudoniemen en indirecte verbindingen herkend worden, komt de relatie glas-helder naar voren. Ik stel me zo voor dat journalisten van morgen een reeks gebruiksvriendelijke tools krijgen waarmee alle functionaliteit van het semantische web wordt ontsloten. Met behulp van deze tools zullen zij doortastender kunnen werken, waarmee zij in minder tijd meer kwaliteit kunnen creëren.
Ondersteund met semantische technologie en collectieve intelligentie zullen de digitale kranten de nieuwsconsumptie drastisch veranderen. Ik ben er van overtuigd dat de digitale kranten steeds verder op maat gemaakt gaan worden naar de wensen van de individuele gebruiker. Het semantische web zal deze personalisatie van kranten een belangrijke stap vooruit helpen. Het wordt daarmee namelijk mogelijk om artikelen volledig automatisch te karakteriseren. Niet zo zeer in onderwerp of politieke kleur, maar in een unieke combinatie van karakteristieken die recht doet aan de verfijnde natuurlijke nieuwsgierigheid van mensen. Naast bestaande derivaties zoals bron, categorie, en populariteit wordt het bijvoorbeeld ook mogelijk om de informativiteit, het semantisch bereik, de controverse, en de mate van opinie van een artikel te quantificeren. Een dergelijke unieke typering van artikelen stelt de digitale krant in staat om collectieve intelligentie te benutten. Het aardige van deze techniek is dat je met kennis van de voorkeur van een groep gebruikers een voorspelling van de voorkeur van een individuele gebruiker kunt maken. Een goed werkend collectief intelligentiesysteem kan dus aanbevelingen maken waar een lezer zelf nooit op was gekomen, maar waar de lezer wel in geïnteresseerd blijkt te zijn. Eenvoudigweg door gebruik van de krant wordt het onderliggende aanbevelingssysteem steeds beter. Hiermee wordt het dus mogelijk om een steeds breder aanbod van nieuwsbronnen te verkennen en gegarandeerd interessante artikelen te vinden.
Doordat de nieuwsvraag met de gepersonaliseerde kranten veel duidelijker wordt geformuleerd, zal er ongetwijfeld ook een invloed zijn op het aanbod. Het wordt voor de lezer makkelijker om uit zijn "zuil" te treden en om zijn individuele interesses te manifesteren. De journalist zal dus een ander publiek krijgen, een publiek van specifiek geïnteresseerden uit bredere maatschappelijke en politieke kringen. Een publiek dat voor datgene gaat waar die journalist goed in is. Ik ben er van overtuigt dat nieuwe technieken zoals het semantische web en collectieve intelligentie zodoende tot een efficiëntere markt-werking gaan leiden. Vraag en aanbod worden namelijk op een meer verfijnde manier met elkaar verbonden. Dit is nog maar een tipje van de sluier van het enorme kwaliteitspotentieel dat het semantische web herbergt. Je kunt je voorstellen dat er voor andere sectoren waar taal een grote rol speelt ook een overvloed aan onverkende mogelijkheden zijn. Ik nodig een ieder uit om die mogelijkheden te identificeren en tot waarde om te zetten.
Dr. A. Verhoeff

Comments
Post new comment