Dr. M.P. (Marijn) Schraagen

Buys Ballotgebouw
Princetonplein 5
Kamer 5.01
3584 CC Utrecht

Dr. M.P. (Marijn) Schraagen

Junior universitair docent
Natural Language Processing
m.p.schraagen@uu.nl
Projecten
Project
Estimating literacy levels by recognizing stress using machine learning 01-06-2024 tot 01-07-2025
Rol
Uitvoerder
Financiering
2e geldstroom - NWO Ai-NEDXS
Projectleden
Overige projectleden
  • Sarah Bro Trasmundi — University of Southern Denmark
Project
Opsporen en voorkomen van laaggeletterdheid onder 12-15-jarigen in Nederland 01-09-2022 tot 01-09-2025
Algemene projectbeschrijving

With Henk Aarts and Hans Marien (both Social and Behavioural Sciences), and Mehdi Dastani and Marijn Schraagen (Information and Computing Sciences); the aim of this project is to design and develop AI tools for detecting and preventing low literacy in Dutch children, and for providing adequate and personalized support for improving literacy (with the Foundation for Open Speech Technology, Fontys University of Applied Sciences, Royal Library, Stichting Lezen, and other potential partners.

Rol
Uitvoerder
Financiering
Anders AI Lab and matching of Royal Library and Fontys Hogeschool
Afgesloten projecten
Project
Intra-auteur-variatie op het gebied van negatie: de brieven van P.C. Hooft 01-02-2017 tot 01-08-2017
Algemene projectbeschrijving

Within the dynamic linguistic situation of the Dutch Golden Age, we observe a type of language variation that has rarely been addressed before: variation within individual language users (intra-author variation). This becomes especially clear in the way 17th century authors use negation: they express negation in the Middle Dutch way (i.e. embracing negation, a combination of the negative clitic en and a negative particle niet; compare French ne…pas) as well as in the modern way (single negation: niet). In this Nederlab pilot project, we aim to describe and analyze in detail the linguistic and literary/rhetorical contexts in which these two variants of negation occur within the letters of the famous Dutch author and politician P.C. Hooft, written between 1600 and 1638. In this period, he used both forms of negation: as earlier research has demonstrated, Hooft stopped using embracing negation in 1638. This pilot project will enrich Hooft’s letters in the Nederlab corpus in such a way that we are able to search for grammatical properties that are specific for 17th century Dutch. We will then analyze in which linguistic, literary and sociolinguistic contexts specific types of negation and negation particles were used.

Rol
Uitvoerder
Financiering
2e geldstroom - overig Nederlab
Project
Taaldynamiek in de Nederlandse Gouden Eeuw: Taalkundige en sociaal-culturele aspecten van variatie binnen auteurs 01-09-2016 tot 01-09-2020
Algemene projectbeschrijving

De Nederlandse Gouden Eeuw was een dynamisch tijdperk waarin er vernieuwingen plaatsvonden op vele terreinen, zoals cultuur, religie, wetenschap en handel. Ook de taal was volop in beweging. Het Nederlands, de eenheidstaal van de nieuwe Republiek, werd in steeds meer domeinen van de samenleving gebruikt (zoals het religieuze en wetenschappelijke domein) en er werden vele pogingen ondernomen om de positie van de moedertaal te versterken en de taal te standaardiseren. Zo kwamen medewerkers aan de Statenvertaling, afkomstig uit verschillende regio’s, formele taalafspraken overeen. Ook natuurlijke taalontwikkelingen hadden een impact op het Nederlands: steeds meer eigenschappen uit het Middelnederlands (bijvoorbeeld naamval) verdwenen om plaats te maken voor nieuwe eigenschappen (zoals het gebruik van voorzetselgroepen).

Deze taalontwikkelingen resulteerden in veel variatie binnen het taalgebruik van auteurs. Het taalsysteem van een zeventiende-eeuwer bevatte bijvoorbeeld drie manieren om uit te drukken dat vader een broek bezit: vaders broek, de broek des vaders en de broek van vader. Dit project gaat in op de vraag waarom in een bepaalde situatie een van deze opties werd gebruikt. Hing dat samen met de regels van het genre, de afspraken die werden gemaakt in het Statenbijbelproject of de sociale achtergrond van het beoogde publiek?

Dit project onderzoekt deze nog zo weinig bestudeerde intra-author variation, en wil begrijpen welke factoren die variatie tot stand brachten: hoe ontstond de intra-author variation in het zeventiende-eeuws Nederlands? Onze hypothese is dat de variatie het resultaat was van een dynamische interactie tussen het interne taalsysteem van taalgebruikers enerzijds en hun sociaal/literair-culturele context anderzijds. Het taalsysteem van een taalgebruiker maakte variatiemogelijkheden beschikbaar, die vervolgens door een taalgebruiker systematisch en vaak strategisch werden ingezet, afhankelijk van bijvoorbeeld het publiek of de doelstellingen en literaire vormgeving van zijn tekst.

We zullen een voorbeeld geven van het type verschijnselen waar we naar kijken, namelijk negatie. In het Middelnederlands werden zinnen ontkennend gemaakt door tweeledige negaties van het type en…niet (vergelijk het Franse ne…pas). In de zeventiende eeuw maakte deze vorm van negatie langzaam plaats voor eenledige negaties: ic en sal niet moghen gaen werd steeds vaker ik zal niet mogen gaan. Hooft gebruikte in zijn brieven eenledige en tweeledige negaties door elkaar. Was dat toeval of zit er systematiek achter zijn keuzes? Op basis van ons vooronderzoek denken wij dat in het interne taalsysteem van Hooft de twee typen negaties een verschillende lading kregen. Zo gaf Hooft zinnen van het type ‘niet dit, maar dat’ extra nadruk door de tweeledige ontkenning toe te voegen: ‘Ick en zoek de rouw niet, maer zij weet mij te vinden’ (Hooft 1624). Daarnaast lijkt de sociaal-culturele context relevant te zijn voor zijn keuzes. Juist in zijn brief aan zijn geliefde Eleonora Hellemans, waarin hij haar afwijzing betreurt, komen dubbele  negaties vaker voor dan in andere brieven.

Hooft bezit dus blijkbaar een ‘subgrammatica’ – ofwel een ‘register’ – met twee negatie-varianten dat hij inzet in bepaalde situaties. In andere gevallen gebruikt hij juist zijn register met alleen eenledige negaties. Hoe dat werkt, willen we in dit project onderzoeken via drie samenhangende deelprojecten, waarin teksten van verschillende auteurs worden onderzocht. We kijken bijvoorbeeld zowel naar zowel taalkunstenaars die het Nederlands actief wilden vernieuwen en verfraaien (zoals Bredero en Hooft) als naar taalgebruikers die geschreven taal inzetten als een praktisch communicatiemiddel (Michiel de Ruyter), en combineren mannen met vrouwen, en migranten met in de Republiek geboren en getogen auteurs.

De eerste twee deelprojecten, gericht op de kwalitatieve analyse van case studies, worden uitgevoerd door AiO’s. Deelproject 1 verklaart intra-author variation vanuit het interne taalsysteem en deelproject 2 vanuit de literair-culturele context. Het postdoc-project legt op grootschalige wijze patronen van intra-author variation bloot, om zo de resultaten van de andere deelprojecten te testen en nieuwe variatiepatronen op het spoor te komen. Om dit kwantitatieve onderzoek uit te voeren, zal de postdoc nieuwe tools ontwikkelen om teksten uit het zeventiende-eeuws Nederlands te voorzien van syntactische informatie en automatisch te doorzoeken op syntactische structuren. De resultaten van deze drie deelprojecten zullen worden samengebracht in een aantal synthetiserende studies.

Innovatief aan dit project is de interdisciplinaire aanpak: het combineert methodiek en theorievorming uit de theoretische taalkunde, historische sociolinguïstiek, computationele taalkunde en vroegmoderne letterkunde. De variatie binnen taalgebruikers wordt normaal gesproken door theoretisch taalkundigen verklaard vanuit het taalsysteem en binnen de historische sociolinguïstiek vanuit sociale variabelen zoals geslacht en sociale klasse. Dit project brengt de beide perspectieven samen, en voegt daar een letterkundige benadering aan toe, om op die manier beter inzicht te krijgen in de literaire aspecten van taalvariatie binnen auteurs (zoals genreconventies) en in het strategische en creatieve gebruik van taalvariatie. Daarnaast profiteert dit project van recente ontwikkelingen in de computationele taalkunde. Dankzij de vernieuwende interdisciplinaire aanpak werpt dit project licht op zowel de grammaticale kenmerken als de literaire en culturele factoren die taalvariatie tot stand brachten in een tijd van intensieve taalontwikkeling.

 

 

Rol
Uitvoerder
Financiering
2e geldstroom - NWO
Project
Intelligente Aangiften Cybercrime 01-05-2016 tot 01-09-2020
Algemene projectbeschrijving

In het project "Intelligente Aangiften" maken we samen met de Landelijke Eenheid van de politie een eerste aanzet tot een Artificial Intelligence (AI) framework voor het (semi-)autonoom verwerken van online aangiften cybercrime door burgers.

Het framework staat een peer-to-peer benadering voor: elk onderdeel van het aangifteproces wordt door een individuele module verzorgd, wat incrementele toepassing en aansluiting bij bestaande systemen mogelijk maakt. Verder is data slechts toegankelijk voor de relevante deelnemers aan een (deel)proces (bijv. burgers, politie, OM) en wordt alleen strikt noodzakelijke informatie tussen processen gedeeld, wat de privacy waarborgt.

Ook gebruiken we een hybride toepassing van machine learning technieken voor het ontdekken van structuren in grote hoeveelheden data met meer transparante en begrijpelijke kennisgebaseerde (argumentatie-)modellen. Zo kan op een verantwoorde en controleerbare manier gebruik gemaakt worden van de meest recente inzichten op het gebied van data science en AI.

Rol
Uitvoerder
Financiering
3e geldstroom - overig Nationale Politie innovatiesubsidie
Overige projectleden
  • Daphne Odekerken