Dr. Pablo Mosteiro Romero

Sjoerd Groenmangebouw
Padualaan 14
3584 CH Utrecht

Dr. Pablo Mosteiro Romero

Universitair docent
Methoden en Statistiek
p.j.mosteiroromero@uu.nl

Onderzoekgebied

Ik doe onderzoek op het gebied van Natural Language Processing (NLP). Mijn huidige onderzoeksinteresses liggen in taalverandering en informatietheoretische benaderingen van de taalkunde. Wat betreft taalverandering, bestudeer ik de evolutie van synoniemen door de tijd heen in verschillende talen. Tegelijkertijd gebruik ik methoden uit de informatietheorie om de relatie tussen morfologie en syntax te bestuderen in veel talen van alle continenten. In het verleden heb ik gewerkt aan klinische toepassingen van NLP, voornamelijk in de psychiatrie, en aan eerlijkheid en explainability in NLP en multimodale systemen. Ik interesseer me ook voor experimentele reproduceerbaarheid en gegevenskwaliteit.

Ik ben onderdeel van het Sectorplan Maatschappij- en Gedragswetenschappen, onder het thema De menselijke factor in nieuwe technologieën.

Onderzoeksvaardigheden

Ik bezit een PhD in natuurkunde, met een specialisatie in experimentele deeltjesfysica. Mijn kernkwaliteiten op dit gebied zijn de ontwikkeling van computerprogramma's voor experimentele controle, gegevensinwinning en gegevensanalyse, alsook op het gebied van de wiskunde, specifiek die welke vereist worden voor de informatietheorie en de statistische fysica. Mijn programmeringsvaardigheden worden ook toegepast in mijn huidige werk, waaronder softwareontwikkeling, machine learning model ontwikkeling en training. Daarnaast bezit ik vaardigheden bij gegevensannotatie en statistische analyses.

Projecten
Algemene projectbeschrijving

Historisch taalkundigen formuleren al lang wetmatigheden om te beschrijven hoe taal zich door de tijd heen ontwikkelt. Dit heeft onder andere geleid tot tegenstrijdige regels over de ontwikkeling van synoniemen. Recent computationeel onderzoek heeft geprobeerd om deze regels te evalueren, maar er zijn limitaties aan methoden en data die hiervoor worden gebruikt. Om deze limitaties te minimaliseren gebruikt dit project recente ontwikkelingen in natuurlijke taalverwerking (NLP) om de veranderingen in individuele woordbetekenissen door de tijd heen te volgen, en daarmee de geldigheid van twee lang bestaande taalkundige regels over de ontwikkeling van synoniemen te beoordelen.

Rol
Onderzoeksleider
Financiering
2e geldstroom - NWO
Algemene projectbeschrijving

This research project aims to build upon and refine the findings of the paper "On the Usefulness of Comparable and Parallel Corpora for Contrastive Linguistics. Testing the Semantic Stability Hypothesis"1 by critically examining and augmenting its statistical methods, evaluating its methodology on quasi-parallel texts without translations, and potentially extending the analysis to include machine-generated texts.

Rol
Onderzoeksleider
Financiering
Anders
Projectleden
Afgesloten projecten
Project
What is a word? What was a word? 29-11-2024 tot 29-11-2025
Algemene projectbeschrijving

The concept of word is indispensable in the study of language while its theoretical status and even its objective reality is contested. This study aims to explore the concept of word as a fundamental unit through the statistical trade-off between morphology and syntax. Building on existing methodologies1, we will investigate this trade-off across different stages of a language's evolution to understand the informational optimality of words. We will rely on replicating and extending a previous study, combining it with an approach developed by one of the applicants that explores the effect of word-boundary manipulations on the trade-off between word order and word structure. Finally, we will evaluate diachronic case studies. Our data starts with the Parallel Bible Corpus, but we will also explore other corpora that can provide more diachronic information. This work will teach us about the information-optimality of words and will also give us insights into historical language change, shedding light on wordhood from a quantitative perspective.

Rol
Onderzoeksleider & uitvoerder & contactpersoon
Financiering
Anders Applied Data Science research grant
Projectleden
Project
Assessing Reliability of Annotations in the Context of Model Predictions and Explanations 21-12-2023 tot 21-03-2025
Algemene projectbeschrijving

With the rise of machine learning models in sensitive areas, such as sexism detection on social media platforms, the accuracy of these models is of paramount importance. There are many ongoing research and evaluation campaigns in this field, like EXIST and EDOS. For this task, it is important not only the accurate predictions of the model but also to generate explanations for those predictions. Because most datasets that are used in the studies have been annotated by humans, it is important to understand the factors that can influence them. Therefore, assessing the reliability of annotations made by humans becomes crucial to ensure the quality of the validation process. In this project, we aim to measure the influence of explanations generated by prediction systems on annotators' agreement and compare them with model predictions. Our innovation is about using explanation techniques to better understand both model and human reliability.

Rol
Onderzoeksleider
Financiering
Anders Applied Data Science research grant