Ph.D. available for application

Title

Unsupervised discriminative models for Natural Language Processing

Topic

Natural Language Processing, Machine Learning

Context

Supervised discriminative statistical models constitute nowaday's dominant paradigm in most Natural Language Processing tasks. However, their dependency on the availability of annotated corpora strongly impact their applicability to new, emerging or resource-limited application domains. Conversely, unsupervised approaches that do not require manual annotations, are often limited to flat distance-based clustering or generative Bayesian models such as LDA. In the unsupervised context, discriminative models are difficult to use because the evidence marginal is independent from conditional models parameters. Yet the promises of unsupervised feature-rich models have recently triggered a number of proposals to achieve unsupervised training of discriminative models: for instance, with Contrastive Estimation, Search-based Structured Prediction (UnSEARN), Generalized Expectation, or risk minimization. The latter solution is particularly interesting, because of its nice theoretical guarantee to converge towards the same optimal parameters as when the whole corpus is annotated, as long as some Gaussianity assumptions on the classifier scores distribution are fulfilled. An open challenge is to study which types of features and what kind of constrained optimization algorithms preserve the validity of this assumption.

Objective

The objective of this Ph.D. thesis is to first review the state-of-the-art in unsupervised training of discriminative models as well as their application in Natural Language Processing, with a particular focus on alternative solutions to approximate the risk minimizer than the classical Maximum Likelihood objective. Then, the core of the thesis will be to apply such approximations to one or several basic NLP tasks, such as sentiment analysis or entity linking, and study the validity of the fundamental hypothesis required to perform discriminative unsupervised training on such tasks. The first research objective will then be to identify and analyze potential deficiencies of these hypothesis, and propose theoretical and practical solutions to limit these issues. The second main objective will be to propose original extensions of these paradigms to include explicit user constraints, in the form of incomplete or indirect expert annotations, or still external resources. These constraints shall be included in a way that guarantee that the fundamental assumptions of the proposed approach will be valid.

References

  • "Unsupervised Supervised Learning II: Margin-Based Classification Without Labels", Krishnakumar Balasubramanian, Pinar Donmez and Guy Lebanon, Journal of Machine Learning Research 12, 2011
  • "The Asymptotics of Semi-Supervised Learning in Discriminative Probabilistic Models", Nataliya Sokolovska, Olivier Cappé, François Yvon, ICML 2008
  • "Unsupervised search-based structured prediction", Hal Daumé III, ICML 2009
  • "Semi-supervised learning of dependency parsers using generalized expectation criteria", Gregory Druck, Gideon Mann, and Andrew McCallum", ACL, 2009

Présentation en français

La plupart des tâches en traitement automatique des langues sont résolues aujourd'hui, au moins en partie, par des modèles statistiques supervisés, c'est-à-dire entraînés automatiquement sur des corpus annotés manuellement. Dans ce cadre, on utilise le plus souvent des modèles discriminants, c'est-à-dire des modèles dont les paramètres modélisent directement la probabilité conditionnelle P(Y|X) de la variable latente Y et dont les paramètres sont conditionnellement indépendant des observations X. Ces modèles sont souvent choisis car ils peuvent plus facilement prendre en compte des indices (features) riches, complexes et corrélés les uns aux autres et qui sont calculés à partir des observations. Toutefois, cet avantage a un prix: l'impossibilité d'apprendre des paramètres indépendant de toute observation en l'absence d'annotations sur Y.

Entraîner des modèles discriminants de manière non-supervisée reste donc un défi majeur en apprentissage automatique, car le coût exhorbitant requis pour annoter manuellement les innombrables données disponibles à l'heure du Big Data est un frein important à l'exploitation de ces données. Les deux alternatives possibles sont donc, soit d'utiliser des approches de clustering basées sur les distances mais qui ne peuvent exhiber de structures latentes complexes, soit d'exploiter des modèles bayésiens génératifs qui ne peuvent pas facilement prendre en compte d'indices riches, multiples et corrélés.

La problématique de l'apprentissage non-supervisé de modèles discriminants se situe précisément à l'interface entre le domaine théorique de l'apprentissage automatique, et celui, plus appliqué, du traitement automatique des langues qui est particulièrement confronté au défi actuel du Big Data, au vu de l'accroissement exponentiel de la quantité de données diffusées en langue naturelle sur internet. En effet, comme cela sera étudié dans la thèse, si des solutions purement théoriques à cette problématique et s'appuyant sur des hypothèses génériques ont été récemment proposées, l'absence d'annotations et donc de contraintes sur ces algorithmes d'apprentissage limitent le domaine de validité de ces hypothèses dans des cas concrets, et il faut donc impérativement prendre en compte les spécificités et les contraintes liées au domaine d'application, et ici en particulier au traitement automatique des langues, pour comprendre comment ces hypothèses théoriques sont mises à mal et proposer ainsi de nouvelles contraintes sur les indices acceptables et sur les méthodes d'optimisation afin de guarantir la validité des hypothèses initiales. Dans un second temps, il serait intéressant d'étendre ces contraintes afin d'y inclure les multiples connaissances disponibles aujourd'hui et qui peuvent également guider l'apprentissage non-supervisé vers les solutions les plus utiles, même si elles ne concernent pas directement la variable d'intérêt Y, comme les règles expertes, les annotations partielles, ou les dictionnaires et diverses resources.

Comments

Comments powered by Disqus