Mémoires 2018-2019

Génération automatique de rapports d’analyse financière. Développement et évaluation d’un système à base de règles


Prénom NOM : Milena CHAINE

Année : 2019
Mots clés : génération automatique de textes, domaine de spécialité, langue de spécialité, approche symbolique, évaluation humaine
Résumé : Ce mémoire décrit le développement et l'évaluation d'un système de génération automatique de rapports d'analyse financière. Nous avons défini, modélisé et codé des règles de génération pour un système commercial permettant de générer régulièrement plusieurs centaines de rapports simplifiés d'analyse. Le système doit modéliser des données informatiques non-textuelles complexes afin de les utiliser dans des règles de génération définies en collaboration avec des analystes financiers. Ces règles doivent être représentatives de l'expertise d'un·e analyste et permettre de générer un texte cohérent d'un point de vue rhétorique et linguistique. Enfin, les rapports d'analyse générés doivent employer la langue spécialisée du domaine qu'est la finance de marché. Pour évaluer la qualité des textes générés, nous avons mis en place un protocole d'évaluation humaine par des spécialistes du domaine.

Télécharger le mémoire


La lisibilité dans le contexte de l'écologie numérique


Prénom NOM : Margaux DUHAYON

Année : 2019
Mots clés : pollution numérique, écologie numérique, plongement de documents, Doc2vec, apprentissage automatique, lisibilité, éco-conception web
Résumé : La pollution numérique est une notion qui est peu démocratisée chez les utilisateurs et les concepteurs d'applications, de logiciels et de sites web. Pourtant, l'envoi d'un mail ou une recherche sur un moteur de recherche est source de pollution en consommant de l'énergie. L'écologie numérique est une réponse à cette pollution grâce à des actions permettant de limiter les impacts environnementaux de nos équipements numériques. Nous souhaitons proposer, avec ce mémoire, des outils de traitement automatique des langues dans le contexte de l'écologie numérique. Pour cela, nous nous appuyons sur la bonne pratique de l'éco-conception qui vise à rendre les textes d'un site web les plus accessibles possible. Nous nous intéressons donc à la lisibilité des textes présents sur les sites web en expérimentant sur des clusters obtenus à l'aide d'algorithmes de classification non supervisée.

Optimisation du processus de recrutement par utilisation de méthodes d’intelligence artificielles


Prénom NOM : Suhaib ETARHUNI

Année : 2019
Mots clés : Recrutement, apprentissage automatique, traitement automatique des langues, classification de textes, scoring, ranking candidates
Résumé : Le marché du travail a connu le développement d’un grand nombre de sites d’offres d’emploicomme par exemple LINKEDIN, MONSTER qui ont permis de développer un marché de recrutement en ligne. Notre sujet porte sur le développement d’un outil permettant d’optimiser le temps de traitement des données lors du processus de recrutement. Ceci est en automatisant la présélection et l’évaluation des profils des candidats. L’objectif est de fournir un score de compatibilité entre une offre et chaque candidat, ce score reflète à quel point son profil correspond aux spécifications du poste. Notre travail se concentre sur l’analyse de CVs ainsi que les besoins métier du service de recrutement.

Télécharger le mémoire


Extraction d’Entités d’Aliments/Médicaments à Partir de Textes Biomédicaux en Français


Prénom NOM : Chunyang JIANG

Année : 2019
Mots clés : fouille de textes du domaine biomédical, interactions aliments-médicaments, reconnaissance d’entités nommées, apprentissage automatique, CRF
Résumé : Ce travail s’inscrit dans le cadre du Projet ANR MIAM (Maladies, Interactions Alimentation-Médicaments) dont l'intérêt central concerne l'extraction des informations sur les interactions entre l'alimentation et les médicaments. Ces interactions peuvent conduire à un effet indésirable. Dans ce contexte, l’objectif de notre travail est d’extraire les mentions de médicaments et d'aliments dans les textes biomédicaux, qui est une étape importante voire élémentaire pour permettre une gamme de tâches de fouille de textes en aval. Le point de départ est la constitution d’un corpus français pertinent qui nous permet ensuite d’expérimenter des approches adéquates à la reconnaissances des entités aliments/médicaments. Nous nous appuyons également sur des informations extraites des ressources terminologiques.

Télécharger le mémoire


Extraction terminologique à partir de corpus spécialisés comparable collectés sur le web: construction d'un lexique de termes économiques trilingue


Prénom NOM : Yamina MIR

Année : 2019
Mots clés : extraction termiologique - corpus comparables - TermoStat - glossaire - N-grams
Résumé : L’objectif de ce mémoire est de mettre en place une méthode qui permette d’extraire la terminologie à partir de corpus spécialisés comparables collectés sur la toile en italien, anglais et français. Les candidats-Terme extraits et validés, pourront ensuite être exploités pour la création d’un glossaire du domaine économique trilingue. Les listes de termes seront constituées en utilisant une méthode à la fois linguistique et statistique. L’extraction terminologique sera effectuée dans un premier temps à l’aide des N-grams constitués en utilisant l’outil TreeTagger. Ensuite, j’évaluerai le logiciel d’extraction terminologique TermoStat en m’appuyant sur le glossaire de référence créé au préalable. Le but est d’évaluer ces outils afin de déterminer s’ils peuvent être utilisés par un traducteur ou interprète dans la phase préparatoire des documents.

Application des méthodes de l’extraction de thématique sur un corpus homogène dans le domaine des parfums d’ambiance


Prénom NOM : Boyu NIU

Année : 2019
Mots clés : TAL, extraction de thématique, analyse exploratoire du corpus, sélection des traits linguistiques, LSA, LSI, LDA, mesures de cohérence
Résumé : Nous avons étudié deux méthodes pour faire l’extraction automatique de thématique : la Latent semantic Indexing (LSI, ou Latent Semantic Analysis, LSA) et la Latent Dirichlet Allocation (LDA). Elles ont été appliquées sur un corpus composé des commentaires des consommateurs britanniques dans le domaine des parfums d’ambiance.
Comme ces commentaires sont assez courts et homogènes dans leur contenu, nous avons pris en considération ces particularités et expérimenté des stratégies de la sélection des traits linguistiques et du paramétrage pour essayer d’améliorer la performance de ces deux méthodes.
Nous avons aussi étudié une méthode pour évaluer automatiquement la cohérence des thèmes extraits. Elle a été mise en pratique pour évaluer les résultats obtenus avec la LSI/LSA et la LDA.

Hate speech detection in social media


Prénom NOM : Yihong OUYANG

Année : 2019
Mots clés : text classification
Résumé : Avec la popularité des plates-formes de réseaux sociaux, de plus en plus de personnes sont connectées et partagent des informations. Bien que nous profitions de cet environnement ouvert, nous devrions également envisager l'un des dommages potentiels qu'il entraîne: le discours de haine en ligne. Détecter le discours de haine a été un défi pour le traitement du langage naturel. Ici, nous construisons et comparons 8 modèles traditionnels d’apprentissage automatique avec des réseaux de neurones. Il s’avère que notre modèle construit sur le transformateur BERT atteint la plus haute précision de 0,93. Nous analysons des méthodes détaillées et quelques problèmes actuels de la définition et de l’ensemble de données.

Prédiction d'une maladie rare : l'amyloïdose cardiaque


Prénom NOM : Elvira QUESADA

Année : 2019
Mots clés : anonymisation, pseudonymisation, reconnaissance d’entités nommées, apprentissage automatique, CRF
Résumé : Notre projet se focalise sur la prédiction de l’amyloïdose cardiaque, une maladie rare difficile à diagnostiquer et pour laquelle il n’existe pas encore de traitement. La détection précoce de maladies permettrait de traiter les symptômes en avance en plus de réduire l’impact de celles-ci. Un des obstacles majeur que l’on trouve lorsqu’on travaille avec des données cliniques est la présence de données personnelles. Cette problématique est largement abordée dans la littérature, qui propose en majorité de traiter ce sujet à travers la reconnaissance d’entités nommées. Pour cette raison, nous effectuons une tâche de désidentification en implémentant les deux méthodologies principales : une approche basée sur les connaissances et une approche guidée par les données. Dans un deuxième temps, nous effectuons la tâche de prédiction, qui repose sur des modèles d’apprentissage automatique. Nous menons à terme deux types de classification. En premier lieu, une classification multiclasse, étant celles-ci l’amyloïdose et d’autres maladies cardiaques rares (F-mesure = 0,636), et dans un deuxième temps, une classification binaire, c’est-à-dire, amyloïdose ou non amyloïdose (F-mesure = 0,782). Les amyloïdoses, étant difficiles à diagnostiquer par les médecins, nous observons dans nos expériences que les prédictions sont aussi complexes à réaliser pour une machine, en particulier pour un apprentissage statistique dans la mesure où il faudrait savoir quels sont les éléments essentiels du diagnostic pour pouvoir fournir à la machine ces connaissances. Même si notre modèle n’atteint pas une grande performance en ce qui concerne la prédiction, le travail réalisé permet d’éclaircir les symptômes et signes les plus fréquents associés à l’amyloïdose cardiaque. Actuellement, il reste difficile de prédire cette maladie, mais les expériences menées pourraient servir comme aide aux médecins afin d’attirer leur attention sur des cas probables d’amyloïdose.

Télécharger le mémoire


Intégration des technologies de traduction automatique neuronale à l'échelle d'une agence de traduction


Prénom NOM : Victorien VILLIERS

Année : 2019
Mots clés : marché de la traduction, traduction automatique neuronale, métriques d’évaluation, MQM-DQF, OpenNMT
Résumé : Le présent mémoire compile deux études menées au sein de l’agence de traduction Univoice,
en lien avec la traduction automatique neuronale. Dans la première, nous évaluons les traductions produites par différents outils de traduction automatique neuronale disponibles sur le marché pour la paire de langue anglais-français, dans le cadre de la sélection d’un fournisseur tiers. Nous nous aidons pour cela de deux métriques humaines, inspirées du standard MQM-DQF, et de la métrique automatique BLEU. Dans la seconde étude, nous évaluons la viabilité du développement de moteurs de traduction automatique neuronale en interne, à l’aide de la technologie OpenNMT et de corpus multilingues alignés open-source. Nous mettons en place une série de scripts permettant l’extraction de textes alignés à partir de mémoires de traduction au format TMX et l’entraînement de modèles basés sur la technologie des réseaux de neurones récurrents LSTM, et évaluons les résultats obtenus sur un échantillon de traductions générées en sortie.

Télécharger le mémoire


Reconnaissance d’entités nommées dans les tweets


Prénom NOM : Yizhou XU

Année : 2019
Mots clés : reconnaissance des entités nommées, apprentissage automatique, LSTM, plongements dynamiques, textes bruités
Résumé : Ce travail porte sur la création d’un système de la reconnaissances d’entité nommées (REN) pour les tweets. La REN est un composant crucial pour de nombreuses applications du TAL, tels que traduction automatique et résumé automatique. Cette tâche est un sujet bien étudié dans la communauté du TAL. Néanmoins, la performance des systèmes de la REN conçus pour des textes standard est souvent gravement dégradée sur des tweets. Dans ce mémoire, nous avons proposé un système de la REN pour des tweets qui intègre deux modèles d’apprentissage automatique : le modèle à base d’ingénierie de caractéristiques peut traiter un grand volume de données en temps réel avec un résultat acceptabele et le modèle à base de réseaux de neurones peut produire un résultat de bonne qualité en terme de F mesure. Pour ce dernier, nous avons utiliser le plongement lexical dynamique qui est à l’origne de l’amélioration du résultat.

Télécharger le mémoire


Évaluation de l’extraction de relations entre entités par Relation Miner et propositions d’amélioration


Prénom NOM : Ferial YAHIAOUI

Année : 2019
Mots clés : extraction de relations entre entités nommées, Open Information Extraction, méthode à base de règles, patrons morpho-syntaxiques, cooccurrences d’entités nommées, data vizualisation
Résumé :L’extraction d’information représente un enjeu crucial pour la veille économique des entreprises dans un contexte de plus en plus concurrentiel, à l’instar d’une banque leader comme la BNP Paribas. Ce travail s’inscrit dans le projet de la plate-forme collaborative LEOnard du Département des Études Économiques de cette banque.

Il était question dans ce contexte d’évaluer un système d’extraction et de visua- lisation de relations entre entités nommées, à base de règles, et de suggérer des améliorations en conséquence. Ce système est propriétaire, fourni par une entreprise proposant des solutions clé en main TAL et est en phase de pré-production sur la plate-forme LEOnard. Bien que présentant une très bonne précision, il produit un cas de silence élevé en plus de la représentation graphique qui convient partiellement aux attentes des utilisateurs. Par conséquent, ces cas de silence ont été analysés et évalués à la lumière des besoins hétérogènes des usagers de la plate-forme LEOnard, en constituant un corpus de référence.

Les résultats montrent que l’extraction de relations à base de règles se confronte aux nouvelles méthodes de l’extraction d’information du domaine ouvert (Open Infor- mation Extraction, OIE) qui libèrent l’acquisition de relations de listes prédéfinies, mais qui requièrent un apprentissage sur des données conséquentes. À cet effet, l’ex- tension de la grammaire du système a été proposée en fonction des patrons de rela- tions ratées les plus récurrents. En outre, deux visualisations supplémentaires ont été proposées, la première à base de clustering de relations similaires et la seconde à base de cooccurrences d’entités nommées.