Rechercher un outil répertorié adapté à vos besoins

Les langues indiquées en rouge peuvent en principe être traitées par la tâche mais n'ont pas encore été testées par l'équipe MultiTAL.

Les langues indiquées en violet peuvent être traitées par la tâche après entraînement.

Voir/cacher toutes les valeurs du tableau

Trouvez l'outil qui vous convient en filtrant votre recherche par le type de tâche que vous voulez exécuter.

Les différents types de tâches des outils relevés dans le cadre du projet MultiTAL sont listés ci-dessous ; Vous pouvez cliquer sur les liens pour recharger le tableau de recherche avec la valeur choisie.

Réinitialiser ce filtre

Analyse de sentiment
L'analyse de sentiment vise à extraire, à partir de données textuelles, des informations subjectives, relatives aux sentiments et opinions exprimés dans le texte et s'utilise par exemple dans le but de définir l'avis de(s) l'auteur(s) sur un sujet ou par des entreprises pour calculer la notoriété d'un produit avant son lancement ou évaluer sa popularité.
Analyse de texte
L'analyse de texte est le processus d'extraction d'information significative à partir des données non structurées d'un texte.
Analyse morpho-lexicale
L'analyse morpho-lexicale a pour objectif d'identifier les mots du texte (simples, composés ,noms propres, abréviations) et leurs traits (genre et nombre)
Analyse morphologique
L'analyse morphologique est l'étude des composants d'une unité lexicale et donc sa décomposition en morphèmes. En résulte l'étude des relations entre les différentes formes d'un mot et les relations entre les mots ayant, par exemple, un morphème en commun.
Analyse syntaxique
L'analyse syntaxique consiste à étudier la structure d'un texte en explicitant les relations de dépendance entre les mots.
Analyse syntaxique de surface
L'analyse syntaxique de surface analyse les constituants de la phrase sans s'intéresser à leur fonction. Contrairement à l'analyse en profondeur, l'analyse syntaxique de surface ne produit pas de représentation des relations entre les éléments de la phrase.
Analyse syntaxique en constituants
Le concept fondamental est celui qui consiste à créer des unités syntaxiques. Chaque unité est ensuite décrite au moyen d'une chaîne d'unités syntaxiques ou de symboles terminaux.
Analyse syntaxique en dépendances
L'analyse syntaxique en dépendance se concentre sur la fonction des mots dans la phrase et donc les liens entre les mots ou groupes de mots de la phrase.
Analyse syntaxique profonde
L'analyse syntaxique profonde est l'analyse de la structure de la phrase, elle permet une représentation de la phrase par un arbre de dépendance qui met en avant les liens structurels entre les unités lexicales pleines de la phrase.
Annotation
Annotation est le processus qui consiste à attacher des informations complémentaires au contenu textuel d'un document
Calcul de lisibilité
La calcul de lisibilité est donné sous forme d'un coefficient allant de 0 à 100 qui prend ne compte de nombreuses variables (comme la proportion de mots rares, longueur des phrases ou encore la proportion de mots polysémiques par rapport aux mots monosémiques) et permet d'évaluer la facilité de lecture d'un texte. Il peut aussi être utilisé pour donner une indication du niveau attendu du lecteur pour pouvoir comprendre pleinement le texte.
Calcul n-gramme
Un n-gramme permet, à partir d'une séquence de lettres donnée (par exemple « par exemple »), d'obtenir la probabilité d'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille n. Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2.
Collocation
En linguistique, une collocation est une cooccurrence privilégiée, une association habituelle d'un mot à un autre au sein d'une phrase, un rapprochement de termes qui, sans être fixe, n'est pas pour autant fortuit, comme : « voix suave », « courir vite », « entraîner des conséquences ».
Comparaison de rapports de fréquence de mots
Comparaison des rapports de fréquence des mots de deux textes.
Concordances
La recherche de concordances permet d'afficher un répertoire des exemples rencontrés pour chaque mot et donnant chaque occurrence dans un contexte minimal.
Détection de la langue
En Traitement Automatique des Langues, la détection de la langue est le fait de déterminer la langue d'un texte ou d'un mot donné avec des méthodes statistiques.
Détection d'entités nommées
La reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc.
Détection de ponctuation chinoise
Vérifie si un texte contient ou pas de la ponctuation chinoise
Détection des acronymes
La détection des acronymes consiste à rechercher les acronymes, donc les mots constitués des initiales de plusieurs mots, avec des méthodes statistiques ou basées sur des règles.
Diacritisation/vocalisation
La diacritisation consiste à ajouter des diacritiques aux caractères.
Entrainement pour l'analyse morphologique
Entrainement pour l'étiquetage morpho-syntaxique
Etiquetage de rôles sémantiques
Le rôle sémantique sert à décrire le sens qui s'attache à un groupe nominal par rapport au procès exprimé par le verbe au sein d'une phrase.
Etiquetage morphologique
L'étiquetage morphologique est l'attribution d'une étiquette à chaque unité lexicale indiquant sa fonction grammaticale.
Etiquetage morpho-syntaxique
L'étiquetage morpho-syntaxique est l'attribution, pour chaque unité syntagmatique du texte, d'une étiquette indiquant la fonction grammaticale et la partie du discours de l'unité.
Extraction de mots clés
La tâche d’extraction automatique de mots clés consiste à analyser un document pour en extraire les expressions les plus représentatives de celui-ci.
Extraction d'information
L'extraction d'information est le fait d'extraire des informations structurées à partir de documents non-structurés ou semi-structurés.
Extraction sémantique
Recherche des thèmes et sous thèmes du document et de leurs liens
Fréquence des mots
La fréquence d'un mots est le nombre d'apparition de ce mot dans un texte par rapport au nombre total de mots d'un texte.
Génération de faux texte (Lorem ipsum)
Génération automatique de faux texte.
Génération morphologique
La génération morphologique consiste à générer automatiquement les variations morphologiques d'un mot donné.
Importation de corpus
Tâche qui réalise l'importation d'un corpus ayant des contraintes spécifiques.
Lemmatisation
La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc.
Lexicométrie
Analyse des fréquences des mots
Normalisation du texte
La normalisation du texte consiste à uniformiser le document pour respecter le standard en vigueur. Elle transforme des caractères ou séquences de caractères équivalents en représentation fondamentale afin que celle-ci puisse être facilement lue et comparée.
Probabilité de succès
La probabilité de succès est le résultat d'un calcul permettant de déterminer la probabilité qu'un évènement se produise. En TAL, c'est la probabilité calculé pour un étiquetage choisi, dans le cas d'un étiqueteur.
Racinisation
La racinisation consiste à fournir la racine du mot, donc son radical une fois les affixes retirés.
Recherche par étiquette morpho-syntaxique
La recherche par étiquette morphosyntaxique permet d'afficher toutes unités du texte ayant la même étiquette.
Regroupement hiérarchique
Le regroupement hiérarchique est un moyen de classification automatique des données suivant des méthodes de partitionnement des données (ou clustering) qui permettent la division des données en paquets partageant des caractéristiques communes.
Segmentation
Dans le cas des langues qui ne possèdent pas de caractères délimiteurs, la segmentation consiste a introduire des séparations entre les unités lexicales du texte. La segmentation peut aussi faire référence à la séparation d'un texte selon des délimiteurs prédéfinis par l'utilisateur.
Suppression ponctuation chinoise
Tâche qui consiste à supprimer les signes de ponctuation chinoise dans un texte donné.
Tokenisation
La tokenisation consiste à segmenter un texte en unités lexicales appelées tokens.
Traduction automatique
La traduction automatique désigne la traduction d'un texte (ou d'une conversation audio, en direct ou en différé) faite entièrement par un ou plusieurs programmes informatiques,
Transcription
La transcription est l'opération qui consiste à substituer à chaque phonème (on parle alors de transcription phonologique) ou à chaque son (transcription phonétique) d'une langue un graphème ou un groupe de graphèmes d'un système d'écriture. Elle dépend donc de la langue cible, un unique phonème pouvant correspondre à différents graphèmes suivant la langue considérée.
Translittération
La translittération est l'opération qui consiste à substituer à chaque graphème d'un système d'écriture un graphème ou un groupe de graphèmes d'un autre système, indépendamment de la prononciation. Elle dépend donc du système d'écriture cible, mais pas de la langue.

Trouvez l'outil qui vous convient en filtrant votre recherche par la méthode de Traitement Automatique du Language que vous voulez utiliser.

Les différentes méthodes de Traitement Automatique du Language des outils relevés dans le cadre du projet MultiTAL sont listées ci-dessous ; Vous pouvez cliquer sur les liens pour recharger le tableau de recherche avec la valeur choisie.

Réinitialiser ce filtre

Algorithme de Viterbi
L'algorithme de Viterbi a pour but de trouver la séquence d'états la plus probable ayant produit la séquence mesurée. Son utilisation s'appuie sur la connaissance du canal bruité, c'est-à-dire la probabilité qu'une information ait été modifiée en une autre, et permet de simplifier radicalement la complexité de la recherche du message d'origine le plus probable.
Apprentissage automatique (machine learning)
L'apprentissage automatique concerne la conception, l'analyse, le développement et l'implémentation de méthodes permettant à une machine (au sens large) d'évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou impossibles à remplir par des moyens algorithmiques plus classiques. L'analyse peut concerner des graphes, arbres, ou courbes au même titre que de simples nombres.
Apprentissage par renforcement
L'apprentissage par renforcement fait référence à une classe de problèmes d'apprentissage automatique, dont le but est d'apprendre, à partir d'expériences, ce qu'il convient de faire en différentes situations, de façon à optimiser une récompense quantitative au cours du temps.
Approche symbolique
L'approche symbolique utilise des informations linguistiques pour extraire des informations sur un texte. Par exemple les phrases nominales sont considérées comme des concepts lexicalisés et sont fréquemment utilisés pour représenter des concepts dans une ontologie. Les règles linguistiques décrivant les structures entre les termes dans le texte peuvent également être utilisées pour identifier des relations conceptuelles au sein de l'ontologie.
Arbre de décision
Un arbre de décision est un outil d'aide à la décision représentant un ensemble de choix sous la forme graphique d'un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l'arbre), et sont atteints en fonction de décisions prises à chaque étape. L'arbre de décision a l'avantage d'être lisible et rapide à exécuter. Il s'agit de plus d'une représentation calculable automatiquement par des algorithmes d'apprentissage supervisé.
Bigrammes
Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple « par exemple ») il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille n. Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2.
Cascaded Chunking Model
Cette méthode consiste à séparer la phrase en morceaux (chunks) et à analyser chaque morceau en fonction des modifications qu'il peut faire subir au morceau de phrase situé à sa droite. En éliminant au fur et à mesure les chunks qui ne modifient pas l'élément à leur droite, on obtient au final le nœud terminal qui est la tête de la phrase.
Champs aléatoires conditionnels (CRF)
Les champs aléatoires conditionnels (ou Conditional Random Field : CRF) se situent dans un cadre probabiliste et sont basés sur une approche conditionnelle pour étiqueter et segmenter les séquences de données. Le principal avantage des CRF sur les HMM est que leur nature conditionnelle permet de relaxer les hypothèses faites sur l’indépendance des observations.
Grammaire hors-contexte probabiliste (PCFG)
Il s'agit d'une grammaire hors-contexte où on associe des probabilités aux règles. Une grammaire probabiliste hors-contexte est définie par un 5-uplet : <N, T, R, S, P> où N est l’ensemble des symboles non-terminaux, T est l’ensemble des symboles terminaux, R est l’ensemble des règles de la forme A → β, S est l’axiome de départ, P est l’ensemble des probabilités associées aux règles.
Graphe orienté acyclique
En théorie des graphes, une hiérarchie est un graphe orienté acyclique (en anglais directed acyclic graph ou DAG), ou graphe orienté qui ne possède pas de circuit (ni simple ni élémentaire).
Link Grammar
Link grammar est une théorie développée par John Lafferty, Daniel Sleator et Davy Temperley. Il est basé sur une grammaire de dépendances, mais contrairement à celle-ci, le sommet de dépendances est optionnel. Etant donné une phrase, le système lui attribue une structure syntaxique à partir de tous les liens créés localement pour des paires de mots. Chaque lien entre deux mots (dépendance) est étiqueté et répond à des contraintes décrites dans le dictionnaire.
Machines à vecteurs de support (SVM)
Les machines à vecteurs de support ou séparateurs à vaste marge (en anglais Support Vector Machine, SVM) sont un ensemble de techniques d'apprentissage supervisé destinées à résoudre des problèmes de discrimination et de régression. Les SVM sont une généralisation des classifieurs linéaires.
MaltParser
MaltParser est un système pour l'anayse des dépendances dirigée par les données, dont on peut se servir pour induire un modèle analytique à partir de données d'un Treebank (corpus parsé) et pour analyser de nouvelles données utilisant un modèle inductif.
Méthode probabiliste
La méthode probabiliste est une méthode non constructive, initialement utilisée en combinatoire et popularisée par Paul Erdős, pour démontrer l'existence d'un type donné d'objet mathématique. Cette méthode a été appliquée à d'autres domaines des mathématiques tels que la théorie des nombres, l'algèbre linéaire et l'analyse réelle. Son principe est de montrer que si l'on choisit au hasard des objets d'une catégorie, la probabilité que le résultat soit d'un certain type est plus que zéro. Bien que la démonstration utilise la théorie des probabilités, la conclusion finale est déterminée de façon certaine.
MMSEG
Algorithme de segmentation en mots du chinois.
Modèle de Markov caché (HMM)
Un modèle de Markov caché (MMC) est un modèle statistique dans lequel le système modélisé est supposé être un processus markovien de paramètres inconnus. Contrairement à une chaîne de Markov classique, où les transitions prises sont inconnues de l'utilisateur mais où les états d'une exécution sont connus, dans un modèle de Markov caché, les états d'une exécution sont inconnus de l'utilisateur. Les modèles de Markov cachés sont massivement utilisés notamment en reconnaissance de formes, en intelligence artificielle ou encore en traitement automatique du langage naturel.
Modèle de Markov d’entropie maximale (MEMM)
Il s'agit d'un modèle d'étiquetage de séquences combinant les modèles de Markov cachés et les modèles d'entropie maximale (MaxEnt).
Modèle discriminatif basé sur des caractères
Modèle log-linéaire
N-gramme
Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple « par exemple ») il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille n. Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations sont utilisées pour la prédiction de la lettre suivante.
Parseur en dépendances de Bohnet
Parseur LR généralisé (GLR)
Un parseur LR généralisé est une extension de l'algorithme du parseur LR pour gérer les grammaires non déterministes et ambiguës.
Prédiction séquentielle basée sur les dictionnaires
Pour chaque suite d'événements qui peut être modélisée dans un traitement stochastique, la méthode de prédiction séquentielle basée sur les dictionnaires se sert du modèle de Markov pour prédire de façon optimale le symbole suivant.
Programmation dynamique
PurePos
PurePos est un outil open source d'annotation morphologique basé sur une approche hybride combinant HMM (Modèle de Markov Caché) et règles. Il peut effectuer en parallèle étiquetage et lemmatisation. Très rapide à entraîner, il permet aussi d'intégrer au processus d'annotation facilement des composants à base de règles symboliques.
Règles d'ondulation (RDR)
Les règles d'ondulation consistent en une structure de données et des scénarios d'acquisition de connaissances. La connaissance des experts humains est stockée dans la structure de données. La connaissance est codée comme un ensemble de règles. Le traitement du transfert de la connaissance de l'expert humain vers un système basé sur la connaissance en RDR est expliquée dans les schémas d'acquisition de la connaissance.
Stanford POS Tagger
Stanford POS Tagger est un étiqueteur morphosyntaxique probabiliste développé par l'équipe de Traitement Automatique des Langues de l'Université de Stanford.
Système de translitération de Buckwalter
Systeme de translittération de langue Arabe
Tagger Brill
Créé par Eric Brill dans la cadre de sa thèse (1993, université de Pennsylvanie), le tagger Brill est fondé sur les travaux de Bloomfield (1933) et Harris (1946, 1951). Reposant sur l'idée que l'étude d'une langue peut se fonder sur l'observation de faits linguistiques et indépendamment d'une théorie linguistique particulière, le tagger doit, pour fonctionner, être entraîné sur un corpus de taille restreinte étiqueté manuellement et à partir duquel il infère des règles d'étiquetage (distribution "extensionnelle").
TextRank
TF-IDF
Le TF-IDF (de l'anglais Term Frequency-Inverse Document Frequency) est une méthode de pondération souvent utilisée en recherche d'information et en particulier dans la fouille de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus.
TnT Tagger
Tnt, l'abbréviation de Trigrams'n'Tags est un étiqueteur statistique de catégories grammaticales très efficace implémentable dans différentes langues et sur potentiellement n'importe quel tagset. Le composant pour la génération des paramètres s'entraîne sur un corpus étiqueté. Le système inclut plusieurs méthodes de lissage (https://fr.wikipedia.org/wiki/Lissage_%28math%C3%A9matiques%29) et de gestion des mots nouveaux.
Unicode Text segmentation

Trouvez l'outil qui vous convient en filtrant votre recherche par une langue traitée par certaines tâches remplies par l'outil (testée ou non par l'équipe de MultiTAL).

Les différentes langues traitées par des tâches des outils relevés dans le cadre du projet MultiTAL sont listées ci-dessous ; Vous pouvez cliquer sur les liens pour recharger le tableau de recherche avec la valeur choisie.

Réinitialiser ce filtre

Toute langue

Trouvez l'outil qui vous convient en filtrant votre recherche par un système d'exploitation sur lequel les outils sont disponibles.

Les différents systèmes d'exploitation des outils relevés dans le cadre du projet MultiTAL sont listés ci-dessous ; Vous pouvez cliquer sur les liens pour recharger le tableau de recherche avec la valeur choisie.

Réinitialiser ce filtre

Trouvez l'outil qui vous convient en filtrant votre recherche par un mode d'accès possibles à ces outils.

Les différents modes d'accès possibles aux outils relevés dans le cadre du projet MultiTAL sont listés ci-dessous ; Vous pouvez cliquer sur les liens pour recharger le tableau de recherche avec la valeur choisie.

Réinitialiser ce filtre

Trouvez l'outil qui vous convient en filtrant directement votre recherche par le nom de l'outil.

Les différents noms des outils relevés dans le cadre du projet MultiTAL sont listés ci-dessous ; Vous pouvez cliquer sur les liens pour recharger le tableau de recherche avec la valeur choisie.

Réinitialiser ce filtre