- Analyse de sentiment
L'analyse de sentiment vise à extraire, à partir de données textuelles, des informations subjectives, relatives aux sentiments et opinions exprimés dans le texte et s'utilise par exemple dans le but de définir l'avis de(s) l'auteur(s) sur un sujet ou par des entreprises pour calculer la notoriété d'un produit avant son lancement ou évaluer sa popularité.
- Analyse de texte
L'analyse de texte est le processus d'extraction d'information significative à partir des données non structurées d'un texte.
- Analyse morpho-lexicale
L'analyse morpho-lexicale a pour objectif d'identifier les mots du texte (simples, composés ,noms propres, abréviations) et leurs traits (genre et nombre)
- Analyse morphologique
L'analyse morphologique est l'étude des composants d'une unité lexicale et donc sa décomposition en morphèmes. En résulte l'étude des relations entre les différentes formes d'un mot et les relations entre les mots ayant, par exemple, un morphème en commun.
- Analyse syntaxique
L'analyse syntaxique consiste à étudier la structure d'un texte en explicitant les relations de dépendance entre les mots.
- Analyse syntaxique de surface
L'analyse syntaxique de surface analyse les constituants de la phrase sans s'intéresser à leur fonction. Contrairement à l'analyse en profondeur, l'analyse syntaxique de surface ne produit pas de représentation des relations entre les éléments de la phrase.
- Analyse syntaxique en constituants
Le concept fondamental est celui qui consiste à créer des unités syntaxiques. Chaque unité est ensuite décrite au moyen d'une chaîne d'unités syntaxiques ou de symboles terminaux.
- Analyse syntaxique en dépendances
L'analyse syntaxique en dépendance se concentre sur la fonction des mots dans la phrase et donc les liens entre les mots ou groupes de mots de la phrase.
- Analyse syntaxique profonde
L'analyse syntaxique profonde est l'analyse de la structure de la phrase, elle permet une représentation de la phrase par un arbre de dépendance qui met en avant les liens structurels entre les unités lexicales pleines de la phrase.
- Annotation
Annotation est le processus qui consiste à attacher des informations complémentaires au contenu textuel d'un document
- Calcul de lisibilité
La calcul de lisibilité est donné sous forme d'un coefficient allant de 0 à 100 qui prend ne compte de nombreuses variables (comme la proportion de mots rares, longueur des phrases ou encore la proportion de mots polysémiques par rapport aux mots monosémiques) et permet d'évaluer la facilité de lecture d'un texte. Il peut aussi être utilisé pour donner une indication du niveau attendu du lecteur pour pouvoir comprendre pleinement le texte.
- Calcul n-gramme
Un n-gramme permet, à partir d'une séquence de lettres donnée (par exemple « par exemple »), d'obtenir la probabilité d'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille n. Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2.
- Collocation
En linguistique, une collocation est une cooccurrence privilégiée, une association habituelle d'un mot à un autre au sein d'une phrase, un rapprochement de termes qui, sans être fixe, n'est pas pour autant fortuit, comme : « voix suave », « courir vite », « entraîner des conséquences ».
- Comparaison de rapports de fréquence de mots
Comparaison des rapports de fréquence des mots de deux textes.
- Concordances
La recherche de concordances permet d'afficher un répertoire des exemples rencontrés pour chaque mot et donnant chaque occurrence dans un contexte minimal.
- Détection de la langue
En Traitement Automatique des Langues, la détection de la langue est le fait de déterminer la langue d'un texte ou d'un mot donné avec des méthodes statistiques.
- Détection d'entités nommées
La reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc.
- Détection de ponctuation chinoise
Vérifie si un texte contient ou pas de la ponctuation chinoise
- Détection des acronymes
La détection des acronymes consiste à rechercher les acronymes, donc les mots constitués des initiales de plusieurs mots, avec des méthodes statistiques ou basées sur des règles.
- Diacritisation/vocalisation
La diacritisation consiste à ajouter des diacritiques aux caractères.
- Entrainement pour l'analyse morphologique
- Entrainement pour l'étiquetage morpho-syntaxique
- Etiquetage de rôles sémantiques
Le rôle sémantique sert à décrire le sens qui s'attache à un groupe nominal par rapport au procès exprimé par le verbe au sein d'une phrase.
- Etiquetage morphologique
L'étiquetage morphologique est l'attribution d'une étiquette à chaque unité lexicale indiquant sa fonction grammaticale.
- Etiquetage morpho-syntaxique
L'étiquetage morpho-syntaxique est l'attribution, pour chaque unité syntagmatique du texte, d'une étiquette indiquant la fonction grammaticale et la partie du discours de l'unité.
- Extraction de mots clés
La tâche d’extraction automatique de mots clés consiste à analyser un document pour en extraire les expressions les plus représentatives de celui-ci.
- Extraction d'information
L'extraction d'information est le fait d'extraire des informations structurées à partir de documents non-structurés ou semi-structurés.
- Extraction sémantique
Recherche des thèmes et sous thèmes du document et de leurs liens
- Fréquence des mots
La fréquence d'un mots est le nombre d'apparition de ce mot dans un texte par rapport au nombre total de mots d'un texte.
- Génération de faux texte (Lorem ipsum)
Génération automatique de faux texte.
- Génération morphologique
La génération morphologique consiste à générer automatiquement les variations morphologiques d'un mot donné.
- Importation de corpus
Tâche qui réalise l'importation d'un corpus ayant des contraintes spécifiques.
- Lemmatisation
La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc.
- Lexicométrie
Analyse des fréquences des mots
- Normalisation du texte
La normalisation du texte consiste à uniformiser le document pour respecter le standard en vigueur. Elle transforme des caractères ou séquences de caractères équivalents en représentation fondamentale afin que celle-ci puisse être facilement lue et comparée.
- Probabilité de succès
La probabilité de succès est le résultat d'un calcul permettant de déterminer la probabilité qu'un évènement se produise. En TAL, c'est la probabilité calculé pour un étiquetage choisi, dans le cas d'un étiqueteur.
- Racinisation
La racinisation consiste à fournir la racine du mot, donc son radical une fois les affixes retirés.
- Recherche par étiquette morpho-syntaxique
La recherche par étiquette morphosyntaxique permet d'afficher toutes unités du texte ayant la même étiquette.
- Regroupement hiérarchique
Le regroupement hiérarchique est un moyen de classification automatique des données suivant des méthodes de partitionnement des données (ou clustering) qui permettent la division des données en paquets partageant des caractéristiques communes.
- Segmentation
Dans le cas des langues qui ne possèdent pas de caractères délimiteurs, la segmentation consiste a introduire des séparations entre les unités lexicales du texte. La segmentation peut aussi faire référence à la séparation d'un texte selon des délimiteurs prédéfinis par l'utilisateur.
- Suppression ponctuation chinoise
Tâche qui consiste à supprimer les signes de ponctuation chinoise dans un texte donné.
- Tokenisation
La tokenisation consiste à segmenter un texte en unités lexicales appelées tokens.
- Traduction automatique
La traduction automatique désigne la traduction d'un texte (ou d'une conversation audio, en direct ou en différé) faite entièrement par un ou plusieurs programmes informatiques,
- Transcription
La transcription est l'opération qui consiste à substituer à chaque phonème (on parle alors de transcription phonologique) ou à chaque son (transcription phonétique) d'une langue un graphème ou un groupe de graphèmes d'un système d'écriture. Elle dépend donc de la langue cible, un unique phonème pouvant correspondre à différents graphèmes suivant la langue considérée.
- Translittération
La translittération est l'opération qui consiste à substituer à chaque graphème d'un système d'écriture un graphème ou un groupe de graphèmes d'un autre système, indépendamment de la prononciation. Elle dépend donc du système d'écriture cible, mais pas de la langue.