Identification de la formation
Code de formation: 
2024-10903
Domaine - Formacode: 
information scientifique et technique

Le domaine du NLP regroupe des tâches aussi vastes que le comptage de mots ou l'utilisation de grands models de langage (LLM) pour faciliter l'extraction d'information. Ces outils, largement développés en Python, sont un enjeu clé pour les SHS, qui voient d'ailleurs les applications se multiplier avec les grands modèles de langage et les approches étiquettées "IA". Cette formation propose d'aborder les notions et les outils existant autour du NLP permettant de traiter les textes comme des données, allant des traitements lexicométriques (comptage de mots) à l'utilisation de modèles de langage, et d'en discuter les conditions d'usage. Elle sera l'occasion d'aborder les étapes de préparation des corpus textuels (découpage de corpus, nettoyage, tokenisation, lemmatisation), leur représentation vectorielle (embeddings), puis leur traitement, que ce soit avec les approches classiques ou les nouveaux traitements permis par les LLM, sur l'ordinateur ou à travers de service distant. Tourné vers une dimension pratique, sans entrer dans les spécificités de chaque discipline, cette séance est l'occasion de réfléchir sur les différentes couches technologiques embarqués dans les usages récents du traitement de données textuelles et les conditions de mise en oeuvre sur des corpus.

ATTENTION : des pré-requis sont demandés (cf ci-dessous)

Contenus pédagogiques
Objectifs: 
À l'issu de cette formation, les participants: - Comprendront les concepts clés du TALN et leurs applications en SHS - Auront exploré des bibliothèques Python courantes pour le TALN, comme NLTK, SpaCy ou Sklearn. - Sauront mettre en oeuvre des prétraitements de texte (tokenisation, lemmatisation, suppression des mots vides) et des analyses simples (fréquence des mots, concordances, nuages de mots) - Seront sensibilisés le fonctionnement des modèles de langage (comme ceux basés sur les réseaux neuronaux) et leur application dans le traitement automatique du langage nature - Pourrons mobilier des modèles préentraînés (ex. : BERT) dans des tâches spécifiques comme la classification de textes ou la génération automatique. - Identifierons la manière de mettre en place des requêtes sur des services tiers déployant des LLM pour faire de l'annotation par prompts
Public visé: 
tout public
Résultats attendus de la formation: 
À l'issu de cette formation, les participants: - Comprendront les concepts clés du TALN et leurs applications en SHS - Auront exploré des bibliothèques Python courantes pour le TALN, comme NLTK, SpaCy ou Sklearn. - Sauront mettre en oeuvre des prétraitements de texte (tokenisation, lemmatisation, suppression des mots vides) et des analyses simples (fréquence des mots, concordances, nuages de mots) - Seront sensibilisés le fonctionnement des modèles de langage (comme ceux basés sur les réseaux neuronaux) et leur application dans le traitement automatique du langage nature - Pourrons mobilier des modèles préentraînés (ex. : BERT) dans des tâches spécifiques comme la classification de textes ou la génération automatique. - Identifierons la manière de mettre en place des requêtes sur des services tiers déployant des LLM pour faire de l'annotation par prompts
Modalités d'alternance: 
pas d'alternance
Conditions spécifiques: 
Maîtriser les bases du langage Python : - Variables, types de données courants (listes, dictionnaires, chaînes de caractères), boucles (for, while) et structures conditionnelles (if, elif, else). - Fonctions de base (création et appel de fonctions simples). - Comprendre comment utiliser des bibliothèques Python - Avoir travaillé avec des fichiers (ex. lecture/écriture de fichiers texte ou CSV). - Être familier avec Jupyter Notebook ou un éditeur de code comme VS Code ou PyCharm. - Disposer d’une connexion internet stable pour les outils en visio.
Déroulement du stage
Modalités d'enseignement: 
Formation entièrement présentielle
Durée (heures): 
4 heures
Période de formation: 
Ma, 20/05/2025
Inscription
Période d`inscription: 
Ma, 20/05/2025 - Lu, 19/05/2025
Prise en charge des frais de formation possible: 
Oui
Contact de l'action de formation: 

URFIST de Lyon (20 Avenue Gaston Berger 69603 Villeurbanne)

Nom: 
URFIST de Lyon
Adresse: 
20 Avenue Gaston Berger
Code postal: 
69603
Ville: 
Villeurbanne
Téléphone fixe: 
04 72 43 12 89
Courriel: 
cherifa.boukacem@univ-lyon1.fr
Web: 
urfist.univ-lyon1.fr/
Région: 
Rhône-Alpes
Organisme formateur: 
URFIST de Lyon
Organisme de formation: 
URFIST de Lyon
Domaine - NSF: 
325
Domaine - Rome: 
32214
Niveau à l'entrée en formation: 
Information non communiquée
Niveau à l'entrée en formation obligatoire: 
Non
Formation certifiante: 
Non
Rythme de la formation: 
Temps plein
Modalités d'entrée sortie: 
Entrées / sorties à dates fixes
Langue utilisée lors de la formation: 
Français