Le domaine du NLP regroupe des tâches aussi vastes que le comptage de mots ou l'utilisation de grands models de langage (LLM) pour faciliter l'extraction d'information. Ces outils, largement développés en Python, sont un enjeu clé pour les SHS, qui voient d'ailleurs les applications se multiplier avec les grands modèles de langage et les approches étiquettées "IA". Cette formation propose d'aborder les notions et les outils existant autour du NLP permettant de traiter les textes comme des données, allant des traitements lexicométriques (comptage de mots) à l'utilisation de modèles de langage, et d'en discuter les conditions d'usage. Elle sera l'occasion d'aborder les étapes de préparation des corpus textuels (découpage de corpus, nettoyage, tokenisation, lemmatisation), leur représentation vectorielle (embeddings), puis leur traitement, que ce soit avec les approches classiques ou les nouveaux traitements permis par les LLM, sur l'ordinateur ou à travers de service distant. Tourné vers une dimension pratique, sans entrer dans les spécificités de chaque discipline, cette séance est l'occasion de réfléchir sur les différentes couches technologiques embarqués dans les usages récents du traitement de données textuelles et les conditions de mise en oeuvre sur des corpus.
ATTENTION : des pré-requis sont demandés (cf ci-dessous)