Stage Junior NLP Engineer - F/H
Nous répondons généralement sous deux semaines
đ» PRESENTATION DE CHAPSVISION
Fondé en 2019, ChapsVision est un éditeur de logiciels en pleine croissance, membre du NEXT40 de la French Tech parmi les 40 start-ups françaises les plus prometteuses.
Avec 1200 collaborateurs et plus de 1000 clients grands comptes et régaliens, nous avons pour ambition de devenir un leader européen du traitement souverain de la donnée.
Notre objectif est de poursuivre notre développement en renforçant nos équipes pour concevoir, commercialiser, déployer et supporter des produits innovants de plus en plus ambitieux.
ParallÚlement, notre engagement social se manifeste à travers la fondation HappyCap, adossée au groupe, qui vise à soutenir les enfants atteints de troubles de développement mental et cognitif et leurs familles.
đ CONTEXTE DU POSTE
Vous rejoignez lâĂ©quipe R&D en Intelligence Artificielle de ChapsVision, en charge du dĂ©veloppement de technologies de pointe autour des LLMs, des agents autonomes et de lâĂ©valuation de systĂšmes complexes.
Dans un contexte oĂč lâobservabilitĂ© et lâĂ©valuation des agents IA deviennent critiques, vous contribuerez Ă la conception dâoutils permettant dâanalyser leurs traces, dĂ©tecter les Ă©checs dâexĂ©cution et qualifier la qualitĂ© des dĂ©cisions.
Votre travail s'appuiera sur lâĂ©tat de lâart rĂ©cent en Ă©valuation des agents et LLM
đĄ VOS FUTURES MISSIONS
- RĂ©aliser un Ă©tat de lâart complet sur les mĂ©thodes dâĂ©valuation dâagents et de systĂšmes LLM
- - Concevoir un outil gĂ©nĂ©rique capable dâingĂ©rer et dâanalyser des traces dâexĂ©cution dâagents (actions, logs, Ă©tats internes)
- Produire des mĂ©triques actionnables : qualitĂ© du raisonnement, bonne utilisation des outils, erreurs dâexĂ©cution ou dâintention
- DĂ©finir et expĂ©rimenter des critĂšres dâĂ©valuation qualitatifs et quantitatifs
- (Optionnel) Proposer des mĂ©thodes dâautomatisation via gĂ©nĂ©ration de jeux de tests, self-play ou simulation
- (Optionnel) Utiliser les rĂ©sultats dâĂ©valuation pour amĂ©liorer automatiquement les agents (prompt optimization, LoRAâŠ)
đ€ LES COMPĂTENCES ET QUALITĂS QUE NOUS RECHERCHONS
- IntĂ©rĂȘt fort pour les LLMs, agents autonomes, observabilitĂ© ou Ă©valuation IA
- Solides compétences en Python
- Connaissances en NLP ou machine learning
- Curiosité, rigueur, autonomie
- Connaissances Linux / bash appréciées
đ CE QUE NOUS OFFRONS Ă NOS STAGIAIRES
- Carte SWILE : 10⏠/ jour pris en charge à 60%
- Transport en commun : Pris en charge Ă 50%
- Télétravail : 3 jours/semaine maximum avec une indemnité de 26 euros par mois
đ NOTRE PROCESS DE RECRUTEMENT
- Un entretien tĂ©lĂ©phonique avec lâun de nos recruteurs techniques pour faire connaissance.
- Un échange avec votre futur tuteur pour évaluer vos compétences et discuter du déroulement de votre futur stage.
Tous nos postes sont ouverts aux personnes en situation de handicap.
Bibliographie :
1. Yehudai et al. (2025). A Survey on the Evaluation of LLM-Based Agents.
Link: https://arxiv.org/abs/2503.16416
A broad and modern survey covering evaluation dimensions for single and multi-agent systems, datasets, metrics, and open challenges in observability.
2. Mohammadi et al. (2025). Evaluation and Benchmarking of LLM Agents: A Survey.
Link: https://arxiv.org/abs/2507.21504
Focuses on benchmarks, evaluation frameworks, agent behaviors, and failure analysis across real-world tasks.
3. Xia et al. (2024). Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture.
Link: https://arxiv.org/html/2411.13768v2
Introduces the term Evaluation-Driven Development (EDD) and proposes an engineering framework where evaluation is a first-class citizen for designing and iteratively improving agents.
4. Zheng et al. (2023). LLM-as-a-Judge: Guiding LLMs to Judge the Quality of Generated Text.
Link: https://arxiv.org/abs/2306.05685
Foundational work on using LLMs as evaluatorsâhighly relevant for scoring agent outputs, traces, and behaviors.
5. Shinn, Cassano & Gopinath (2023). Reflexion: Language Agents with Verbal Reinforcement Learning.
Link: https://arxiv.org/abs/2303.11366
A milestone in agent architectures; introduces self-evaluation loops, making it useful to understand multi-turn agent execution errors and evaluation needs.
- Département
- Research & Development
- Localisations
- Paris / PépiniÚre
- Statut Ă distance
- Hybride
Ă propos de ChapsVision France
SpĂ©cialiste du traitement de la donnĂ©e et de lâintelligence artificielle, ChapsVision permet aux entreprises et organisations gouvernementales de rĂ©ussir leur transformation digitale et de crĂ©er de la valeur grĂące Ă une suite logicielle axĂ©e autour de son systĂšme dâexploitation de la donnĂ©e massive et hĂ©tĂ©rogĂšne.
A travers des investissements R&D trĂšs importants dans le traitement massif de la data et de lâIA, complĂ©tĂ©s par une stratĂ©gie soutenue et ciblĂ©e dâacquisitions et de dĂ©veloppement Ă lâinternational, ChapsVision a constituĂ© rapidement un groupe cohĂ©rent adressant des secteurs Ă forte empreinte data.