Stage Junior NLP Engineer - F/H
Nous répondons généralement sous deux semaines
đ» PRESENTATION DE CHAPSVISION
Fondé en 2019, ChapsVision est un éditeur de logiciels en pleine croissance, membre du NEXT40 de la French Tech parmi les 40 start-ups françaises les plus prometteuses.
Avec 1200 collaborateurs et plus de 1000 clients grands comptes et régaliens, nous avons pour ambition de devenir un leader européen du traitement souverain de la donnée.
Notre objectif est de poursuivre notre développement en renforçant nos équipes pour concevoir, commercialiser, déployer et supporter des produits innovants de plus en plus ambitieux.
ParallÚlement, notre engagement social se manifeste à travers la fondation HappyCap, adossée au groupe, qui vise à soutenir les enfants atteints de troubles de développement mental et cognitif et leurs familles.
đ CONTEXTE DU POSTE
Vous rejoignez lâĂ©quipe spĂ©cialisĂ©e en NLP et extraction dâinformation, dont les travaux sont au cĆur des solutions de renseignement, dâanalyse et de structuration de la donnĂ©e de ChapsVision.
Le stage porte sur un dĂ©fi Ă©mergent : la Relation Resolution, un nouveau sous-domaine du NLP visant Ă aligner des relations extraites automatiquement (OpenIE) avec des schĂ©mas dâontologies, ou Ă induire ces schĂ©mas Ă partir dâun corpus.
Vous travaillerez Ă la frontiĂšre entre extraction dâinformation, clustering, embeddings sĂ©mantiques et ontologies, en vous appuyant sur la littĂ©rature rĂ©cente
đĄVOS FUTURES MISSIONS
- RĂ©aliser un Ă©tat de lâart sur lâOpenIE, lâalignement dâontologies et la Relation Resolution
- Concevoir une pipeline capable de mapper des relations OpenIE vers un schéma ontologique existant
- ImplĂ©menter et tester diffĂ©rentes approches : similaritĂ© dâembeddings, heuristiques graphe, clustering, LLM lĂ©gerâŠ
- DĂ©velopper une mĂ©thode de gĂ©nĂ©ration automatique dâun schĂ©ma relationnel depuis un corpus
- Ătudier l'utilisation de techniques frugales (modĂšles spĂ©cialisĂ©s, rĂšgles, agents SLM) pour amĂ©liorer la prĂ©cision Ă moindre coĂ»t
- Documenter les rĂ©sultats et proposer des pistes dâintĂ©gration dans les pipelines produits
đ€ LES COMPETENCES ET QUALITES QUE NOUS RECHERCHONS
- IntĂ©rĂȘt pour le NLP, lâextraction dâinformation ou les ontologie
- Bon niveau en Pytho
- Connaissances souhaitées : embeddings, clustering, graphes, KG
- CuriositĂ©, autonomie, bon esprit dâanalyse
đ CE QUE NOUS OFFRONS Ă NOS STAGIAIRES
- Carte SWILE : 10⏠/ jour pris en charge à 60%
- Transport en commun : Pris en charge Ă 50%
- Télétravail : 3 jours/semaine maximum avec une indemnité de 26 euros par mois
đ NOTRE PROCESS DE RECRUTEMENT
- Un entretien tĂ©lĂ©phonique avec lâun de nos recruteurs techniques pour faire connaissance.
- Un échange avec votre futur tuteur pour évaluer vos compétences et discuter du déroulement de votre futur stage.
Tous nos postes sont ouverts aux personnes en situation de handicap.
Bibliograhie :
1. Liu, P. et al. (2024) â A Survey on Open Information Extraction from Rule-based Model to Large Language Model. arXiv:2208.08690.
Latest broad survey on OpenIE, covering rule-based, neural and LLM-based approaches.
Link: https://arxiv.org/abs/2208.08690 arXiv
2. Bian, H. (2025) â LLM-empowered knowledge graph construction: A survey. arXiv:2510.20345.
Systematic review of how LLMs are used for (semi-)automatic KG/ontology construction across schema design, extraction, and fusion.
Link: https://arxiv.org/abs/2510.20345 arXiv
3. Vashishth, S., Jain, P., & Talukdar, P. (2018) â CESI: Canonicalizing Open Knowledge Bases Using Embeddings and Side Information. WWW 2018.
Canonicalizes OpenIE-style triples (entities + relations) via embeddings and side information; classic reference for relation/entity clustering.
Link: https://doi.org/10.1145/3178876.3186030 GitHub
4. Dash, S., Rossiello, G., Mihindukulasooriya, N., Bagchi, S., & Gliozzo, A. (2021) â Open Knowledge Graphs Canonicalization using Variational Autoencoders. EMNLP 2021.
Proposes CUVA, a VAE-based joint model for entity and relation canonicalization in open KGs.
Link: https://aclanthology.org/2021.emnlp-main.811/ ACL Anthology
5. Lomaeva, M., & Jain, N. (2022) â Relation Canonicalization in Open Knowledge Graphs: A Quantitative Analysis. ESWC 2022 Satellite Events.
Focuses specifically on relation canonicalization, with quantitative analysis and datasets built from OpenIE relations.
Link: https://link.springer.com/chapter/10.1007/978-3-031-11609-4_4 OUCI
- Département
- Research & Development
- Localisations
- Paris / PépiniÚre
- Statut Ă distance
- Hybride
Ă propos de ChapsVision France
SpĂ©cialiste du traitement de la donnĂ©e et de lâintelligence artificielle, ChapsVision permet aux entreprises et organisations gouvernementales de rĂ©ussir leur transformation digitale et de crĂ©er de la valeur grĂące Ă une suite logicielle axĂ©e autour de son systĂšme dâexploitation de la donnĂ©e massive et hĂ©tĂ©rogĂšne.
A travers des investissements R&D trĂšs importants dans le traitement massif de la data et de lâIA, complĂ©tĂ©s par une stratĂ©gie soutenue et ciblĂ©e dâacquisitions et de dĂ©veloppement Ă lâinternational, ChapsVision a constituĂ© rapidement un groupe cohĂ©rent adressant des secteurs Ă forte empreinte data.