← Pierre-Carl Langlais

Publications

See also: Google Scholar

Machine Learning & AI (2024–)

Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training ICLR 2026 Oral
Pierre-Carl Langlais, P. Chizhov, C. Arnett, C. Rosas Hinostroza, M. Nee, E.K. Jones, I. Girard, D. Mach, A. Stasenko, I.P. Yamshchikov.
Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family
Pierre-Carl Langlais, P. Chizhov, M. Nee, C. Rosas Hinostroza, M. Delsart, I. Girard, O. Hicheur, A. Stasenko, I.P. Yamshchikov. 2025.
What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks
P. Chizhov, M. Nee, Pierre-Carl Langlais, I.P. Yamshchikov. 2025.
Toxicity of the Commons: Curating Open-Source Pre-Training Data
C. Arnett, E. Jones, I.P. Yamshchikov, Pierre-Carl Langlais. 2024.
Pleias 1.0: The First Ever Family of Language Models Trained on Fully Open Data
Pierre-Carl Langlais et al. 2024. Procedia Computer Science, ScienceDirect.

Digital Humanities & Computational History (2014–2022)

Classified News: Redefining the History of Newspaper Genre with Supervised Models
Pierre-Carl Langlais. Digital Newspaper: A New Eldorado for Historians, De Gruyter, 2022.

Book

Les Lapins du Père-Lachaise: Viralité médiatique, légendes urbaines et fake news avant internet
Pierre-Carl Langlais, J. Schuh, M.-È. Thérenty. Éditions du CNRS, 2020.

Earlier Publications

Les robots sont-ils des lecteurs comme les autres? Émergence et codification d'une exception au droit d'auteur pour le text & data mining
Pierre-Carl Langlais. Guide de bonnes pratiques éthiques et juridiques pour la diffusion des données en SHS, 2018.
Le Copyfraud: le difficile respect de l'intégrité du domaine public numérisé
Pierre-Carl Langlais. Communs du savoir et bibliothèques, Éd. du cercle de la librairie, 2017.
Les algorithmes rêvent-ils de best-sellers? Essai de cartographie poétique automatisée de romans francophones à succès
Pierre-Carl Langlais. FIXXION, n°15, 2017.
Public artworks and the freedom of panorama controversy: a case of Wikimedia influence
Pierre-Carl Langlais & M. Dulong de Rosnay. Internet Policy Review, 2017.
L'industrie des auteurs: éléments d'une théorie critique de la propriété musicale
Pierre-Carl Langlais. Communication & Langages, 184, pp. 79–99, 2015.
{{Référence nécessaire}}: l'émergence d'une norme wikipédienne (2003–2009)
Pierre-Carl Langlais. Wikipédia, objet scientifique non identifié, 2015.
Un manuel de journalisme au service des «invisibles»? Le cas du Data Journalisme Handbook
Pierre-Carl Langlais & G. Heuguet. Sur le journalisme, 3(1), pp. 100–113, 2014.
La négociation contre la démocratie: le cas Wikipedia
Pierre-Carl Langlais. Négociations, 21, pp. 21–34, 2014.