Ressources

Cette page regroupe une sélection de ressources externes essentielles en Data Science et Machine Learning.

PDFs

Books

👉 The LLM Evaluation Guidebook
👉 An Introduction to Statistical Learning — Site officiel
👉 Parallel Training
👉 Distributed Training
👉 Deep learning interviews
👉 Foundation of LLM
👉 Reinforcement learning an overview
👉 Algorithms for artificial intelligence
👉 Mathematics for Machine Learning
👉 OpenAi - A practical guide to building agents
👉 Exercises in Machine Learning
👉 The Matrix Cookbook
👉 The Ultimate Guide to Fine-Tuning LLMs
👉 Multi agent reinforcement learning
👉 A Survey of Context Engineering for Large Language Models
👉 Linear algebra - essence and form
👉 Machine learning systems

Machine Learning Flashcards

👉 Computer Science
👉 Machine Learning General
👉 Fundamentals for Computer Vision and Deep Learning
👉 Selected Topics in Computer Vision and Deep Learning
👉 Large Language Models and Related

Paper

arXiv

arXiv est la bibliothèque mondiale des papers en IA.

info

Si le document…	On l’appelle
Présente une nouvelle méthode validée expérimentalement	Paper / Research paper / Article scientifique
Présente une techno ou une vision produit	White paper
Donne beaucoup de détails techniques	Technical report
Synthétise l’existant	Survey / Review paper

👉 A Generative Approach to Global Visual Geolocation
👉 LTX-Video: Realtime Video Latent Diffusion
👉 Open And Advanced Large Scale Video Generative Models
👉 V3D: Video Diffusion Models are Effective 3D Generators

WebSite

👉 LLM Visualization https://bbycroft.net/llm

Vidéos

nanoGPT

Vidéo YouTube pour réimplémenter GPT à partir de zéro par Andrej Karpathy

👉 https://youtu.be/kCc8FmEb1nY?si=zTvKRHEsT5qPxukG
👉 https://youtu.be/zduSFxRajkE?si=-p-dGwn0_ZkE3LCy

Datasets

Text & NLP

👉 RedPajama-Data — Corpus open source pour entraîner des LLMs
👉 The Pile — Large dataset textuel diversifié, open source
👉 Wikipedia Dumps — Données textuelles brutes de Wikipedia, open source
👉 Common Crawl — Crawl web massif, libre pour NLP

Vision / Images

👉 COCO Dataset — Détection, segmentation et légendes d’images, open source pour usage académique
👉 Open Images — Large dataset d’images annotées, open source
👉 MNIST — Chiffres manuscrits, open source
👉 Fashion-MNIST — Dataset de mode, open source
👉 Flickr30k — Images avec descriptions textuelles, open source

Audio / Speech

👉 LibriSpeech — Dataset pour reconnaissance vocale, open source
👉 VoxCeleb — Identification de locuteurs, open source

Outils Open Source pour l’exploration et la génération de données

Trafilatura : Extraction de texte et métadonnées depuis des pages web.
PyMuPDF / pdfplumber : Conversion et lecture de PDF en texte exploitable.
SemHash : Déduplication floue via embeddings pour nettoyer les corpus.
Argilla : Annotation collaborative et gestion de datasets NLP.
Curator : Génération synthétique et pipelines pour LLM.
Distilabel : Augmentation et nettoyage de datasets pour SFT/DPO.
Nomic Atlas : Exploration interactive et stockage d’embeddings pour grands datasets.

LLM Open Source

👉 OLMo 2 : Modèle linguistique open source avec modèle, données, code d'entraînement et d'évaluation.

Ressources ​

PDFs ​

Books ​

Machine Learning Flashcards ​

Paper ​

WebSite ​

Vidéos ​

nanoGPT ​

Datasets ​

Text & NLP ​

Vision / Images ​

Audio / Speech ​

Outils Open Source pour l’exploration et la génération de données ​

LLM Open Source ​