Ressources
Cette page regroupe une sélection de ressources externes essentielles en Data Science et Machine Learning.
PDFs
Books
👉 The LLM Evaluation Guidebook
👉 An Introduction to Statistical Learning — Site officiel
👉 Parallel Training
👉 Distributed Training
👉 Deep learning interviews
👉 Foundation of LLM
👉 Reinforcement learning an overview
👉 Algorithms for artificial intelligence
👉 Mathematics for Machine Learning
👉 OpenAi - A practical guide to building agents
👉 Exercises in Machine Learning
👉 The Matrix Cookbook
👉 The Ultimate Guide to Fine-Tuning LLMs
👉 Multi agent reinforcement learning
👉 A Survey of Context Engineering for Large Language Models
👉 Linear algebra - essence and form
👉 Machine learning systems
Machine Learning Flashcards
👉 Computer Science
👉 Machine Learning General
👉 Fundamentals for Computer Vision and Deep Learning
👉 Selected Topics in Computer Vision and Deep Learning
👉 Large Language Models and Related
Paper
arXiv
arXiv est la bibliothèque mondiale des papers en IA.
info
| Si le document… | On l’appelle |
|---|---|
| Présente une nouvelle méthode validée expérimentalement | Paper / Research paper / Article scientifique |
| Présente une techno ou une vision produit | White paper |
| Donne beaucoup de détails techniques | Technical report |
| Synthétise l’existant | Survey / Review paper |
👉 A Generative Approach to Global Visual Geolocation
👉 LTX-Video: Realtime Video Latent Diffusion
👉 Open And Advanced Large Scale Video Generative Models
👉 V3D: Video Diffusion Models are Effective 3D Generators
WebSite
👉 LLM Visualization https://bbycroft.net/llm
Vidéos
nanoGPT
Vidéo YouTube pour réimplémenter GPT à partir de zéro par Andrej Karpathy
👉 https://youtu.be/kCc8FmEb1nY?si=zTvKRHEsT5qPxukG
👉 https://youtu.be/zduSFxRajkE?si=-p-dGwn0_ZkE3LCy
Datasets
Text & NLP
👉 RedPajama-Data — Corpus open source pour entraîner des LLMs
👉 The Pile — Large dataset textuel diversifié, open source
👉 Wikipedia Dumps — Données textuelles brutes de Wikipedia, open source
👉 Common Crawl — Crawl web massif, libre pour NLP
Vision / Images
👉 COCO Dataset — Détection, segmentation et légendes d’images, open source pour usage académique
👉 Open Images — Large dataset d’images annotées, open source
👉 MNIST — Chiffres manuscrits, open source
👉 Fashion-MNIST — Dataset de mode, open source
👉 Flickr30k — Images avec descriptions textuelles, open source
Audio / Speech
👉 LibriSpeech — Dataset pour reconnaissance vocale, open source
👉 VoxCeleb — Identification de locuteurs, open source
Outils Open Source pour l’exploration et la génération de données
- Trafilatura : Extraction de texte et métadonnées depuis des pages web.
- PyMuPDF / pdfplumber : Conversion et lecture de PDF en texte exploitable.
- SemHash : Déduplication floue via embeddings pour nettoyer les corpus.
- Argilla : Annotation collaborative et gestion de datasets NLP.
- Curator : Génération synthétique et pipelines pour LLM.
- Distilabel : Augmentation et nettoyage de datasets pour SFT/DPO.
- Nomic Atlas : Exploration interactive et stockage d’embeddings pour grands datasets.
LLM Open Source
👉 OLMo 2 : Modèle linguistique open source avec modèle, données, code d'entraînement et d'évaluation.
