AI Datasets

Browse various AI and machine learning datasets, from images and text to audio, to find the right data for training and testing your models

Found 25 datasets

ImageNet

Large-scale visual recognition dataset containing over 14 million images across 20,000+ categories, one of the most important datasets in computer vision

Image DatasetsImage ClassificationLarge-scaleComputer VisionJPEG~150GB

Access Dataset

COCO Dataset

Common Objects in Context dataset developed by Microsoft, providing object detection, segmentation, and captioning annotations, widely used as a benchmark for computer vision tasks

Image DatasetsObject DetectionImage SegmentationScene UnderstandingJSON+Images~25GB

Access Dataset

Wikipedia Corpus

Wikipedia text corpus containing encyclopedia articles in multiple languages, commonly used for training language models and knowledge extraction

Text DatasetsEncyclopediaMultilingualText CorpusXML/TextVariable (tens of GB)

Access Dataset

LibriSpeech

English speech dataset derived from audiobooks, containing approximately 1000 hours of 16kHz English speech

Audio DatasetsSpeech RecognitionEnglishAudiobooksFLAC Audio~60GB

Access Dataset

Common Crawl

Large-scale web crawl data containing billions of web pages, a common data source for training large language models

Text DatasetsWeb DataLarge-scaleMultilingualWARC/WET/WATTens of PB

Access Dataset

MS MARCO

Large-scale search and question answering dataset developed by Microsoft, based on real Bing search queries

Text DatasetsQuestion AnsweringSearchNatural Language ProcessingJSONSeveral GB

Access Dataset

VoxCeleb

Large-scale speaker identification dataset containing voice data from thousands of celebrities extracted from YouTube videos

Audio DatasetsSpeaker RecognitionVoiceAudio ProcessingWAV Audio~150GB

Access Dataset

Conceptual Captions

Large-scale image description dataset developed by Google, containing approximately 3.3 million pairs of images and descriptive texts

Multimodal DatasetsImage CaptioningMultimodalVision-LanguageJSONUnspecified (URLs only)

Access Dataset

CIFAR-10

Small dataset of 60,000 32x32 color images across 10 categories, commonly used as a benchmark for image classification algorithms

Image DatasetsImage ClassificationSmall-scaleLearning BenchmarkBinary/Python Pickle~170MB

Access Dataset