数据集(Dataset)是为特定研究、分析或模型训练目的,按统一结构组织的数据集合,是数据分析、机器学习与 AI 的核心基础。
一、核心概念与结构
- 定义:按规则组织的结构化 / 非结构化数据集合,可理解为 AI 模型的 “教材”。
- 基本构成:
- 样本(Sample):每行数据,如一条用户记录、一张图片。
- 特征(Feature):每列属性,如年龄、价格、文本内容。
- 标签(Label):监督学习中需预测的目标,如分类结果、真实价格。
- 常见格式:CSV、JSON、Parquet、图像(JPG/PNG)、音频(WAV/MP3)、视频(MP4)等。
二、主要类型
按数据结构
- 结构化:行列清晰(如表格、数据库),适合传统统计与机器学习。
- 非结构化:无固定格式(如文本、图像、音频、视频)。
- 半结构化:含标签 / 元数据(如 JSON、XML)。
按应用场景
- 通用入门:鸢尾花、泰坦尼克号、MNIST 手写数字、CIFAR 图像分类。
- 计算机视觉:ImageNet、COCO(目标检测 / 分割)、OpenImages。
- 自然语言处理(NLP):IMDB 影评、THUCNews 中文新闻、Common Crawl 网页语料。
- 金融经济:Quandl、世界银行开放数据、FRED 美联储经济数据。
- 地理空间:OpenStreetMap、卫星遥感数据集。
- 时序数据:股票价格、气象记录、传感器时序数据。
三、主流公开数据集平台
国际平台
国内平台
四、获取与使用要点
- 明确用途:先确定任务(分类 / 回归 / 生成 / 分析),再匹配数据集。
- 检查许可:注意商用 / 非商用、署名、衍生限制。
- 数据质量:优先完整、干净、标注规范的数据集。
- 获取方式:官网下载、API 调用、云端直接查询、框架内置(如 Keras Datasets)。