Supported Formats

List of supported formats:

ADE20k (v2017) (import-only)
- Format specification
- Dataset example
- Format documentation
ADE20k (v2020) (import-only)
- Format specification
- Dataset example
- Format documentation
Align CelebA (classification, landmarks) (import-only)
- Format specification
- Dataset example
- Format documentation
CamVid (segmentation)
- Format specification
- Dataset example
CelebA (classification, detection, landmarks) (import-only)
- Format specification
- Dataset example
- Format documentation
CIFAR-10/100 (classification (python version))
- Format specification
- Dataset example CIFAR-10
- Dataset example CIFAR-100
- Format documentation
Cityscapes (segmentation)
- Format specification
- Dataset example
- Format documentation
CVAT (for images, for video (import-only))
- Format specification
- Dataset example
ICDAR13/15 (word_recognition, text_localization, text_segmentation)
- Format specification
- Dataset example
ImageNet (classification, detection)
- Dataset example
- Dataset example (txt for classification)
- Detection format is the same as in PASCAL VOC
- Format documentation
KITTI (segmentation, detection)
- Format specification
- Dataset example
- Format documentation
KITTI 3D (raw/tracklets/velodyne points)
- Format specification
- Dataset example
- Format documentation
LabelMe (labels, boxes, masks)
- Format specification
- Dataset example
LFW (classification, person re-identification, landmarks)
- Format specification
- Dataset example
- Format documentation
Mapillary Vistas (import-only)
- Format specification
- Dataset example
- Format documentation
Market-1501 (person re-identification)
- Format specification
- Dataset example
MARS (import-only)
- Format specification
- Dataset example
- Format documentation
MNIST (classification)
- Format specification
- Dataset example
- Format documentation
MNIST in CSV (classification)
- Format specification
- Dataset example
- Format documentation
MOT sequences
- Format specification
- Dataset example
MOTS (png)
- Format specification
- Dataset example
MPII Human Pose Dataset (detection, pose estimation) (import-only)
- Format specification
- Dataset example
- Format documentation
MPII Human Pose Dataset (JSON) (detection, pose estimation) (import-only)
- Format specification
- Dataset example
- Format documentation
MS COCO (image_info, instances, person_keypoints, captions, labels,panoptic, stuff)
- Format specification
- Dataset example
- labels are our extension - like instances with only category_id
- Format documentation
Open Images (classification, detection, segmentation)
- Format specification
- Dataset example
- Format documentation
PASCAL VOC (classification, detection, segmentation (class, instances), action_classification, person_layout)
- Format specification
- Dataset example
- Format documentation
Supervisely (pointcloud)
- Format specification
- Dataset example
- Format documentation
SYNTHIA (segmentation) (import-only)
- Format specification
- Dataset example
- Format documentation
TF Detection API (bboxes, masks)
- Format specifications: bboxes, masks
- Dataset example
VGGFace2 (landmarks, bboxes)
- Format specification
- Dataset example
- Format documentation
VoTT CSV (detection) (import-only)
- Format specification
- Dataset example
- Format documentation
VoTT JSON (detection) (import-only)
- Format specification
- Dataset example
- Format documentation
WIDER Face (bboxes)
- Format specification
- Dataset example
- Format documentation
YOLO (bboxes)
- Format specification
- Dataset example
- Format documentation

Supported annotation types 

Labels
Bounding boxes
Polygons
Polylines
(Segmentation) Masks
(Key-)Points
Captions
3D cuboids

Datumaro does not separate datasets by tasks like classification, detection etc. Instead, datasets can have any annotations. When a dataset is exported in a specific format, only relevant annotations are exported.

Dataset meta info file 

It is possible to use classes that are not original to the format. To do this, use dataset_meta.json.

{
"label_map": {"0": "background", "1": "car", "2": "person"},
"segmentation_colors": [[0, 0, 0], [255, 0, 0], [0, 0, 255]],
"background_label": "0"
}

label_map is a dictionary where the class ID is the key and the class name is the value.
segmentation_colors is a list of channel-wise values for each class. This is only necessary for the segmentation task.
background_label is a background label ID in the dataset.