data-curation

Star

Here are 62 public repositories matching this topic...

cleanlab / cleanlab

Star

The standard data-centric AI package for data quality and machine learning with messy, real-world data and labels.

Updated May 14, 2024
Python

voxel51 / fiftyone

Star

The open-source tool for building high-quality datasets and computer vision models

visualization python data-science machine-learning computer-vision deep-learning artificial-intelligence developer-tools image-classification object-detection data-cleaning active-learning data-quality data-curation unstructured-data vector-search data-centric-ai

Updated May 14, 2024
Python

Docta-ai / docta

Star

A Doctor for your data

data language-model data-curation data-centric-ai data-diagnosis data-centric-machine-learning rlhf

Updated Jan 12, 2024
Python

fastdup is a powerful free tool designed to rapidly extract valuable insights from your image & video datasets. Assisting you to increase your dataset images & labels quality and reduce your data operations costs at an unparalleled scale.

visualization python machine-learning image deep-learning image-processing dataset image-classification outlier-detection object-detection image-analysis visual-search data-augmentation data-curation visualization-tools image-similarity image-duplicate-detection novelty-detection image-classfication

Updated Apr 4, 2024
Python

Renumics / spotlight

Star

Interactively explore unstructured datasets from your dataframe.

audio machine-learning video computer-vision timeseries images exploratory-data-analysis data-visualization hacktoberfest meshes data-curation unstructured-data data-centric-ai

Updated May 14, 2024
TypeScript

daochenzha / data-centric-AI

Star

A curated, but incomplete, list of data-centric AI resources.

data-science machine-learning ai artificial-intelligence data-engineering data-quality data-curation data-centric data-centric-ai data-centric-machine-learning

Updated Apr 27, 2024

Renumics / awesome-open-data-centric-ai

Star

Curated list of open source tooling for data-centric AI on unstructured data.

nlp machine-learning computer-vision deep-learning data-visualization awesome-list outlier-detection feature-vector uncertainty-estimation active-learning data-versioning data-curation synthetic-data explainable-ai bias-detection robust-machine-learning noisy-labels data-drift data-centric-ai

Updated Nov 15, 2023

getmetamapper / metamapper

Star

Metamapper is a data discovery and documentation platform for improving how teams understand and interact with their data.

python metadata django data-warehouse data-catalog data-discovery data-curation metamapper schema-inspection

Updated May 13, 2024
Python

Renumics / sliceguard

Star

A library for detecting problematic data segments in structured and unstructured data with few lines of code.

visualization python data-science machine-learning deep-learning exploratory-data-analysis eda data-visualization data-analysis data-exploration data-cleaning data-curation

Updated Jan 10, 2024
Python

LaureBerti / Learn2Clean

Star

Learn2Clean: Optimizing the Sequence of Tasks for Data Preparation and Cleaning

reinforcement-learning data-preprocessing automated data-cleaning data-curation data-cleaning-pipeline

Updated Dec 26, 2022
Python

whythawk / data-as-a-science

Star

Lesson guide and textbook for "Data as a Science" course.

data-science data-analysis jupyter-notebooks syllabus data-science-learning data-curation data-science-tutorials data-ethics data-presentation

Updated Jun 5, 2021
Jupyter Notebook

x-CK-x / Dataset-Curation-Tool

Star

A tool for downloading from public image boards (which allow scraping) / preview your images & tags / edit your images & tags. Additional tabs for downloading other desired code repositories as well as S.O.T.A. diffusion and clips models for your purposes. Custom datasets can be added!

downloader tagging dataset-manager captioning-images data-curation captioning-videos imageboard-grabber auto-tagger