CANDI: Hybrid Discrete-Continuous Diffusion Models

🌐 Project Page

Overview

CANDI (Continuous and Discrete Diffusion) is a novel hybrid diffusion model that combines continuous and discrete noise processes for high-quality text generation. This approach bridges the gap between continuous diffusion models used in computer vision and discrete token-based language modeling, offering the best of both worlds.

Method

CANDI uses a hybrid kernel to coordinate both discrete and continuous corruption explicitly throughout training:

This code base is built on the DUO codebase, which is available at this link: https://github.com/s-sahoo/duo?tab=readme-ov-file.

Installation

Clone the repository:

git clone https://github.com/patrickpynadath1/candi.git
cd candi

Install dependencies:

pip install -r requirements.txt

(Optional) Install Flash Attention for faster training:

pip install flash-attn --no-build-isolation

Download the OWT data

bash manual_download.sh

Experiments

This codebase includes the code for running experiments on Text8 and OWT. We will integrate the QM9 experiments later. In general, we re-use the same experimental methodology and codebase from https://github.com/kuleshov-group/discrete-diffusion-guidance.

Training

We include scripts for training models in scripts/slurm_scripts.

Frontier Analysis

Run temperature sweeps for frontier analysis using the following scripts:

# OpenWebText sweeps
bash scripts/gen_ppl_owt_candi_sweep.sh

# Text8 sweeps  
bash scripts/gen_text8_candi_sweep.sh

Configuration

The project uses Hydra for configuration management. Key configuration files:

Algorithm configs: configs/algo/ - Different diffusion algorithms (CANDI, MDLM, SEDD, etc.)
Data configs: configs/data/ - Dataset configurations
Model configs: configs/model/ - Model architecture settings
Base config: configs/config.yaml - Main configuration file

Key Components

algo.py: Core algorithm implementations (CANDI, MDLM, DUO, etc.)
main.py: Main training and evaluation script
dataloader.py: Data loading and preprocessing utilities
models/: Model architectures (DiT)
metrics.py: Evaluation metrics and utilities
trainer_base.py: Base trainer class with common functionality

Citation

If you use this code in your research, please cite:

@article{pynadath2025candi,
  title={CANDI: Hybrid Discrete-Continuous Diffusion Models},
  author={Patrick Pynadath, Jiaxin Shi, and Ruqi Zhang},
  journal={arXiv preprint},
  year={2025}
}

For more details, visit our project page or check out the paper.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
configs		configs
gen_imgs		gen_imgs
integral		integral
models		models
scripts		scripts
.gitignore		.gitignore
README.md		README.md
algo.py		algo.py
dataloader.py		dataloader.py
main.py		main.py
main_for_sweeps.py		main_for_sweeps.py
manual_download.sh		manual_download.sh
metrics.py		metrics.py
other_dataloader.py		other_dataloader.py
requirements.txt		requirements.txt
text_metrics.py		text_metrics.py
trainer_base.py		trainer_base.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CANDI: Hybrid Discrete-Continuous Diffusion Models

Overview

Method

Installation

Experiments

Training

Frontier Analysis

Configuration

Key Components

Citation

About

Uh oh!

Releases

Packages

Languages

patrickpynadath1/candi-diffusion

Folders and files

Latest commit

History

Repository files navigation

CANDI: Hybrid Discrete-Continuous Diffusion Models

Overview

Method

Installation

Experiments

Training

Frontier Analysis

Configuration

Key Components

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages