Tar + Lumina2: Lumina-Image-2.0 as A Strong Dif-DTok

🏠 Architecture

✨ Lumina-Accessory directly leverages the self-attention mechanism in DiT to perform interaction between condition and target image tokens, consistent with approaches such as OminiControl, DSD, VisualCloze, etc.

✨ Built on top of Lumina-Image-2.0, Lumina-Accessory introduces an additional condition processor, initialized with the weights of the latent processor.

✨ We pass TA-Tok's discrete tokens to Lumina-Accessory for transforming text-aligned representation into the pixel space with high quality. We made minor modifications to Lumina-Accessory, such as iterative parquet dataset loading and TA-Tok condition support.

💻 Finetuning Code

1. Create a conda environment and install PyTorch

conda create -n Lumina2 -y
conda activate Lumina2
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y

2.Install dependencies

pip install -r requirements.txt

3. Install flash-attn

pip install flash-attn --no-build-isolation

4. Prepare data

We suggest to use parquet dataset for loading large scale training data. Check csuhan/ImageNet1K-T2I-QwenVL-QwenImage for example.

5. Start finetuning

bash scripts/run_1024_finetune_tatok.sh

🚀 Inference Code

Please check the inference script in the main branch.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
assets		assets
data		data
models_accessory		models_accessory
scripts		scripts
tok		tok
transport		transport
util		util
.gitignore		.gitignore
README.md		README.md
finetune_accessory.py		finetune_accessory.py
grad_norm.py		grad_norm.py
imgproc.py		imgproc.py
parallel.py		parallel.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tar + Lumina2: Lumina-Image-2.0 as A Strong Dif-DTok

🏠 Architecture

💻 Finetuning Code

1. Create a conda environment and install PyTorch

2.Install dependencies

3. Install flash-attn

4. Prepare data

5. Start finetuning

🚀 Inference Code

About

Uh oh!

Releases

Packages

Languages

csuhan/Tar

Folders and files

Latest commit

History

Repository files navigation

Tar + Lumina2: Lumina-Image-2.0 as A Strong Dif-DTok

🏠 Architecture

💻 Finetuning Code

1. Create a conda environment and install PyTorch

2.Install dependencies

3. Install flash-attn

4. Prepare data

5. Start finetuning

🚀 Inference Code

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages