deepcompile: Create dummy inputs using empty_strided #7564

eternalNight · 2025-09-15T08:27:45Z

CUDA tensors may have a larger storage than numel() * dtype.itemsize due to alignment considerations. Creating dummy tensors by torch.zero().as_strided() leads to out-of-bound errors in such cases.

Create dummy inputs by empty_strided().zero_() instead.

CUDA tensors may have a larger storage than numel() * dtype.itemsize due to alignment considerations. Creating dummy tensors by torch.zero().as_strided() leads to out-of-bound errors in such cases. Create dummy inputs by empty_strided().zero_() instead. Signed-off-by: Junjie Mao <[email protected]>

eternalNight requested review from loadams and tjruwase as code owners September 15, 2025 08:27

sfc-gh-truwase requested a review from tohtana September 15, 2025 15:05

tohtana approved these changes Sep 15, 2025

View reviewed changes

tohtana merged commit 660ee89 into deepspeedai:master Sep 15, 2025
19 of 24 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

deepcompile: Create dummy inputs using empty_strided #7564

deepcompile: Create dummy inputs using empty_strided #7564

Uh oh!

eternalNight commented Sep 15, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

deepcompile: Create dummy inputs using empty_strided #7564

deepcompile: Create dummy inputs using empty_strided #7564

Uh oh!

Conversation

eternalNight commented Sep 15, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants