pytorch
diff --git a/‎.circleci/config.yml‎
Lines changed: 13 additions & 1 deletion b/‎.circleci/config.yml‎
Lines changed: 13 additions & 1 deletion
diff --git a/‎.circleci/config.yml.in‎
Lines changed: 13 additions & 1 deletion b/‎.circleci/config.yml.in‎
Lines changed: 13 additions & 1 deletion
diff --git a/‎ios/VisionTestApp/VisionTestApp.xcodeproj/project.pbxproj‎
Lines changed: 14 additions & 5536 deletions b/‎ios/VisionTestApp/VisionTestApp.xcodeproj/project.pbxproj‎
Lines changed: 14 additions & 5536 deletions
diff --git a/‎references/segmentation/train.py‎
Lines changed: 21 additions & 6 deletions b/‎references/segmentation/train.py‎
Lines changed: 21 additions & 6 deletions
diff --git a/‎scripts/collect_model_urls.py‎
Lines changed: 22 additions & 0 deletions b/‎scripts/collect_model_urls.py‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎test/common_utils.py‎
Lines changed: 18 additions & 3 deletions b/‎test/common_utils.py‎
Lines changed: 18 additions & 3 deletions
diff --git a/‎test/expect/ModelTester.test_vit_b_16_expect.pkl‎
939 Bytes b/‎test/expect/ModelTester.test_vit_b_16_expect.pkl‎
939 Bytes
diff --git a/‎test/expect/ModelTester.test_vit_b_32_expect.pkl‎
939 Bytes b/‎test/expect/ModelTester.test_vit_b_32_expect.pkl‎
939 Bytes
diff --git a/‎test/expect/ModelTester.test_vit_l_16_expect.pkl‎
939 Bytes b/‎test/expect/ModelTester.test_vit_l_16_expect.pkl‎
939 Bytes
diff --git a/‎test/expect/ModelTester.test_vit_l_32_expect.pkl‎
939 Bytes b/‎test/expect/ModelTester.test_vit_l_32_expect.pkl‎
939 Bytes
@@ -263,14 +263,24 @@ jobs:
   prototype_test:
     docker:
       - image: circleci/python:3.7
+    resource_class: xlarge
     steps:
       - run:
           name: Install torch
-          command: pip install --user --progress-bar=off --pre torch -f https://download.pytorch.org/whl/nightly/cpu/torch_nightly.html
+          command: |
+            pip install --user --progress-bar=off --pre torch -f https://download.pytorch.org/whl/nightly/cpu/torch_nightly.html
       - run:
           name: Install prototype dependencies
           command: pip install --user --progress-bar=off git+https://github.com/pytorch/data.git
       - checkout
+      - run:
+          name: Download model weights
+          background: true
+          command: |
+            sudo apt update -qy && sudo apt install -qy parallel wget
+            mkdir -p ~/.cache/torch/hub/checkpoints
+            python scripts/collect_model_urls.py torchvision/prototype/models \
+                | parallel -j0 'wget --no-verbose -O ~/.cache/torch/hub/checkpoints/`basename {}` {}\?source=ci'
       - run:
           name: Install torchvision
           command: pip install --user --progress-bar off --no-build-isolation .
@@ -279,6 +289,8 @@ jobs:
           command: pip install --user --progress-bar=off pytest pytest-mock scipy iopath
       - run:
           name: Run tests
+          environment:
+            PYTORCH_TEST_WITH_PROTOTYPE: 1
           command: pytest --junitxml=test-results/junit.xml -v --durations 20 test/test_prototype_*.py
       - store_test_results:
           path: test-results
 
@@ -72,19 +72,25 @@ def evaluate(model, data_loader, device, num_classes):
     return confmat
 
 
-def train_one_epoch(model, criterion, optimizer, data_loader, lr_scheduler, device, epoch, print_freq):
+def train_one_epoch(model, criterion, optimizer, data_loader, lr_scheduler, device, epoch, print_freq, scaler=None):
     model.train()
     metric_logger = utils.MetricLogger(delimiter="  ")
     metric_logger.add_meter("lr", utils.SmoothedValue(window_size=1, fmt="{value}"))
     header = f"Epoch: [{epoch}]"
     for image, target in metric_logger.log_every(data_loader, print_freq, header):
         image, target = image.to(device), target.to(device)
-        output = model(image)
-        loss = criterion(output, target)
+        with torch.cuda.amp.autocast(enabled=scaler is not None):
+            output = model(image)
+            loss = criterion(output, target)
 
         optimizer.zero_grad()
-        loss.backward()
-        optimizer.step()
+        if scaler is not None:
+            scaler.scale(loss).backward()
+            scaler.step(optimizer)
+            scaler.update()
+        else:
+            loss.backward()
+            optimizer.step()
 
         lr_scheduler.step()
 
@@ -153,6 +159,8 @@ def main(args):
         params_to_optimize.append({"params": params, "lr": args.lr * 10})
     optimizer = torch.optim.SGD(params_to_optimize, lr=args.lr, momentum=args.momentum, weight_decay=args.weight_decay)
 
+    scaler = torch.cuda.amp.GradScaler() if args.amp else None
+
     iters_per_epoch = len(data_loader)
     main_lr_scheduler = torch.optim.lr_scheduler.LambdaLR(
         optimizer, lambda x: (1 - x / (iters_per_epoch * (args.epochs - args.lr_warmup_epochs))) ** 0.9
@@ -186,6 +194,8 @@ def main(args):
             optimizer.load_state_dict(checkpoint["optimizer"])
             lr_scheduler.load_state_dict(checkpoint["lr_scheduler"])
             args.start_epoch = checkpoint["epoch"] + 1
+            if args.amp:
+                scaler.load_state_dict(checkpoint["scaler"])
 
     if args.test_only:
         confmat = evaluate(model, data_loader_test, device=device, num_classes=num_classes)
@@ -196,7 +206,7 @@ def main(args):
     for epoch in range(args.start_epoch, args.epochs):
         if args.distributed:
             train_sampler.set_epoch(epoch)
-        train_one_epoch(model, criterion, optimizer, data_loader, lr_scheduler, device, epoch, args.print_freq)
+        train_one_epoch(model, criterion, optimizer, data_loader, lr_scheduler, device, epoch, args.print_freq, scaler)
         confmat = evaluate(model, data_loader_test, device=device, num_classes=num_classes)
         print(confmat)
         checkpoint = {
@@ -206,6 +216,8 @@ def main(args):
             "epoch": epoch,
             "args": args,
         }
+        if args.amp:
+            checkpoint["scaler"] = scaler.state_dict()
         utils.save_on_master(checkpoint, os.path.join(args.output_dir, f"model_{epoch}.pth"))
         utils.save_on_master(checkpoint, os.path.join(args.output_dir, "checkpoint.pth"))
 
@@ -269,6 +281,9 @@ def get_args_parser(add_help=True):
     # Prototype models only
     parser.add_argument("--weights", default=None, type=str, help="the weights enum name to load")
 
+    # Mixed precision training parameters
+    parser.add_argument("--amp", action="store_true", help="Use torch.cuda.amp for mixed precision training")
+
     return parser
 
 
 
@@ -0,0 +1,22 @@
+import pathlib
+import re
+import sys
+
+MODEL_URL_PATTERN = re.compile(r"https://download[.]pytorch[.]org/models/.*?[.]pth")
+
+
+def main(root):
+    model_urls = set()
+    for path in pathlib.Path(root).glob("**/*"):
+        if path.name.startswith("_") or not path.suffix == ".py":
+            continue
+
+        with open(path, "r") as file:
+            for line in file:
+                model_urls.update(MODEL_URL_PATTERN.findall(line))
+
+    print("\n".join(sorted(model_urls)))
+
+
+if __name__ == "__main__":
+    main(sys.argv[1])
@@ -4,18 +4,29 @@
 import random
 import shutil
 import tempfile
+from distutils.util import strtobool
 
 import numpy as np
+import pytest
 import torch
 from PIL import Image
 from torchvision import io
 
 import __main__  # noqa: 401
 
 
-IN_CIRCLE_CI = os.getenv("CIRCLECI", False) == "true"
-IN_RE_WORKER = os.environ.get("INSIDE_RE_WORKER") is not None
-IN_FBCODE = os.environ.get("IN_FBCODE_TORCHVISION") == "1"
+def get_bool_env_var(name, *, exist_ok=False, default=False):
+    value = os.getenv(name)
+    if value is None:
+        return default
+    if exist_ok:
+        return True
+    return bool(strtobool(value))
+
+
+IN_CIRCLE_CI = get_bool_env_var("CIRCLECI")
+IN_RE_WORKER = get_bool_env_var("INSIDE_RE_WORKER", exist_ok=True)
+IN_FBCODE = get_bool_env_var("IN_FBCODE_TORCHVISION")
 CUDA_NOT_AVAILABLE_MSG = "CUDA device not available"
 CIRCLECI_GPU_NO_CUDA_MSG = "We're in a CircleCI GPU machine, and this test doesn't need cuda."
 
@@ -202,3 +213,7 @@ def _test_fn_on_batch(batch_tensors, fn, scripted_fn_atol=1e-8, **fn_kwargs):
         # scriptable function test
         s_transformed_batch = scripted_fn(batch_tensors, **fn_kwargs)
         torch.testing.assert_close(transformed_batch, s_transformed_batch, rtol=1e-5, atol=scripted_fn_atol)
+
+
+def run_on_env_var(name, *, skip_reason=None, exist_ok=False, default=False):
+    return pytest.mark.skipif(not get_bool_env_var(name, exist_ok=exist_ok, default=default), reason=skip_reason)