抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

Mens et Manus

从残差连接到Manifold-Constrained Hyper-Connections(mHc)

从残差连接到mHc标准残差 原始信息的直接传递 传统残差连接形如下,F表示Layer的fwd, wi表示fwd需要的权重。 $$x_{i+1} = x_i + F(x_i, w_i)$$ 当多层layer堆叠时可以整理出公式: $$x_{1} = x_0 + F(x_0, w_0) \x_{2} = x_1 + F(x_1, w_1) \ = x_0 + F(x_0, w_0) ...

docker context usage

Docker context用例把一个远程机器的docker映射到本地docker。这样一来, 本地docker ps就相当于在远程机器docker ps 12345docker context create some-context-label --docker "host=ssh://user@remote_server_ip"docker context use some-contex...

cutlass cute compose语义级理解

cutlass cute compose语义级理解layout是一个映射, 可以将逻辑(m, n)映射到物理的index: layout(m, n) -> idx。当两个layout复合时, 该idx除了有”物理idx”的还有外, 还有一层”逻辑crd”的语义。如A o B = A(B(i)) i传入到B, 先转变为B视角的逻辑crd crd经过B映射后得到一个新的idx’ 该idx...

welford算法求方差

welford算法求方差 cc https://zhuanlan.zhihu.com/p/408474710 基础方法 $D(x) = \frac{\sum(x_i - mean)^2}{n}$ 需要两次遍历1. 第一次遍历获取mean, 2. 第二次遍历计算方差 数学变换优化 数学等价转换的一次遍历 可以推导出$D(x) = E(x^2) - E(x)^2$, 只需要用x和x方做一...

c++20模板元编程

c++20模板元编程tips 主模板 + 偏特化 AKA 定义默认行为 类型擦除 奇异递归 模板表达式 标签派发 静态面向”对象” 静态多态: 奇异递归 鸭子类型: e.g. golang中的interface 混入(mixin): 静态检查 类型擦除, 没有多态的通用处理(但有相同的interface) 变参模板 ...运算符表示解包, 在什么后面就是对什么的解包 tem...

cutlass tiled copy的本质

Cutlass Tiled Copy Copy is all you need. make_tiled_copy语义理解。核心在于: tiler和layout_tv。先说结论: 用atom去对tv layout进行分tile。用tiler去对目标tensor进行分tile。最后将这两个layout组合得到新的tv layout,表示tile-wise的访问tv, v的layout能够保证满...

CUDA占用优化

CUDA占用优化 二次吸收: https://medium.com/@manisharadwad/unlocking-gpu-potential-understanding-and-optimizing-cuda-occupancy-2f43ee01ad7e 优化问题, 由于分配的粒度问题(一个block一个block分配资源, 固定会有n_thread * reg, n_thread的整...

python异步编程cheat sheet

python异步编程本质: (1)创建协程后后台执行, 还是(2)创建协程后”等待”执行。两者抽象出了asyncio的语法糖 async def async_func()可以快速定义异步方便 await async_func()会等待函数执行完成才继续下面的函数 实际上await是主动挂起协程, 但还是在事件循环中运行 task = asyncio.create_task(async_...

Torch Compile解析

Torch Compile解析 二次加工 from: https://mp.weixin.qq.com/s?__biz=MzYyNTg1OTA5MQ==&mid=2247484015&idx=1&sn=1606439595d5049076c4c7664f4811bc&chksm=f0208d13c7570405a915b78ab21b3a2d3a0c54db1...

sglang diffusion走读

sglang diffusion走读Cheat sheet generate _send_to_scheduler_and_wait_for_response -> event_loop scheduler::recv_reqs, self.worker.execute_forward -> pipeline.forward build_pipeline model maybe ...

1 / 28