Just for Life.

搜推广的工程化——有限内存下的大数据处理

发表于 2026-01-11 更新于 2026-01-12
本文字数： 3k 阅读时长 ≈ 3 分钟

22 年校招面字节的时候，面试官随口问了个问题：有几亿条数据存储在文件中，我该怎么排序？虽然在很多高频面经上看过这个问题，但完全没有在意，心想：正常排序呗还能怎么做，加载不进内存就分块处理。可具体怎么分块并没有仔细思考过。看似是一个算法题，但这完全是一个工程题。

今年遇到了类似的问题，有两组文件，第一组叫 bench，有 32 个文件，这些文件大约 1T 左右。每个文件里存储着搜推广的稀疏数据，id 和 embedding，每一个 id 对应一个 embedding 数据。第二组文件叫 test，有 8 个文件，这些文件同样约 1T 左右，同样存储了 id 和 embedding。这些 id 和对应的 embedding 完全乱序分布在文件中，毫无规律。

目标：遍历 bench 中的每个 id 和对应的 embedding，在 test 中查找对应的 id 和 embedding，判断是否相等。如果 id 不存在或者 embedding 不相等，打印出错的 id。

重返操作系统：信号量编程

发表于 2025-10-18
本文字数： 7.8k 阅读时长 ≈ 7 分钟

从今年春节回来到现在，经历了不少事情。暑期勉强打赢了“复活赛”，不过主包也快到残血状态了。现在终于能腾出点时间，好好学习一下。

有很多想学的东西，技术方向包括 vllm、deepspeed、大模型、CUDA、模型量化等；非技术方面，想学剪视频和修图——毕竟手里攒了一堆素材，哈哈哈，慢慢来吧。

今天想聊聊信号量，这也是我在新工作中遇到的实际场景。信号量本质上是一个变量，常用于多线程环境中的同步控制。举个例子：假设有两个线程 A 和 B，A 在处理临界资源，当满足某些条件时，它会释放锁并通知 B；而 B 完全没必要一直轮询 “A 做完了吗？”。这样既浪费资源，又不够优雅。

辞职：允许一切发生，记得要勇敢

发表于 2025-07-16 更新于 2025-07-24
本文字数： 3.9k 阅读时长 ≈ 4 分钟

就用 C++ 代码告别吧：

1
2
3

auto others.todo = std::move(my.work);
phone.give_back() && permission.is_denied();
return 0;

离职不是失败，而是换了一种选择。 其实我一直在等，等 leader 说一句：jw 你最近经常不在工位，是不是有什么想法；等 leader 说一句我给你机会，你好好工作今年给你晋升。我想了很多回答，也许是顺从也许是争论，但直到离职那天也没等到。

如何看懂 nndeploy

发表于 2024-12-26
本文字数： 37k 阅读时长 ≈ 34 分钟

最近这半年实在是闲，秉承着下班少玩手机的目的，7 月开始学 cuda，8 9 月学了 C++，10 月懈怠了一个月，11 月学了 cuda 进阶，12 月我来祸害 nndeploy 了。

一来是学完 C++ 后看下我能看懂的优秀的开源项目，一方面在之前学校训练模型感觉没意思，是看看 AI 的工程化。

CUFX(CUDA Framework eXtended)： CUDA 计算框架

发表于 2024-08-04
本文字数： 1.2k 阅读时长 ≈ 1 分钟

利用下班时间学完了 CUDA，Anyway 忙起来真的很大程度能缓解焦虑，能忘记和忽略很多烦恼。所以寻思着结合这一年来所学，写了一个简单的 CUDA 计算框架：CUFX。

重返C++：C++ 类型擦除

发表于 2024-07-26 更新于 2024-11-28
本文字数： 6k 阅读时长 ≈ 5 分钟

对于 C++ 中的匿名函数，除了写 auto 外，还可以使用 std::function 作为类型接受匿名函数：

1
2
3

std::function<void(int)> func = [](int x) {
    std::cerr << x << "\n";  
};

问题来了，刚开始的时候我以为 std::function<void(int)> 就是匿名函数的返回类型，在 github 上给别人发送 PR 时就发生了笑话。

实际上这两个类型并不相同，function 是一个类型擦除容器，而 lambda 匿名类型简单来说就是重载了 operator() 的类。由于 std::function 有转换构造函数，lambda 表达式得以调用这个转换构造函数，构造出这一个 std::function对象，所以这个赋值发生了隐式类型转换。

在一些代码中，我们可能无法保留原有的数据类型，上面的匿名函数就是典型的例子。这个时候需要用一种通用的类型去使用它们，需要去掉对象原有的数据类型，也就是类型擦除 (Type Erasure)。

重返C++：从 ref 挖到移动语义，在从 forward 挖到可变参数模板

发表于 2024-06-28 更新于 2024-11-28
本文字数： 13k 阅读时长 ≈ 12 分钟

C++ 漫游的第一部分，起因源于项目中错误的使用 std::ref 和 std::fowrad 导致了一些神奇的 bug。而 std::ref 又涉及到了引用，左右值引用又会联想到移动语义，std::forward 又常用于模板。所以以此为契机，不如仔细学习一下 C++ 中的新特性。