XuMing&-CSDN博客

XuMing&

码龄15年

IP 属地：北京市

目前就职：深圳市腾讯计算机系统有限公司

加入CSDN时间： 2010-11-19

个人简介：有理想，有激情，态度改变人生 github：[https://github.com/shibing624](https://github.com/shibing624)

查看详细资料

个人成就

获得967次点赞
内容获得112次评论
获得1,951次收藏
代码片获得2,597次分享
原力等级

原力等级

4

原力分

677

本月获得

136

TA的专栏

LLM
16篇
NLP
30篇
Algorithm
24篇
Java
14篇
GIS
10篇
Environment
9篇
Life
3篇
Database
3篇
Web
1篇
ML
6篇
DL
11篇

TA关注的专栏 3

TA关注的收藏夹 0

TA关注的社区 4

TA参与的活动 4

兴趣领域设置

Python

python
人工智能

机器学习

创作活动更多

编程达人挑战赛·第7期

作为写代码的你，是否也渴望被更多人看到？技术人员普遍有一个共性——明明技术很强，却没人知道你做了什么；花了很多时间踩坑，却没人因你少走弯路；脑子里有一堆干货，但却不懂如何有效地输出。在如今写代码的人越来越多的时代，能够清晰表达自己思路与技术的人却少之又少。因此，我们发起了这个【编程达人挑战赛】——帮助你将代码变成作品，将技术转化为真正的价值，同时激励更多的人坚持写作与分享。注：活动细则介绍请看此贴：[https://bbs.csdn.net/topics/619791811](https://bbs.csdn.net/topics/619791811)。

92人参与去参加

更多

FlowAct-R1：字节跳动实时交互式人形视频生成框架

训练时模拟推理的"不完美"，推理时用记忆维护"一致性"层面挑战FlowAct-R1 的解法训练-推理一致性训练用真实帧，推理用生成帧Self-Forcing++：训练时混入伪生成帧长期时序一致性越生成越"走样"记忆细化：定期"校准"短期记忆行为自然度动作机械、状态切换生硬MLLM规划：用大模型理解语义，规划行为核心贡献技术创新实际意义实时流式生成流式缓冲区 + 分块去噪首帧1.5秒，无限时长长期一致性Self-Forcing++ + 记忆细化长时间生成不崩塌自然行为MLLM动作规划。

博文更新于 2026.01.16 ·

AI-Researcher：让 AI 自主完成从文献调研到论文发表的全流程科研

完整工作流：唯一覆盖"文献→想法→代码→论文"全流程的开源系统高质量代码：导师-学生迭代机制显著提升实现质量标准化评测：Scientist-Bench 提供了业界首个全面评测基准成本友好：开源免费，API 成本远低于商业方案。

博文更新于 2026.01.16 ·

O-Researcher：多智能体蒸馏与强化学习打造开源深度研究新标杆

深度研究（Deep Research）是指需要LLM进行复杂、多步骤信息检索与综合分析的任务。规划能力：将复杂问题分解为多个子任务工具使用：调用搜索引擎、爬取网页等外部工具信息综合：整合多源信息形成连贯报告事实验证：确保引用准确、论据有据可查识别出RLHF、RLAIF、DPO等主要技术搜索每种技术的最新研究进展爬取相关论文和技术博客对比分析各自的优劣势综合形成结构化的研究报告O-Researcher为开源深度研究模型树立了新标杆。多智能体协作数据合成。

博文更新于 2026.01.16 ·

Youtu-GraphRAG 论文解读：腾讯优图的垂直统一图检索增强框架

Youtu-GraphRAG 通过引入"图模式"（Graph Schema）作为统一约束，将图构建、图索引和图检索三个阶段垂直整合，实现了**构建成本节省90%+**和**准确率提升16%+**的双重突破，是GraphRAG领域的重要进展。

博文更新于 2026.01.14 ·

M-ASK 论文解读：超越单体架构的多智能体搜索与知识优化框架

M-ASK框架通过解耦智能体搜索任务为两类五个专门角色（规划、搜索、回答、摘要、更新代理），采用结构化知识状态和轮次级密集奖励机制，解决了传统单体架构在复杂问答任务中的训练崩溃问题。实验显示，M-ASK将训练崩溃率从单体架构的90%降至0%，同时显著提升了搜索效率和答案质量。该框架通过分工协作和精细的奖励设计，实现了稳定且高效的智能体搜索系统。

博文更新于 2026.01.14 ·

2025 AI年度复盘：从100篇顶会论文看中美巨头的AGI路线之争

2025年AI领域迎来重大范式转变，从"暴力堆参数"转向精细化智能提升。基于100+篇顶会论文分析，四大技术突破尤为突出：流体推理通过Test-Time Compute让AI学会思考推演；长期记忆技术治愈模型"健忘症"；空间智能补足视觉处理短板；元学习实现持续自我进化。其中，MoE架构、强化学习革新（如GRPO算法）和记忆系统升级成为关键驱动力。研究显示，AI在推理、长期记忆和视觉处理等原"零分项"取得突破性进展，标志着AGI发展进入新阶段。

博文更新于 2026.01.13 ·

Nested Learning 论文解读：打破深度学习架构的“幻觉“，让AI真正学会“记忆“

嵌套学习（Nested Learning）是一种全新的机器学习范式，它将模型、优化器和记忆统一看作多层级、并行的优化问题系统，每个组件按自身更新频率分层。基于这一视角，论文提出了 **HOPE**（Higher-Order Continuum Memory Processor）模块，模仿人脑多频率工作机制，实现了真正的持续学习能力，在语言建模、长上下文推理等任务上全面超越现有模型。

博文更新于 2026.01.13 ·

Engram：DeepSeek提出条件记忆模块，“查算分离“架构开启LLM稀疏性新维度

DeepSeek提出Engram条件记忆模块，实现LLM"查算分离"新范式。该模块通过哈希N-gram嵌入实现O(1)知识查找，与MoE形成互补双系统架构。关键创新包括：1）压缩分词器减少词表规模；2）多头哈希N-gram嵌入；3）上下文感知门控机制。实验表明，在27B参数规模下，Engram模型在知识、推理、代码和数学任务上全面超越纯MoE基线，验证了计算与存储解耦架构的有效性。这一设计为大模型稀疏性开辟了新维度，可能成为未来高效LLM的重要发展方向。

博文更新于 2026.01.13 ·

DocDancer：北大联合腾讯提出端到端训练的文档问答Agent，将DocQA形式化为信息寻求过程

北大联合腾讯AI Lab提出DocDancer，首个端到端训练的文档问答Agent。通过"搜索+阅读"双工具设计，将文档问答形式化为信息寻求过程，实现高效定位与深度理解。创新性提出"探索-综合"数据合成框架，自动生成高质量训练数据。在MMLongBench-Doc和DocBench两大基准测试中表现优异，超越现有方法并接近人类水平。案例分析显示，DocDancer能有效处理复杂文档（如财报分析），完成多跳推理和跨模态理解任务。该研究为文档智能理解提供了新思路，开源模型

博文更新于 2026.01.12 ·

GDPO：英伟达提出多奖励强化学习的“解耦归一化“策略，解决GRPO的优势崩溃问题

英伟达提出GDPO方法，通过解耦归一化策略解决多奖励强化学习中的优势崩溃问题。该方法对每个奖励信号单独进行组内归一化后再聚合，避免了GRPO算法中不同奖励组合被"压扁"为相同优势值的问题。GDPO采用三步策略：单奖励组内归一化、多奖励优势求和和批次级归一化，确保各奖励贡献均衡。实验表明，在工具调用、数学推理和代码推理三大任务上，GDPO性能全面超越GRPO。该方法还引入条件奖励设计，优先优化关键奖励指标，有效提升模型性能。

博文更新于 2026.01.12 ·

MiMo-V2-Flash 深度解读：小米 309B 开源 MoE 模型如何用 15B 激活参数吊打 671B 巨头？

小米开源MoE模型MiMo-V2-Flash技术突破：仅15B激活参数实现高性能推理小米最新发布的MiMo-V2-Flash模型采用创新的混合专家架构(MoE)，总参数309B但仅激活15B参数，在性能上媲美更大规模模型。核心技术包括：混合滑动窗口注意力：结合Sink Bias机制，在128Token小窗口下保持长文本处理能力多Token并行预测(MTP)：最高提升2.6倍推理速度，生成速度达150 tokens/s 高效训练策略：27万亿Token三阶段训练，256k长上下文支持极低显存需求：RT

博文更新于 2026.01.09 ·

递归语言模型(RLM)——让大模型告别“上下文腐烂“，处理能力暴涨100倍！

MIT团队提出递归语言模型(RLM)，突破大语言模型处理长文本的瓶颈。RLM创新性地将长文本作为外部环境变量，让模型通过编写代码递归调用子模型处理信息，实现10M+ token级别的超长文本处理能力。相比传统方法，RLM采用"分而治之"策略，避免了上下文窗口限制和二次方计算成本增长，性能提升可达100倍。该技术借鉴外存算法思想，使模型能像程序员一样按需查阅信息，而非硬记全部内容，为处理法律合同、代码库等超长文本提供了新范式。

博文更新于 2026.01.09 ·

SimpleMem：让AI智能体拥有“过目不忘“的高效记忆系统

摘要：SimpleMem提出了一种高效的三阶段记忆系统，解决LLM智能体的"健忘症"问题。通过语义结构化压缩、递归整合和自适应检索，该系统在LoCoMo基准测试中实现43.24的平均F1分数，比现有方法提升26.4%，同时将Token消耗降低30倍至530-580。其创新点包括：1）非线性门控过滤低信息量内容；2）多视图索引支持精确检索；3）动态调整检索深度。实验表明SimpleMem在准确率和效率上均优于7种基线方法，为长期对话AI提供了实用解决方案。

博文更新于 2026.01.09 ·

“I love you“ 后面为什么是 “too“？一文读懂大语言模型的注意力机制

注意力机制：大语言模型的"思考"核心摘要：注意力机制是Transformer架构的核心技术，它通过Query-Key-Value三元组让AI学会关注文本中的关键信息。当处理"I love you"时，模型将词语转换为向量，计算"you"的Query与上下文词的Key的匹配度，发现"love"相关性最高。通过Softmax归一化和加权混合Value向量，最终预测"too"作为最可能的后续词（92%概率）。这种

博文更新于 2026.01.08 ·

AI也有“性格“？GPT-5.2 vs Claude Opus 4.5 个性大对决

AI模型展现稳定个性特征，Claude与GPT风格迥异最新研究表明，大语言模型确实具有可区分的"个性"特征。Lindr团队通过系统化实验发现，GPT-5.2和Claude Opus 4.5展现出稳定的行为差异：Claude更具开放性（+4.5分）和好奇心（+3.7分），适合创意任务；而GPT更严谨尽责（+5.3分）且有进取心（+1.6分），适合结构化工作。研究创新性地采用行为分析而非自评测试，发现44.8%的个性差异源自模型本身，31.2%来自提示词，8.4%受上下文影响。这意味着选择

博文更新于 2026.01.08 ·

EXPLAIN：用实体摘要为RAG“开外挂“，让文档问答又快又准

**摘要增强检索技术EXPLAIN通过自动提取文档实体并生成结构化摘要，有效解决了RAG系统中的信息碎片化问题。该方法在保持低推理成本的同时，显著提升了问答准确率（HotpotQA F1从56.70提升至60.33）。核心创新在于：1）基于名词短语的通用实体提取；2）生成独立摘要项而非聚合摘要；3）用高相关性实体摘要替换低分文档片段。实验表明，该方法在多个基准数据集上优于传统RAG方案，且推理成本仅为长上下文方案的42%。

博文更新于 2026.01.06 ·

MegaBeam-Mistral-7B：扩展上下文而非参数的高效长文本处理

MegaBeam-Mistral-7B通过创新方法将7B模型的上下文扩展至512K tokens，成为首个无需RAG即可高效处理超长文本的开源模型。该研究采用四阶段训练流程：长上下文预训练（70%代码数据）、RoPE theta调优、bf16精度修复和长上下文SFT。系统级优化包括Ring Attention序列并行和XLA编译器调优，使单卡A100即可处理超长序列。论文源于AWS真实业务需求，在合规监控等场景展现优势，相比传统方案成本更低、部署更易。核心突破在于"扩展上下文而非参数"的

博文更新于 2026.01.06 ·

MedPlan: 基于两阶段RAG的个性化医疗治疗方案生成系统

MedPlan提出了一种基于两阶段RAG的个性化医疗治疗方案生成系统，通过模拟临床医生的SOAP诊断流程，显著提升了治疗方案的准确性和个性化水平。该系统首先基于患者主观症状和客观检查数据生成临床评估，再结合历史记录和相似病例生成治疗方案。实验表明，MedPlan在BLEU等指标上较基线方法提升约6倍，临床医生评估显示其方案质量提升66%。该系统已部署实际临床环境，采用React前端和FastAPI后端架构，为医疗AI领域提供了更符合临床实践的技术方案。

博文更新于 2026.01.06 ·

HierGR：美团外卖搜索的层级语义生成式检索系统

HierGR通过层级RQ-VAE生成语义ID，结合查询缓存和混合检索策略，在美团外卖场景实现了**复杂意图订单量+0.68%**的提升。

博文更新于 2026.01.06 ·

Hard Negative Mining: 面向企业RAG系统的领域特定检索优化框架

摘要：本研究提出Hard Negative Mining框架，针对企业RAG系统中的领域特定检索问题，通过多模型嵌入集成（6种双编码器模型）和PCA降维（保留95%方差）生成语义表示，创新性地采用双条件筛选策略选择高质量硬负样本。实验表明，该方法在企业内部数据集上MRR@10达到0.64，相比基线提升42%，且跨金融、气候等领域保持33-45%的性能提升。核心贡献包括：1）多模型互补表示解决语义不匹配；2）双条件选择策略提升负样本质量；3）高效PCA降维优化。局限在于长文档处理和跨语言支持，未来将探索分层嵌

博文更新于 2026.01.06 ·