首页
学习
活动
专区
圈层
工具
发布

#语音

会议现场录音一键转纪要+发言人识别:ima录音功能职场实测

克劳德2048

ima的录音功能不是简单的"语音转文字",它是一个从现场录音到结构化纪要的完整解决方案。

2500

2026年多模态测试开源方案全景图

顾翔

2026年,大模型已深度融入金融风控、医疗影像辅助诊断、智能座舱交互等关键场景。而支撑这些落地的,不再是单一文本或图像的单元测试,而是覆盖视觉、语音、文本、时序...

7110

语音钓鱼引发的数据泄露事件溯源与全域防御研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

语音钓鱼作为传统网络钓鱼的延伸形态,正逐步成为企业数据泄露的重要诱因。本文以 Aura 公司遭遇语音钓鱼攻击并引发大规模客户数据泄露事件为核心研究样本,梳理该安...

9910

工厂实测复盘|声光彩灯产品降本提质方案:CK6865L替代传统双芯片

冠一

我是一家主营蓝牙彩灯、音乐音箱、氛围礼品灯工厂的生产负责人,从事灯饰电子产品生产管理十余年。做消费电子代工和自研产品这么多年,我始终认为:量产最怕的不是成本高,...

200

小模型,大用场

bisal

人工智能的时代,我们用到了各个厂商出品的大模型,既然有"大"模型,自然有"小"模型,它和大模型有什么相同和不同?具体有什么适用的场景?我们通过通俗的语言来了解和...

8910

和OpenAI分手后,微软彻底疯了

Amusi

发布了音频转文字模型MAI-Transcribe-1.5,负责把语音内容快速转成文本;语音生成模型MAI-Voice-2/Flash,则支持15种语言的语音生成...

13610

AI 语音克隆诈骗的技术机理、诈骗模式与防御体系研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

2026 年以来,AI 语音克隆技术门槛持续降低、合成效果逼近真人,依托该技术的语音仿冒诈骗(Voice Deepfake Vishing)在全球范围内呈爆发式...

13610

AI 语音克隆诈骗的技术机理、风险演化与全链路防御体系研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

生成式 AI 技术的快速迭代与普及,大幅降低了语音克隆的技术门槛与使用成本,基于 AI 语音克隆的电信网络诈骗呈现规模化、精准化、隐蔽化爆发态势,对个人财产安全...

13310

AI 情感配音与声纹克隆:5 秒样本如何复刻演员音色?

gavin1024

其中 $e_{speaker}$ 是从 不同句 的目标人语音中抽的 Embedding。模型被逼着"只凭音色向量,不靠内容"去重建另一句话的声学特征,于是学会把...

15210

腾讯云全球基础设施与音视频方案支撑企业出海合规与降本增效

IT资讯研究所

腾讯科技 | 研究员 (已认证)

2024年1月19日,腾讯云出海首席架构师王明在Go Global Tech Summit上指出,中国出海企业面临网络互通、终端适配、合规风险及本地化运营等痛点...

12210

腾讯云 TRTC 实时对话式AI解决方案:实现超低延迟的自然语音交互

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

传统语音交互面临延迟与智能瓶颈 当前IoT设备、泛娱乐、教育、医疗健康等行业对自然语音交互的需求激增,但传统方案存在核心痛点:端到端延迟常高于1秒,导致交互不自...

13410

重构下一代语音交互:基于TRTC实现端到端低延迟AI自然对话方案

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

魔镜云科技(专注于AI语音交互软硬件研发,由人工智能训练师【三级/高级】、国家一级人力资源师、深圳市先进教育工作者 曾随城 担任董事长)基于TRTC方案,在1至...

14810

手把手教你:怎么用一个半小时搞定一份高质量 PPT

用户7912670

最近我参加了一场培训,因为报名了一个演讲环节,所以需要准备一份 PPT。但问题是,时间非常紧张,我根本没有足够的精力自己去从零开始做 PPT。按照以前的经验,做...

13910

17.6K Star!这款开源视频翻译神器火了!一键实现语音识别+翻译+配音+声音克隆!

开源星探

虽然很多平台有自动翻译字幕,但要么翻译质量一般,要么没有配音,看着还是费劲。如果能把外文视频一键翻译成中文,还能配上自然的中文语音,那就太完美了。

39210

腾讯实时音视频(TRTC)产品概要

IT资讯研究所

腾讯科技 | 研究员 (已认证)

腾讯实时音视频(TRTC)是一款新一代RTC技术解决方案,具备全球平均端到端延迟低于300毫秒、1080P高清画质等核心能力,提供含UI低代码组件与灵活SDK双...

17810

腾讯实时音视频(TRTC)产品概要

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

一、 产品定位与核心亮点 腾讯实时音视频(Tencent Real-Time Communication, TRTC) 是一款提供低延迟、高清画质的新一代实时通...

11910

技术蒸馏Gemini,Needle 模型实力实测

灬沙师弟

你敢信吗?一个仅2600万参数、权重约60MB的超轻量模型,能把Gemini 3.1的核心函数调用能力“复刻”,手机、智能手表甚至AR眼镜都能本地离线流畅运行,...

18610

这个AI有点东西,我把它绑进微信列表了

陈宇明

图1:刚醒来随口回一句,它比你更懂周末睡懒觉的爽感,还会主动关心你“饿不饿、吃不吃早餐”……

23910

实时字幕转写支持15种语言:打破全球在线教育的语言壁垒

gavin1024

当教师与学生来自不同国家,语言成为在线教育最大障碍。腾讯云实时互动-教育版提供实时字幕转写,支持15种语言语音转文字,配合翻译实现跨语言教学辅助。本文解析其技术...

17910

语音钓鱼线下资金中转行为识别与金融场景防控研究 —— 基于韩国银行柜台拦截案例

芦笛

中国互联网络信息中心 | 工程师 (已认证)

本文以 2026 年 5 月韩国铁原郡银行柜台成功拦截 5000 万韩元语音钓鱼资金中转案件为实证样本,系统剖析语音钓鱼犯罪中线下资金收集环节的行为特征、作案链...

13410
领券