讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

“讯飞开放平台”公众号今天傍晚宣布，讯飞星火多模态交互大模型正式上线，其实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，实现语音、视觉、数字人交互三合一，支持一键调用。

据介绍，讯飞星火多模态交互大模型首发超拟人数字人技术，数字人躯干和四肢动作能够精准匹配语音内容，快速生成表情和动作，令 AI“栩栩如生”。通过统一文本、语音和表情，能够实现跨模态的语义一致性，从而使大模型情感表达真实连贯。

其支持超拟人极速交互，采用统一神经网络直接实现语音到语音的端到端建模，响应更快速、流畅，可敏锐感知情绪变化，也可根据指令自由变换声音的节奏、大小和人设。

其支持多模态视觉交互，能够“听懂世界”“认清万物”，更全面感知具体背景场景、物流状态等信息，对任务的理解更加精准，并通过语音、手势、行为、情绪等进行综合判断，作出合适的回复。

据IT之家此前报道，用户可与数字人进行语音、视频通话，数字人可实现与用户的自然语音对话，人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互，可让数字人识别摄像头中的内容，比如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

国产文生视频大模型 Vidu 发布 1.5 版本更新：可保证多不同视角下的一致性

消息称生成式 AI 发展遇瓶颈，OpenAI CEO 阿尔特曼驳斥

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

国产文生视频大模型 Vidu 发布 1.5 版本更新：可保证多不同视角下的一致性

消息称生成式 AI 发展遇瓶颈，OpenAI CEO 阿尔特曼驳斥

科大讯飞：讯飞星火 V4.0 正在训练中，对标 GPT-4o 的产品也在研发

科大讯飞发布讯飞星火大模型 V4.0，整体超越 GPT-4 Turbo

科大讯飞推出“星火极速超拟人交互”：可模仿孙悟空、蜡笔小新、小猪佩奇等音色、语气、人设

Meta 扎克伯格抵达韩国：消息称将会见三星会长、LG 社长，讨论扩展现实、人工智能合作事宜

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注