美团发布开源全模态大模型LongCat-Flash-Omni,实现毫秒级实时音视频交互
- 电脑攻略
- 2025-11-14 17:48:15
- 46
品玩11月3日讯,美团今天正式开源全模态大模型LongCat-Flash-Omni,该模型以5600亿参数规模(激活参数270亿)实现了低延迟实时音视频交互能力。
作为业界首个集全模态覆盖、端到端架构与大参数量高效推理于一体的开源模型,其采用创新型ScMoE骨干网络与轻量级多模态编解码器,结合分块式音视频特征交织机制,支持128K上下文窗口及超8分钟交互时长。
评测显示,模型在Omni-Bench等全模态基准测试中达到开源SOTA水平,文本、图像、音频、视频单模态能力均位居前列。其采用渐进式多模融合训练策略,分阶段融合文本、语音、图像与视频数据,确保全模态性能无退化。模型已上线Hugging Face与GitHub平台,并提供在线体验与官方App支持语音交互。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。!
本文链接:https://www.q-mail.cn/article-15377-1.html
