工业智能算网

AI前沿观察

2026-04-17

告别“盲盒”发音，当声音成为代码：从 Gemini 3.1 Flash TTS 看语音模型的下半场

Gemini 3.1 Flash TTS 的真正价值，不只是声音更像人，而是语音模型第一次以 Audio Tags 为核心，进入了像代码一样可被精细控制、可纳入 Agent 与多模态工作流的阶段。