支持视频和语音的全模态大模型，通过关键帧提取以及音频转录信息整合的方式实现全模态理解。搭建前端页面更方便操作，只需修改大模型api等信息就可直接运行https://github.com/lilin2001915/VLLM

Timeline

XAI XAPI (@xaixapi) 2025-07-09 21:32:55.073212582 +0800 CST

支持视频和语音的全模态大模型，通过关键帧提取以及音频转录信息整合的方式实现全模态理解。搭建前端页面更方便操作，只需修改大模型api等信息就可直接运行

https://github.com/lilin2001915/VLLM_local