支持视频和语音的全模态大模型,通过关键帧提取以及音频转录信息整合的方式实现全模态理解。搭建前端页面更方便操作,只需修改大模型api等信息就可直接运行
https://github.com/lilin2001915/VLLM_local