基于DeepSeek的图生文最新算法VLM-R1
- 软件开发
- 2025-09-17 04:54:01

目录
一、算法介绍
二 算法部署
三 模型下载
四 算法测试
五 可视化脚本
一、算法介绍
VLM-R1:稳定且可通用的 R1 风格大型视觉语言模型
自从Deepseek-R1推出以来,出现了许多专注于复制和改进它的作品。在这个项目中,我们提出了 VLM-R1,一种稳定且可通用的 R1 风格的大型视觉语言模型。
具体来说,对于引用表达式理解 (REC) 的任务,我们使用 R1 和 SFT 方法训练了Qwen2.5-VL。结果表明,在域内测试数据上,SFT 模型的性能略低于 R1 模型(如上图顶部所示)。然而,在域外测试数据上,SFT 模型的性能随着步数的增加而显著恶化,而 R1 模型则显示出稳定的改进,如下图所示。
基于DeepSeek的图生文最新算法VLM-R1由讯客互联软件开发栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“基于DeepSeek的图生文最新算法VLM-R1”