“一图胜千言”。中科类脑在电力视觉大模型中引入了基于多模态的微调技术,在不引入过多训练参数和训练资源的情况下,通过图片语义和文本语义的对齐,使得大模型能够同时利用视觉和文字的能力,对待检测目标进行定位。此能力显著提高了大模型的开放集合的检测能力和小样本学习能力,使得即使训练集中没有出现过待检测目标,大模型也能具备较好的检测性能。
为了充分了解电力视觉大模型的性能和潜力,了解其优势和不足,我们选择在配电场景的缺陷检测任务上进行详细的实验论证。
总体测试结果
通过大模型和小模型的整体检测性能对比,我们得出以下数据:
大模型的参数量远大于小模型。虽然大模型参数量巨大,但由于模型已经在大规模数据上进行了预训练,因此在配电下游任务上微调时的训练时间只比小模型相对多出40%左右。本次对比的传统小模型来自于国网配电比赛的参赛模型,其在配电比赛中最终排名前十(只公布前十,不公布具体名次),因此,与其对比可以明确视觉大模型在配电场景下应用的能力。
基于AP@IoU=0.5的指标评测,在验证集一上大模型相比小模型将测试指标从66.20%提升到74.88%,总体提升值高达8.68%,相对错误率下降了25.7%;在验证集二上相比小模型将测试指标从42.28%提升到51.72%,总体提升值高达9.44%,相对错误率也下降了16.4%。由此可见,大模型带来的整体性能提升非常显著。
当前大模型的推理速度是小模型的4倍左右,目前正进行针对性的模型量化和剪枝工作,同时构建高效的大模型推理引擎。
总结与展望
通过在配电场景下的评测发现,应用在配电场景的视觉大模型在两个验证集上相对于传统小模型平均AP@IoU=0.5指标分别绝对提升8.68%和9.80%,由此可见大模型相对小模型有着明显的检测性能优势。
更进一步,与小模型相比,视觉大模型的优点总结如下:
1误检比低
相同召回率下,误检比更低;相同误检比下,召回率更高。
2 检测精准
检测框与物体贴合更加精准。
3 检出能力优秀
复杂环境下(例如低光照)检出能力更加优秀。
目前,中科类脑正在做针对性的模型量化和模型剪枝工作,构建高效的大模型推理引擎。同时,中科类脑也在不断构造标注精细、数据类型丰富的数据,并结合当前学术界各项先进技术,对当前视觉大模型技术进行不断迭代演进。