类脑智享汇第九期!解密噪声标签的处理技术+自监督学习

点击:2406次发布日期:2022-05-23

如何减少噪声标签的影响?如何利用大规模无标签数据提升算法性能?5月19日,类脑智享汇第九期顺利举行,来自公司研发中心的Jun Sun、Kai Kang分别为大家带来了《噪声标签的处理技术》《自监督学习实践》的主题分享,总结学习经验,分享技术修炼秘籍。


作为中科类脑面向公司内部全员开展的一项关于职业技能的培训活动,类脑智享汇旨在发挥全体类脑人的智慧,让公司内部形成乐于分享、积极学习、开放讨论的氛围。促进全体类脑人拥抱新变化、掌握新技术,实现个人快速成长。


1653290032994459.jpg


深度神经网络技术的成功依赖于高质量标记的训练数据,训练数据中存在标记错误(标记噪声,即Noisy Labels)会对算法的拟合速度、泛化性能等造成极大的影响。深度学习在训练过程中需要大规模的数据集,人工对这些数据进行检查,筛选成本高、效率低,而使用合适的data-centric的方法进行数据的检查,则会大大提升校正效率。


在《噪声标签的处理技术》分享过程中,Jun Sun从检查噪声标注朴素方法说起,详细介绍了去除噪声数据的方法和利用模型去修正噪声标签的方法,对后续做实际任务时如何理性看待和处理噪声标签有一定的参考意义。

1653290106419136.jpg


在机器学习任务中, 获得良好的性能需要大量的有标签数据, 但获取大量有标签数据耗时且昂贵, 有时还需要专家知识,而现实中无标签数据的数据量远远超过有标签的数据, 自监督学习就是利用无标签数据来提升模型性能的一种方案。


在接下来的《自监督学习实践》分享中,Kai Kang从“什么是自监督学习”“自监督学习的辅助任务”“自监督学习算法”“自监督学习算法评估”等方面介绍了自监督学习,最后介绍了当前自监督学习在公司内部业务上一些应用和结论,以及下一步研发计划。


互动交流环节,线上线下参与培训的员工围绕噪声标签的处理技术、自监督学习等内容,与两位分享人展开了进一步交流。