我觉得“扩展不对称性”也提醒我们,不能简单地把语言模型的成功经验照搬到多模态模型中。视觉和语言的特性不同,学习方式也应该有所区别。未来的多模态模型应该更加注重视觉信息的特点,设计更适合视觉学习的架构和算法。例如,可以借鉴计算机视觉领域的一些经典方法,如卷积神经网络、Transformer等。
我觉得“扩展不对称性”也提醒我们,不能简单地把语言模型的成功经验照搬到多模态模型中。视觉和语言的特性不同,学习方式也应该有所区别。未来的多模态模型应该更加注重视觉信息的特点,设计更适合视觉学习的架构和算法。例如,可以借鉴计算机视觉领域的一些经典方法,如卷积神经网络、Transformer等。