多模态预训练:大模型发展的新方向?Meta、LeCun等人的探索

我觉得“扩展不对称性”也提醒我们,不能简单地把语言模型的成功经验照搬到多模态模型中。视觉和语言的特性不同,学习方式也应该有所区别。未来的多模态模型应该更加注重视觉信息的特点,设计更适合视觉学习的架构和算法。例如,可以借鉴计算机视觉领域的一些经典方法,如卷积神经网络、Transformer等。