Multimodal CoT

Multimodal CoT Prompting

Zhang et al. (2023) (opens in a new tab) ont récemment proposé une approche multimodale d'incitation à la chaîne de pensée. Le CoT traditionnel se concentre sur la modalité linguistique. En revanche, le CoT multimodal intègre le texte et la vision dans un cadre en deux étapes. La première étape consiste à générer une justification basée sur des informations multimodales. Ceci est suivi par la deuxième phase, l'inférence de réponse, qui exploite les justifications informatives générées.

Le modèle multimodal CoT (1B) surpasse GPT-3.5 sur le benchmark ScienceQA.

MCOT

Image Source: Zhang et al. (2023) (opens in a new tab)

Lecture complémentaire :