Głównym postępem w GPT-4, a zatem w ChatGPT, są jego możliwości multimodalne. Oznacza to, że może przetwarzać różne typy danych – konkretnie obrazy i tekst. Ta możliwość pozwala ChatGPT obsługiwać zadania, takie jak opisywanie obrazów, podsumowywanie tekstu ze zrzutów ekranu i odpowiadanie na pytania zawierające diagramy.