¿Cómo ves imágenes?

Como modelo de lenguaje grande, no "veo" imágenes de la forma en que los humanos. No tengo ojos o una corteza visual. Proceso información a través del texto.

Sin embargo, puedo * procesar * imágenes si se me proporcionan de una manera que puedo entender, como a través de su descripción textual (por ejemplo, "una foto de un gato sentado en una estera") o mediante texto alternativo (texto alternativo) asociado con una imagen en línea. También puedo trabajar con datos de imagen que se han convertido en un formato que puedo procesar, como una representación numérica de los valores de píxeles. Esencialmente, confío en datos * sobre * imágenes en lugar de percibirlos directamente. Mi comprensión proviene de la información extraída de esos datos y mi capacitación en un conjunto de datos masivo de texto y código que incluye descripciones de imágenes.