viernes, 26 de abril de 2024

Cómo extraer el texto de una imagen usando el OCR de ChatGPT

OCR son las siglas de Reconocimiento Óptico de Caracteres, una tecnología que usan muchas aplicaciones para extraer texto de una imagen. Google Lens, sin ir más lejos, consigue extraer el texto de lo que enfoquemos, y Google Traductor lo extrae y lo traduce al mismo tiempo. En este artículo vamos a ver cómo funciona esta tecnología dentro de ChatGPT.

 Lo primero que tenemos que tener en cuenta es que ChatGPT solo puede reconocer el texto de las imágenes y documentos que subamos a su plataforma, y eso solo es posible hacerlo desde ChatGPT Plus, usando el modelo GPT-4.

Una vez subamos el archivo, ChatGPT se encargará de analizarlo, y no hace falta que le digamos específicamente que queremos que lea su contenido, el sistema de Inteligencia Artificial ya se encarga de hacerlo de forma automática.

Veamos un ejemplo con una imagen que contiene código fuente:

Ejemplo con una imagen que contiene código fuente

En este caso se subió una imagen de un programa que daba error, y ChatGPT fue capaz de reconocer el código y ofrecer una solución adecuada al problema que estaba teniendo.

Pero no solamente es capaz de entender letras perfectamente definidas, también puede hacerlo con letras manuscritas (con ciertos límites) o letras en disposición vertical o inclinadas.

Veamos otro ejemplo:

Otro ejemplo más

Fijarse que en este caso la letra es terrible, no tiene forma definida, ni estructura. Las “e” son diferentes en cada palabra, no está alineado nada con nada, pero aún así, ChatGPT es capaz de juntar los píxeles de la imagen y llegar a la conclusión de que son letras. La orden “Transcribe esto” es la adecuada para que pueda transformar el contenido en texto.

Qué utilidades podría tener la herramienta OCR de ChatGPT

La herramienta OCR que se integra con ChatGPT puede tener múltiples utilidades, especialmente en campos donde se necesita convertir grandes cantidades de documentos impresos o manuscritos en texto editable y analizable. Aquí algunas aplicaciones:

  • Digitalización de documentos: Para bibliotecas y archivos que buscan digitalizar su contenido histórico y hacerlo accesible en línea.
  • Automatización de oficina: Para convertir formularios impresos o escritos a mano en datos digitales, facilitando el almacenamiento, la búsqueda y el análisis de información.
  • Traducción automática: Al convertir texto de imágenes a texto digital, es posible utilizar herramientas de traducción automática para entender documentos en otros idiomas.
  • Procesamiento de facturas y recibos: Para empresas que necesitan digitalizar y catalogar grandes volúmenes de facturas y recibos para su contabilidad y auditoría. Podemos leer el contenido y estructurar la información de la factura.
  • Medios de comunicación y periodismo: Para periodistas que requieren extraer y analizar información de documentos en formatos no digitales.
  • Automatización de entrada de datos: Para reducir el trabajo manual y el error humano en la entrada de datos a sistemas computarizados.

El uso de OCR con ChatGPT combina la capacidad de comprensión y generación de texto del modelo de lenguaje con la habilidad de interactuar y procesar información visual, lo que amplía significativamente las aplicaciones y los contextos en los que se puede emplear. Una vez se extraiga el texto de la imagen, se puede trabajar con él de la misma forma que si se hubiera introducido el texto a mano.

Cómo extraer el texto de una imagen usando el OCR de ChatGPT.

Qué limitaciones tiene el OCR de ChatGPT

El OCR es una tecnología poderosa, pero como todas, tiene limitaciones. Algunas de estas incluyen:

  • Calidad de la imagen: El OCR depende fuertemente de la calidad de la imagen. Textos borrosos, pixelados o con iluminación inadecuada pueden resultar en un reconocimiento pobre.
  • Estilos de fuente: Las fuentes altamente estilizadas o caligráficas pueden ser difíciles de interpretar. El OCR funciona mejor con textos impresos en fuentes estándar, aunque ya se ha visto antes que en este caso es capaz de interpretar bastante bien texto manuscrito.
  • Idiomas y caracteres especiales: Algunos idiomas y caracteres especiales (como los ideogramas chinos o japoneses) son más desafiantes para el OCR que los caracteres latinos estándar.
  • Disposición del texto: Las disposiciones complejas o poco convencionales (como columnas, cuadros de texto en ángulos, o texto que fluye alrededor de gráficos) pueden confundir a los sistemas de OCR.
  • Errores de conversión: Incluso con imágenes claras y texto impreso, el OCR puede introducir errores de reconocimiento, especialmente con números y letras similares (por ejemplo, 0 y O, 1 y l, 5 y S).
  • Elementos gráficos: Las imágenes y otros elementos gráficos que se entremezclan con el texto pueden interferir con la precisión del OCR.
Como se ve, nada es perfecto, pero si preparamos bien la imagen antes de enviarla a ChatGPT, las probabilidades de éxito serán altas.