Las desventajas de OCR

El Servicio Postal de EE. UU. utiliza tecnología de reconocimiento óptico de caracteres (OCR) para leer las direcciones en las piezas de correo. Sin embargo, para que un clasificador de correo OCR pueda leer el correo, las direcciones y las fuentes deben tener un formato determinado. El software OCR es útil para convertir imágenes escaneadas de documentos escritos a máquina o escritos a mano en texto electrónico que permite realizar búsquedas, pero tiene desventajas que limitan sus aplicaciones.

Documentos limitados

OCR funciona mejor con documentos mecanografiados de buena calidad. Los documentos escritos a mano no se pueden leer fácilmente con el software OCR. Del mismo modo, las fuentes mecanografiadas que se asemejan a la escritura a mano, así como las fuentes no latinas, crean muchos errores durante el proceso de OCR. Si el documento tiene poco contraste, está arrugado o sucio, o el texto y el fondo son similares en la oscuridad, es posible que OCR no funcione bien. OCR tiene dificultades con los documentos que tienen tanto imágenes como texto. Las hojas de cálculo también producirán más errores.

Precisión

Ningún software de OCR es 100 por ciento preciso. El número de errores depende de la calidad y el tipo de documento, incluida la fuente utilizada. Los errores que se producen durante el OCR incluyen la lectura incorrecta de letras, la omisión de letras ilegibles o la combinación de texto de columnas adyacentes o leyendas de imágenes. Si se requiere una gran precisión, como en la conversión de libros digitales a formato electrónico, será necesario limpiar el texto electrónico.

Soluciones alternativas

OCR tiene dificultad para diferenciar entre caracteres, como el número cero y una "O" mayúscula. Para evitar esto, se puede usar una fuente OCR especial, como escribir cero. Sin embargo, esto solo funciona para documentos creados con OCR en mente, como cuestionarios. Al crear cuestionarios que se escribirán a mano, los investigadores también usan recuadros para cada letra.

Trabajo Adicional

Incluso si la imagen escaneada del documento original es de alta calidad, se deben realizar pasos adicionales para limpiar el texto OCR. Es muy laborioso corregir los errores creados por OCR. Una persona tiene que comparar manualmente el documento original y el texto electrónico. Las personas también cometen errores al escribir texto de un documento, pero a veces es más rápido omitir el paso OCR.