Abstract:
La visión por computadora es una herramienta que permite a las computadoras y a los
sistemas informáticos obtener información útil contenida en imágenes digitales, videos y otras
entradas digitales. Esta herramienta ha sido utilizada en diversos proyectos enfocados en la
obtención de caracteres correspondientes a ángulos de configuración para el posicionamiento
de un sistema robótico.
El proyecto que se trabajó se enfoca en la optimización de algoritmos para el reconocimiento óptico de caracteres que ya habían sido desarrollados en fases anteriores. Se centró en
el reconocimiento de los ángulos de configuración proporcionados por el sistema de Brainlab,
utilizado por HUMANA. Se creó una interfaz diseñada para facilitar al usuario el uso de las
herramientas de procesamiento e identificación de los ángulos de configuración.
Además de la interfaz, se desarrolló un sistema de servidor-cliente que conecta la computadora principal que ejecuta el programa de Brainlab con un sistema embebido encargado
de recortar las imágenes que contienen los datos de interés. Posteriormente, estos datos se
transcriben y se transfieren al cliente. El cliente, junto con la interfaz, tiene la capacidad
de realizar capturas de pantalla y recortar la ventana del programa de Brainlab. Además,
incluye una sección dedicada a la comunicación con el brazo robótico.
Para la transmisión de datos hacia el brazo robótico, se implementó una estructura
utilizando el protocolo de comunicación UART, la comunicación es de dos vías, por lo que
el cliente puede recibir una confirmación de que se ha realizado exitosamente la transmisión
de datos.
Como herramienta principal para el reconocimiento de caracteres, se empleó el motor
Tesseract, el cual es de código abierto y ofrece una amplia gama de aplicaciones, incluyendo la
identificación de letras, números, estos, en una gran variedad de idiomas. Como herramienta
secundaria, se implementó Asprise OCR, la cuál es una solución comercial y conlleva un
costo por su uso. Se llevaron a cabo pruebas preliminares con ambas herramientas para
verificar su buen funcionamiento y fidelidad para detectar los datos de configuración a pesar
de las distorsiones que se pueden presentar en las imágenes capturadas.
Las pruebas preliminares se realizaron con imágenes que presentan diversos textos, el primero con texto que contenía exclusivamente números, el segundo con texto únicamente
en letras y símbolos de puntuación, y originalmente, se realizaron pruebas con la combinación
de ambos tipos de caracteres. Los resultados obtenidos fueron satisfactorios para ambas
herramientas, por lo que se decidió incluirlas en el diseño original del proyecto.
Además, se evaluó el rendimiento de una tercera herramienta llamada OCR Space. Sin
embargo, los resultados obtenidos no fueron satisfactorios, por lo que esta herramienta se
incluyó en el trabajo únicamente con el propósito de proporcionar antecedentes a personas
interesadas en explorar su uso en el reconocimiento de caracteres en futuras investigaciones.
Se realizaron 4 interfaces, las primeras dos diseñadas para contener todo el procesamiento
e identificación de datos de configuración de manera que se ejecuten en la misma interfaz en la
computadora, con la que se hace uso del programa de Brainlab, una de estas utiliza el motor
de Tesseract y la otra el motor de Asprise OCR. En las dos versiones restantes, cada una
implementa un motor diferente antes mencionado, con la diferencia que estas están diseñadas
para trabajar con el servicio de servidor-cliente implementado con el sistema embebido.(LA)