Publicación: Optimización de la herramienta de procesamiento de imágenes para el sistema Brainlab de HUMANA - Fase III.
Portada
Citas bibliográficas
Código QR
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Tipo de Material
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen
La visión por computadora es una herramienta que permite a las computadoras y a los sistemas informáticos obtener información útil contenida en imágenes digitales, videos y otras entradas digitales. Esta herramienta ha sido utilizada en diversos proyectos enfocados en la obtención de caracteres correspondientes a ángulos de configuración para el posicionamiento de un sistema robótico. El proyecto que se trabajó se enfoca en la optimización de algoritmos para el reconocimiento óptico de caracteres que ya habían sido desarrollados en fases anteriores. Se centró en el reconocimiento de los ángulos de configuración proporcionados por el sistema de Brainlab, utilizado por HUMANA. Se creó una interfaz diseñada para facilitar al usuario el uso de las herramientas de procesamiento e identificación de los ángulos de configuración. Además de la interfaz, se desarrolló un sistema de servidor-cliente que conecta la computadora principal que ejecuta el programa de Brainlab con un sistema embebido encargado de recortar las imágenes que contienen los datos de interés. Posteriormente, estos datos se transcriben y se transfieren al cliente. El cliente, junto con la interfaz, tiene la capacidad de realizar capturas de pantalla y recortar la ventana del programa de Brainlab. Además, incluye una sección dedicada a la comunicación con el brazo robótico. Para la transmisión de datos hacia el brazo robótico, se implementó una estructura utilizando el protocolo de comunicación UART, la comunicación es de dos vías, por lo que el cliente puede recibir una confirmación de que se ha realizado exitosamente la transmisión de datos. Como herramienta principal para el reconocimiento de caracteres, se empleó el motor Tesseract, el cual es de código abierto y ofrece una amplia gama de aplicaciones, incluyendo la identificación de letras, números, estos, en una gran variedad de idiomas. Como herramienta secundaria, se implementó Asprise OCR, la cuál es una solución comercial y conlleva un costo por su uso. Se llevaron a cabo pruebas preliminares con ambas herramientas para verificar su buen funcionamiento y fidelidad para detectar los datos de configuración a pesar de las distorsiones que se pueden presentar en las imágenes capturadas. Las pruebas preliminares se realizaron con imágenes que presentan diversos textos, el primero con texto que contenía exclusivamente números, el segundo con texto únicamente en letras y símbolos de puntuación, y originalmente, se realizaron pruebas con la combinación de ambos tipos de caracteres. Los resultados obtenidos fueron satisfactorios para ambas herramientas, por lo que se decidió incluirlas en el diseño original del proyecto. Además, se evaluó el rendimiento de una tercera herramienta llamada OCR Space. Sin embargo, los resultados obtenidos no fueron satisfactorios, por lo que esta herramienta se incluyó en el trabajo únicamente con el propósito de proporcionar antecedentes a personas interesadas en explorar su uso en el reconocimiento de caracteres en futuras investigaciones. Se realizaron 4 interfaces, las primeras dos diseñadas para contener todo el procesamiento e identificación de datos de configuración de manera que se ejecuten en la misma interfaz en la computadora, con la que se hace uso del programa de Brainlab, una de estas utiliza el motor de Tesseract y la otra el motor de Asprise OCR. En las dos versiones restantes, cada una implementa un motor diferente antes mencionado, con la diferencia que estas están diseñadas para trabajar con el servicio de servidor-cliente implementado con el sistema embebido.(LA)