Como están enseñando a las computadoras a ver en el MIT

Enseñando a las computadoras a ver – por estar aprendiendo a ver como las computadoras

Al traducir las imágenes a la lengua hablada por los sistemas de reconocimiento de objetos, y traducirlos de nuevo, los investigadores esperan explicar las fallas de los sistemas.

Los sistemas de reconocimiento de objetos – software que tratan de identificar objetos en imágenes digitales – normalmente se basan en el aprendizaje automático. Estos peinan a través de bases de datos de imágenes previamente etiquetadas y buscan combinaciones de características visuales que parecen correlacionarse con objetos particulares. Entonces, cuando se presenta una nueva imagen, tratan de determinar si contiene una de las combinaciones de características previamente identificadas.

Incluso los mejores sistemas de reconocimiento de objetos, sin embargo, solo tienen éxito en torno al 30 o 40 por ciento del tiempo – y sus fracasos pueden ser totalmente desconcertantes. Los investigadores están divididos en sus explicaciones: ¿son los algoritmos de aprendizaje culpables en sí mismos? ¿O están siendo aplicados a los tipos incorrectos de funciones? ¿O – La explicación es «big-data» – los sistemas sólo necesitan más datos de entrenamiento?

Para tratar de responder a estas y otras preguntas, los investigadores en Ciencias de la Computación del MIT y del Laboratorio de Inteligencia Artificial han creado un sistema que, en efecto, permiten a los humanos ver el mundo como lo hace un sistema de reconocimiento de objetos. El sistema tiene una imagen normal, lo traduce en la representación matemática utilizada por un sistema de reconocimiento de objetos y, a continuación, utiliza nuevos algoritmos inventivos, lo traduce de nuevo en una imagen convencional.

En un artículo que será presentado en la próxima Conferencia Internacional de Visión por Computador, los investigadores informan que, cuando se presenta con la reconversión de una traducción, los voluntarios humanos cometen errores de clasificación que son muy similares a los realizados por las computadoras.

Eso sugiere que los algoritmos de aprendizaje están bien, y arrojando más datos en el problema pueden no ayudar, es la elección de las características que hace al culpable. Los investigadores tienen la esperanza de que, además de la identificación del problema, su sistema también pueda ayudar a resolverlo, dejando su razón a colegas de forma más intuitiva de las consecuencias de las decisiones de características particulares.

Whole Hog

Hoy en día, el conjunto de características más ampliamente utilizado en la investigación de detección de objetos es el histograma de gradientes de orientación, o HOG (de ahí el nombre de la MIT sistema de investigadores: HOGgles). HOG primero rompe una imagen en trozos cuadrados, generalmente ocho píxeles por ocho píxeles.

Luego, para cada plaza, se identifica un» gradiente «, o cambio en el color o la sombra de una región a otra. Se caracteriza el gradiente de acuerdo con 32 distintas variables, tales como su orientación – vertical, horizontal o en diagonal, por ejemplo – y la nitidez de la transición – ya sea que cambie de color repentinamente o gradualmente.

Treinta y dos variables para cada uno traduce cuadrados a miles de variables para una sola imagen, que definen un espacio con miles de dimensiones. Cualquier imagen concebible puede ser caracterizada como un único punto en el que el espacio, y la mayoría de los sistemas de reconocimiento de objetos tratan de identificar patrones en las colecciones de puntos que se corresponden con los objetos particulares.

«Este espacio de características, HOG, es muy complejo», dice Carl Vondrick, un estudiante graduado del MIT en ingeniería eléctrica y ciencias de la computación y el primer autor del nuevo documento. «Un grupo de investigadores se sentó y trató de diseñar, ‘¿Cuál es la mejor característica del espacio que podemos tener?» Es muy alta dimensión. Es casi imposible para un ser humano comprender intuitivamente lo que está pasando. Así que lo que hemos hecho es construir una forma de visualizar este espacio.»

Vondrick, su asesor, Antonio Torralba, profesor asociado de ingeniería eléctrica y ciencias de la computación, y otros dos investigadores del grupo de Torralba, estudiante graduado Aditya Khosla y postdoc Tomasz Malisiewicz, experimentó con varios algoritmos diferentes para la conversión de puntos en el espacio HOG nuevo en imágenes ordinarias. Uno de estos algoritmos, que no resultó ser el más confiable, sin embargo, ofrece una comprensión bastante intuitiva del proceso.

El algoritmo produce primero un Hog de una imagen y luego recorre una base de datos para las imágenes que lo contienen – en un entendimiento muy débil de la palabra «partido.»

«Porque es un detector débil, que no encontrará muy buenos partidos», explica Vondrick.» Pero si usted hace un promedio todos los superiores juntos, usted consigue realmente una muy buena reconstrucción. A pesar de que cada detección está mal, cada una todavía capta las estadísticas del parche imagen original.»

Definición del diccionario

El algoritmo de reconstrucción que terminó demostrando ser el más fiable es más complejo. Se utiliza un así llamado «diccionario,» una técnica que es cada vez más popular en la investigación de la visión por ordenador. El diccionario se compone de un gran grupo de Hogs con propiedades bastante regulares: Uno, por ejemplo, podría tener una parte superior que es todo gradientes diagonales corriendo a parte inferior izquierda a la superior derecha, mientras que la mitad inferior son todos los gradientes horizontales; otro puede tener gradientes que giran lentamente a medida que se mueve de izquierda a derecha en cada fila de cuadrados. Sin embargo, cualquier HOG dado se puede representar como una combinación ponderada de estos átomos de diccionario».

El algoritmo de los investigadores reunió en el diccionario mediante el análisis de miles de imágenes descargadas de Internet y se estableció en el diccionario que le permitió reconstruir el HOG para cada uno de ellos con un promedio de los átomos de menor cantidad. El truco es que, por cada átomo en el diccionario, el algoritmo también se enteró de la imagen ordinaria que le correspondía. Así que para un HOG arbitrario, se puede aplicar el mismo peso a las imágenes normales que hace a los átomos de diccionario, produciendo una imagen compuesta.

Estos compuestos son bastante sorprendentes. Lo que parece ser una imagen borrosa de una mujer sentada en un espejo, por ejemplo, resulta ser una reconstrucción del HOG producido por una foto de un avión volando sobre un pabellón de bosque. Y, de hecho, un sistema de reconocimiento de objetos estándar, erróneamente, identifica a una persona en la imagen del plano. Es un error que es incomprensible sin la aclaración ofrecida por los HOGgles.

Para cuantificar la intuición de que, habida cuenta de las representaciones de las imágenes en el espacio HOG, los falsos positivos detectores de objetos no son tan extraños como inicialmente parece, los investigadores del MIT presentaron las colecciones de sus reconstrucciones del HOG de voluntarios reclutados a través de crowdsourcing servicio Mechanical Turk de Amazon.

Los voluntarios fueron ligeramente mejores que los algoritmos de aprendizaje automáticos en la identificación de los objetos representados en las reconstrucciones, pero sólo un poco – muy lejos de la disparidad de los 60 ó 70 por ciento cuando se pregunta a los detectores de objetos y los seres humanos para identificar objetos en las imágenes en bruto. Y la recepción de boletas en la precisión como los voluntarios se trasladaron desde los casos más fáciles para los más difíciles reflejaba la de los detectores de objetos.

Intuiciones de construcción

«Una de las bellezas de nuestro campo es que, a diferencia de algo así como estadísticas o algún tipo de datos financieros, se puede ver lo que está trabajando», dice Alexei Efros, profesor asociado de ciencias de la computación e ingeniería eléctrica en la Universidad de California en Berkeley, que trabaja en la visión por computador.

«Creo que tiene los datos a gran escala en la visión por computador es un fenómeno muy importante, pero un producto negativo de esto ha sido que los nuevos estudiantes, los nuevos investigadores… no se ven en los píxeles más. Ellos están tan abrumados con los datos, hay tantas imágenes, que sólo están tratando como si fueran datos del mercado de valores o datos biosecuencia, o cualquier tipo de otros datos. Sólo están mirando los gráficos y curvas y hojas de cálculo y tablas.»

El trabajo de los investigadores del MIT podría ser un correctivo a esta tendencia, dice Efros. «Creo que eso es lo que me atrae», dice. “Se está rompiendo la tendencia de los estudiantes no mirando las imágenes.»

Efros añade que, de una manera más directa, los HOGgles podrían ser una herramienta útil de investigación.» Si usted está mirando para hacer un poco de tarea, y está usando este [HOG] descriptor, y no se ha solucionado, antes, básicamente, se quedó mirando a su código y se quedó mirando las cifras y lo que pensaba, ‘no tengo ni idea'», dice. “Ahora usted puede realmente invertir los datos y por lo menos mirar a ver si el equipo aún tenía alguna posibilidad.»

«Pero no es sólo una herramienta para obtener mejores descriptores», añade. «Es una herramienta para la construcción de intuiciones.»

web.mit.edu

tierrapost

Facebook Tweet Pin LinkedIn Email

Como están enseñando a las computadoras a ver en el MIT

¿Qué te parece?

Deja una respuesta Cancelar la respuesta