¿Cómo aprenden los ordenadores a reconocer imágenes y sonidos?
Es interesante que comencéis viendo el siguiente vídeo1
- Siempre hemos intentado que los ordenadores aprendan de la misma forma que lo hacemos los humanos y este se ve muy claro con las imágenes.
Pensemos, ¿cómo procesamos los humanos una
imagen? Simplemente, detectando los ejes o las líneas de los objetos que la
conforman.

Los ejes y bordes nos ayudan a a saber dónde están los objetos que existen en toda imagen. Nuestro ojo está acostumbrado a detectarlos. Para él es sencillo.
Informáticamente, la información de una imagen visual se descompone en una matriz de pixeles dispuestos en filas y columnas. Cada píxel representa un punto de la imagen en un sistema bidimensional y contiene información sobre el color (siendo el modelo RGB el más común en IA), y la intensidad luminosa y la opacidad. Cada una de las tres componentes (rojo, verde o azul) tiene un valor numérico entre 0 y 255 que indica la intensidad de ese color específico en el píxel.

Si nuestro ojo detecta un cambio brusco de color (y valor entre pixeles cercanos), eso es un eje.

Si trabajamos con imágenes en blanco y negro, el valor numérico 0 en el píxel significará negro y el valor numérico 255 blanco.
Se ha ideado un proceso gracias al cual, los ordenadores son capaces de detectar los bordes de un objeto. Ese proceso se basa en aplicarle filtros a las imágenes y a ese proceso se denomina "convolución".
Podemos probarlo en vivo en los siguientes links: Utiliza imágenes en blanco y negro, como por ejemplo esta:
- ¿Y cómo aprende un ordenador un sonido o audio? También hemos de convertirlo en números.

Un espectograma es una imagen de la distribución de energía de una señal de sonido en el tiempo y en la frecuencia. Representa la intensidad de la señal (dB) en cada frecuencia y en cada momento (la intensidad se representa por el color).