[MÚSICA] [MÚSICA] [MÚSICA] De lo que hablamos la semana pasada podemos recordar que existen dos tareas básicas en aprendizaje automático que son regresión cuando uno quiere predecir un valor real o clasificación cuando uno quiere predecir la clase o la categoría de una instancia. Las dos regresiones que vamos a ver en esta semana son la regresión lineal por un lado, la regresión logística por otro. La regresión lineal suena claramente que es una tarea de regresión pero no se dejen confundir por el nombre de regresión logística, porque la regresión logística lo van a ver en los próximos videos, es un algoritmo de clasificación. Ambas técnicas datan de principios de siglo 19, Gauss usaba la regresión lineal alrededor de 1800. Y otros científicos de la época empezaron a usar la regresión logística alrededor de 1830, 40 por ahí. Así que cuando hablamos que son técnicas datadas y probadas por el tiempo, porque realmente lo son. La regresión lineal consiste básicamente en ajustar una curva, en este caso una recta a una cantidad de ejemplos. Estos ejemplos tienen coordenadas X e Y. X en este caso es una sola para que lo podamos visualizar en dos dimensiones, pero puede ser un vector de m dimensiones y es el valor que tenemos que predecir. En un caso sencillo como éste que tenemos dos puntos, trazar una recta es simple, o sea, dos puntos determinan perfectamente una recta. De hecho, esto tiene una solución única este sería el sistema de ecuaciones donde a es la pendiente y b es la ordenada de origen. Podemos expresarlo de una manera matricial a este problema. Y tiene una solución tanto algebraica como aritméticamente. El problema empieza cuando tenemos más casos, cuando hay más casos no hay una única recta que pase por todos los puntos, tendríamos que encontrar una otra recta, tendríamos que tener algún otro criterio para encontrar esa recta. La expresión matricial se vuelve similar, se vuelve más grande y quiénes saben algo de Álgebra saben que esto no se puede resolver, sencillamente porque la matriz X no es cuadrado, entonces no se puede invertir. Para poder encontrar la recta que pasa por entre todos los puntos, tenemos que incorporar un nuevo concepto al problema. Que es la función de costo. ¿En qué consiste la función de costo? Como no podemos encontrar una única recta que pase por todos los puntos, tenemos que encontrar aquella recta que minimiza algún criterio. Esta función que vamos a minimizar se llama función de costo. En otros casos a veces se maximiza es una función de beneficio, si es costo se minimiza, si es beneficio se maximiza. La función de costo que vamos a emplear particularmente para la regresión lineal, es la función de pérdida cuadrática. Cada caso, podemos decir entre el valor de la recta y el punto original hay una distancia, esa distancia puede ser positiva o negativa normalmente se eleva al cuadrado, al elevarla al cuadrado se pierde el signo y por cada caso vamos a tener una pérdida y para todos los casos en conjunto vamos a tener un costo. Costo y pérdida normalmente los consideramos sinónimos, pero puntualmente en algunas literaturas a la función de pérdida se refieren con, cuando se analizan cada punto en particular y a la función de costo cuando se analizan todos los puntos en su conjunto. Y el costo cuadrático que esencialmente es el la pérdida cuadrática por todos los puntos, dividido por la cantidad de puntos que tenemos, con lo cual es la pérdida cuadrática media. También es la función que le da nombre al método de regresión lineal que también se le llama mínimos cuadrados ordinarios. Esta es la función que vamos a necesitar siempre, ésta en este caso es el costo cuadrático pero en cualquier otra regresión o incluso en todas las redes neuronales siempre vas a tener al final después de la predicción, una función que valúa que tan buena es esa predicción y esa es la función que vamos a optimizar, porque sino no se pueden encontrar los coeficientes de una manera directa como sería cuando había dos puntos, como siempre hay más puntos que dimensiones a ajustar necesitamos alguna función de costo que nos permita encontrar los parámetros a optimizar. you terminando con este vídeo, vamos a ver un breve repaso de operaciones matriciales. Acá lo vimos de matrices y de paso vamos a aprovechar para ver la notación del que vamos a usar generalmente en el curso. La matriz X que es la que tenemos acá, es la matriz que tiene nuestras variables explicativas. En el caso de las bienes raíces que vimos sería los metros cuadrados, la cantidad de baños, la cantidad de habitaciones, si tiene o no tiene balcón, etcétera. Los datos los vamos a ordenar de la siguiente manera, en las filas vamos a poner cada uno de los casos, sería todas las casas para las cuales tenemos datos y en las columnas vamos a ordenar las características de esas casas. Entonces vamos a tener n casas con m características. W es el vector de los coeficientes de nuestra regresión y cada uno de estos elementos del vector este columna se va a multiplicar por cada uno de los elementos de cada una de las filas de la matriz X. Entonces W1 se va a multiplicar por X 1, 1. W 2 se va a multiplicar por X 1, 2 y así sucesivamente hasta W m que se multiplica por X 1, m. El resultado de todas esas multiplicaciones se suma, con lo cual llega a un único valor y al sumarle b llego al valor de Y 1. X 2 se multiplica por X 2, 1, se multiplica por W 1. W 2, se multiplica por X 2, 2. W m se multiplica por X 2, m se suma todo, le sumo b y con eso llego a Y 2. Se recuerdan en la expresión que vimos en el primer slide era levemente distinto. Primero, no tenía 2 subíndices porque tenía un solo X, no necesitaba ponerle 2 subíndices. Y el otro es teníamos este vector de unos puros y eso nos lleva a la segunda notación que se puede ver en regresiones y redes neuronales en general, que es básicamente la misma que la anterior pero pierdo el b y se agrega un W 0 y una columna de X 0. Esa columna de X 0, que acá aparece al principio porque por convección W 0 corresponde con el primer vector de esta matriz. Y acá aparece al final simplemente porque a y b, viene b después no, pero es simplemente una cuestión de orden alfabético. Este vector es el equivalente a este vector y son todos 1, por eso podemos decir que para todo X i, 0 el valor es 1. Y matemáticamente termina siendo lo mismo, porque W 0 se va a sumar a W 1 por X1, a W 2 por X 2, a W m por X m, a eso se le va a sumar W 0 por X 0, que X 0 es siempre 1, con lo cual W 0 es equivalente a la ordenada de origen. Estas 2 notaciones no se dejen asustar, son muy sencillas y son equivalentes. Lo importante es que entiendan que se puede usar una u otra según convenga, a veces obtener un término suelto es incómodo y es preferible tener la multiplicación de matrices como una matriz por un vector sin tener un término suelto, a veces como la derivada de esto, you van a ver en cursos, en vídeos un poquito más adelante. La derivada respecto de b para encontrar el gradiente y optimizar los parámetros es levemente distinta que las W, conviene tenerlas por separado. ¿Por qué vamos a usar una u otro? Lo vamos a ir viendo cada vez que lo hagamos, lo importante que entiendan es las 2 cosas son equivalentes y por más que parezcan un montón de letras y números por todos lados, no es más que la multiplicación y suma de una con la otra, es todo lo que hay. Con esto terminamos entonces la primera clase de la semana. Las próximas van a poder aprender lo que es una regresión logística, a clasificar con ella y a optimizar sus súper parámetros con las técnicas clásicas de optimización en redes neuronales, que si bien la vamos a aplicar a casos muy sencillos para que podamos entender cómo se hacen, son las esencialmente las mismas las que se usan en las redes más complejas. [MÚSICA]