[MÚSICA] [MÚSICA] [MÚSICA] Recordando de lo que vieron en videos anteriores, la expresión funcional de i sombrero que es nuestra estimación de i toma esta forma donde es una combinación lineal de los inputs x y después se la pasa a través de una función logÃstica que es lo que trae adentro de el rango 0, 1. Formalmente el problema, teniendo los valores x como observaciones, se los vuelvo a decir como resultados en todo este set de entrenamientos que usamos normalmente y que vamos a encontrar los parámetros w y b tal que i sombrero que es nuestra estimación sea lo más parecido al i observado que es el i sin sombrero. Vimos en el primer video de esta semana una función de costo que se llama la pérdida cuadrática que es la que se usa en mÃnimos cuadrados ordinarios para problemas de regresión sencillos, regresión lineal. Es una pérdida cuadrática o podÃa serlo, lo que pasa es que no tiene determinadas propiedades matemáticas que hacen, mejor dicho tiene propiedades matemáticas que la hacen menos deseable entre las opciones y esto es que no es convexa con respecto a w. Para los que no es importante que entiendan muy bien lo que quiere decir la convexidad de una función, pero básicamente quiere decir que tiene estos valles y no hay uno solo o no hay ninguno o hay múltiples lo van a ver en los próximos videos. Cuando optimizamos parámetros. cuando usamos algo que se llama [INAUDIBLE] que es básicamente cae a través de estas pendientes la optimización y si tenemos múltiples bases con distintas profundidades vamos a terminar cayendo en óptimos que no son globales, acá este serÃa es el mÃnimo global y acá este serÃa un mÃnimo local. Y eso lo queremos evitar. Por eso vamos a usar otra función de costos que es la función de pérdida logarÃtmica. Recordamos esta es la expresión funcional, no, recordemos que i, la observación i puede ser 0 o 1, con lo cual siempre uno de estos dos términos se nos va a anular. Ahora vamos a ver por qué también se pone en negativo. Analicemos qué pasa cuando i puede tomar alguno de los dos valores que puede tomar no, cuando i es 1 este está ahÃ, acá hay un 1, y 1 menos sà es 0 por lo cual este término se anula completamente. Lo único que me queda es el menos logaritmo de i. Cuando i vale 0, este es el término que se anula y 1 menos 0 es 1, este término queda, menos logaritmo de 1 menos mi estimación. Ahora brevemente voy a mencionarlos porque en las implementaciones lo van a ver, para los que tengan unidades de logaritmos el logaritmo de 0 no está definido, con lo cual para evitar errores después de la programación es común que vean algo como esto donde a i sombrero se le suma un valor muy muy pequeño, 10 a la menos 16 es 0,16 ceros en uno, no, entonces es un valor muy muy pequeño para que el valor del logaritmo no sea exactamente 0, porque si fuera exactamente 0 se vuelve una indeterminación. Volviendo a la función lo que tenemos que ver es cómo funciona el logaritmo. Recordemos que i sombrero también va a estar entre 0 y 1, van a ser valores infinitesimales entre 0 y 1 entonces nos vamos a estar moviendo en este cuadradito nada más de la función no, bueno en realidad este rectángulo está abajo. El logaritmo de 0 dijimos que no está definido pero el logaritmo de x cuando x tiende a 0 tiende a menos infinito sÃ, y ahà vemos que la función de costos es decreciente en la medida que uno se aparta de 1 y por eso es este menos, no. Nosotros lo que queremos es minimizar esto, lo que queremos es que i sombrero con la parte de acá adentro del logaritmo sea lo más parecido a 1. O sea que el costo de cada una de estas estimaciones sea lo más parecido a 0 posible, no. Y fÃjense que esta función tiene una virtud cuando uno quiere optimizar estas cosas que en un periodo bastante largo penaliza los errores menos que proporcionalmente, ¿Qué quiere decir esto? Por ejemplo si yo me muevo 50 0,50 unidades hacia la izquierda, me fijo que la penalidad que voy a tener es menos que 0,50. O sea es menos que proporcional que el error que tuve, y a medida que ese error se hace más grande la penalidad que tengo es cada vez más que proporcional. Entonces lo que hace esta función de costos es penalizar muy muy poquito errores pequeños y mucho más los errores grandes, que es algo bastante deseable cuando uno quiere optimizar este tipo de sistemas. Finalmente habiendo visto lo que es la función de pérdida que es para cada caso particular, lo que nos queda ver es esta que es la función de costo que en esencia pasa lo mismo que con mÃnimos cuadrados, no es más que el promedio simple de los costos individuales, por el costo de cada observación. Teniendo esta función de costos you podemos optimizar la función logÃstica, entonces en el próximo video vamos a ver el descenso gradiente que es el método que se usa para optimizar redes neuronales. Teniendo esta función de costos you podremos optimizar la función logÃstica, entonces en el próximo video vamos a ver el descenso gradiente que es el método que se usa para optimizar redes neuronales. [MÚSICA]