If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Анализ на функции на много променливи > Раздел 3

Урок 3: Оптимизация на функции на много променливи

Максимум и минимум на функция на много променливи

Описание на максимум и минимум на функции на много променливи, как изглеждат и малко за това как се определят. Създадено от Грант Сандерсън.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Когато е дадена една функция на много променливи, някаква функция, която на входа си има различни входни променливи, и да кажем, че на изхода има само едно единствено число, обикновено това, което искаме да направим с едно такова животно, е да максимизираме функцията. Да я максимизираме означава, че търсим тези входни точки, тези стойности на х е на у и всички други входни променливи, за които изходната стойност f e възможно най-голяма. Такава задача се среща непрекъснато в практиката, защото, обикновено работим с функция на много променливи, и тогава не само за забавление се борим с всички тези абстрактни символи, когато с тази функция се моделира нещо реално, може би печалбата на една компания, или може би това е функция, в която взимаш предвид различни опции, които можеш да избереш, например заплатите на служителите, продажните цени на стоките или размера на кредитите, когато правиш инвестиции, най-различни опции, които можеш да избираш, и искаш да знаеш какви стойности могат да имат тези опции, така че да получиш максимална печалба. Тогава максимизираш стойността, и ако имаш функция, която описва, която моделира всички тези зависимости, има техники, които ще ти покажа, така че да получиш максималната стойност на тази функция. Нещо друго, което е много интересно, и става все по-важно и по-важно в последно време, са машинното обучение и изкуствения интелект, където често свързваш така наречената функция на разходите към някаква задача, например може да опитваш да обучиш един компютър как да разбира човешка реч или как да разчита ръкописен текст. Това, което правиш, е да намериш една функция, която принципно ти казва каква е грешката ти, когато правиш предположение, и ако се справиш добре с конструирането на тази функция, просто казваш на компютъра да минимизира стойността ѝ, което е един вид обратното нещо, нали? Вместо да намираш максимума, сега минимизираш стойността на дадена функция, и ако минимизираш тази функция на разходите, това означава, че тя се справя много добре със задачата, която ѝ е поставена, така че голяма част от "майсторлъка", който се влага при машинното обучение и изкуствения интелект, се свеждат до намирането на функция на разходите, когато се описват сложни задачи чрез функция, и след това до използването на метода, който ще ти покажа, за минимизиране на стойността на функцията. Огромно количество време и усилия са вложени в установяването на начини за използване на тези методи, но те наистина са много бързи и ефикасни. Първо, на теоретично ниво, да помислим какво означава да намерим максимум на функция на много променливи. Тук виждаме графиката на функция на две променливи. Тя има две променливи на входа, което можем да си представим като една равнина ху, а после изходната стойност е височината на графиката. Когато искаме да я максимизираме, по същество това, което определяме, е този връх, един вид най-високата планина в цялата област, и търсим входната стойност, точката в равнината ху, която е точно под този връх, защото тя ни показва входните стойности, които трябва да използваме, за да максимизираме функцията. Как можем да ги намерим? Това вероятно е най-важното наблюдение в анализа, не само в анализа на функции на много променливи. Това е подобно в света на функциите на една променлива, и има сходство с други случаи, но основното наблюдение е това, че ако вземем допирателната равнина към този връх – просто ще построя една допирателна равнина към този връх, която е съвсем плоска, но да кажем, че я направя в различна точка... Защото, ако търся допирателна равнина не в тази точка, а ако я преместя някъде, така че да не е точно в максимума, ако допирателната равнина има някакъв наклон, това означава, че ако правим съвсем малки промени, които са насочени по направление на този наклон нагоре, тогава можем да увеличим стойността на нашата функция. Така че ако има някакъв наклон на тази допирателна равнина, ако знаем, че можем да се преместваме в някаква посока, за да го увеличим, но в случай, че няма наклон, ако това е съвсем хоризонтално, тогава това означава, че няма значение в каква посока се преместваме, няма да получим значително нарастване на стойността на нашата функция. Какво означава това от гледна точка на формулите? Ако се върнеш назад и разгледаш как изчисляваме допирателните равнини – ако това не ти е съвсем ясно, сега е подходящият момент да гледаш отново видео клиповете за допирателна равнина – наклонът на равнината във всяка посока – това ще бъде наклонът в посока на оста х, а после ако погледнем от друга гледна точка, това ще бъде наклонът по посока у, всеки от тях трябва да е нула, което изразено чрез частни производни, означава, че частната производна на функцията в произволна точка, която разглеждаме – ще го означа с х нулево, у нулево като точката, в която изчисляваме производната – и частната производна трябва да е нула. После по същия начин частната производна по отношение на другата променлива – относно у – в същата точка, трябва да е нула. Като и двете условия трябва да са изпълнени, защото, ако погледнем – не знам, ако наклоня малко равнината, тази допирателна равнина, ако разгледаме наклона ѝ, ако си представим, че се движим по направление на у, тогава стойността не нараства изобщо. Наклонът в посока у всъщност трябва да е нула, така че това означава, че частната производна относно у ще бъде нула, но частната производна относно х, когато се преместваме по посока х, наклонът очевидно е отрицателен, защото, когато правим положителни стъпки в посока х, височината на допирателната равнина намалява, което съответства на това, ако правим малки стъпки на графиката, тогава височината намалява пропорционално на тези малки стъпки. Това, което получаваме, е една система от уравнения, от която можем да намерим стойностите на х нулево и на у нулево, които удовлетворяват тези две уравнения. В бъдещи уроци ще разгледаме конкретни примери за това. Засега искам само да го разбереш добре. Но едно много важно нещо, на което да обърнеш внимание, е това, че понеже това условие е изпълнено, това, че нашата допирателна равнина е плоска, само защото това е изпълнено, не означава задължително, че имаме максимум. Това е само едно от условията, които трябва да са изпълнени. Ако намерим допирателна равнина в някои други малки върхове, например като този връх тук или този тук, или всички други малки издатини, които стърчат, тези допирателни равнини също ще са хоризонтални. Тези малки хълмчета си имат специално име, понеже се срещат често. Те се наричат локални минимуми, извинявам се, локални максимуми, така че това са локални максимуми. Максимуми е множественото число на максимум, а локален означава, че ги разглеждаме по отношение на някаква точка, така че, по принцип, ако се движиш в някаква посока, когато се намираш на този малък връх, слизаш надолу, така че по отношение на съседите на тази точка това е максимум, но по отношение на цялата функция тези хълмове са по-ниски от съседния връх Еверест. Съществува и друг случай, при който може да намериш допирателна равнина, и това да е минимална точка, нали? Ако имаме глобален минимум, абсолютната най-малка стойност, или локален минимум, това са "обърнати върхове" или долини, тогава също можем да намерим плоски допирателни равнини. Това означава, преди всичко, че когато минимизираме една функция, трябва да обърнем внимание и на това изискване къде всички частни производни са равни на нула, и чак тогава можеш да смяташ, че е свършена цялата работа, след като провериш и това. Трябва да се направят повече проверки, за да се види дали си намерил/а локален максимум или локален минимум, или това е глобален максимум. Тези условия, между другото, често ще срещаш записани в по-кратък вид, където вместо да се казва, че всички частни производни трябва да са нули, което е това, което трябва да установиш, го представят по различен начин, като се казва, че градиентът на функцията f, който, разбира се, е просто векторът, който съдържа всички тези производни – първият му компонент е частната производна по отношение на първата променлива, вторият компонент е частната производна по отношение на втората променлива, и ако има повече променливи, просто продължаваме така. Можем да кажем, че градиентът е равен на нулевия вектор, векторът, чиито компоненти са нули, Това е общоприетият, груб начин за записване. Хората често означават нулевия вектор с нула, може би трябва да го подчертая, като го удебеля, защото числото нула не е вектор, а често като удебелим символа, показваме, че имаме предвид вектор. Това ни дава един много сбит начин да опишем условието. Просто поглеждаш къде градиентът на функцията е равен на нулевия вектор, и така можеш да напишеш всичко с един ред. На практика, обаче, всеки път, когато развиеш това, това означава, че намираш всички частни производни, така че това е само за по-удобно записване и спестяване на място на черната дъска. Но винаги, когато видиш това, че градиентът е равен на нула, това трябва да ти подсказва, че допирателната равнина няма никакъв наклон, и както току-що казах, това не е достатъчно, защото може да си намерил/а локален максимум или минимум, а в анализа на функции на много променливи има и една друга възможност – място, където допирателната равнина няма наклон, но там няма нито локален максимум, нито локален минимум, а това е така неречената седлова точка, която е нова в анализа на функции на много променливи. Ще говорим за нея в следващото видео. До скоро!