If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Доказателство на значението на множителя на Лагранж

В това видео можеш да видиш доказателството на факта, който демонстрирахме в предишното видео, че множителя на Лагранж ни дава информация за това как промяната на ограничителното условие може да промени решението на една задача за оптимизация с ограничение. Имай предвид, че е доста техническо. Създадено от Грант Сандерсън.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В предишното видео доказах този толкова интересен факт. Тук имаме обичайната ситуация за този случай на оптимизация с ограничения. Имаме функция, която искаме да максимизираме, което можем да си представим, например, като приходите на някаква компания. Ограничението, което разглеждаме, е някакъв бюджет, определен от компанията. Ако си гледал/а предишното видео, знаеш, че един начин да решим тази задача за оптимизация с ограничение е да дефинираме една функция на Лагранж или лагранжиан, което означава, че от тази функция, която се опитваме да максимизираме, в този случай приходите, ще извадим една нова променлива – ламбда, която се нарича множител на Лагранж, по тази величина, която е функцията от бюджета, или сумата, която искаме да похарчим като функция от входните параметри, минус самия бюджет, което за този пример нека да бъде 10 000 долара. Това е обичайната ситуация, а изумителният факт, който току-що обявихме, е това, че когато приравним градиента на нула, когато намерим някакво решение, като това решение ще съдържа три променливи: h звезда, s звезда и ламбда звезда, тук ламбда звезда не е нещо безсмислено. Това не е просто коефициент на пропорционалност между двата вектора на градиента, а всъщност тя ни казва колко се променят максимално възможните приходи като функция от нашия бюджет. Начинът, по който записваме това в нашите формули, е да покажем ясно факта, че ако приемем, че тази стойност, че 10 000 е нашият бюджет, което ще означа с b, което е променлива, а не е константа, тогава виждаме, че h звезда и s звезда зависят от b, нали? Това е една скрита зависимост, която понякога е трудно да забележим от пръв поглед, защото, когато променяме b, това променя и лагранжиана, което променя кога градиентът ще бъде нула, което променя стойностите на h звезда, s звезда и ламбда звезда. Но по принцип това е някаква функция от този бюджет, от b. Максимално възможните приходи са това, което получаваме, когато заместим този случай (h звезда, s звезда и ламбда звезда) в нашата функция R. Изводът, който правя, който изведох от тук, е, че ламбда звезда, стойността на ламбда, която е в комплект с тези две променливи, когато приравним градиента на лагранжина на нула, е равно на производната на тази максимална стойност, разглеждана като функция от b. Може би трябва да подчертая това. Търсим максималната стойност като функция от b, по отношение на b. Това е твърде многословно. Трудно е дори само да изкажем какво се случва, но в контекста на този пример от икономиката има много ясно и прецизно значение, което е, че ако увеличим бюджета с един долар, ако го направим от 10 000 на 10 001 долара, сигурно се чудиш за тази малка промяна на бюджета, това малко db, какво ще е отношението на получената промяна на приходите. В известен смисъл това ламбда звезда ни казва, че за всеки долар, с който увеличаваме бюджета, с колко се увеличават приходите, ако винаги ги максимизираме. Но защо това е вярно? Изглежда, че идва отникъде. Има някои находчиви наблюдения, които ще използваме в доказването на това. Първото е да забележим какво се случва, когато изчисляваме самата функция на Лагранж в тази критична точка, когато заместим h звезда, s звезда и ламбда звезда. Спомни си, че по начина, по който са дефинирани те, е че разглеждаме всички стойности, за които градиентът на лагранжиана е равен на нулевия вектор, а после, ако получим няколко варианта, понякога, когато приравним градиента на нула, получаваме няколко решения, и това, което максимизира R това е h звезда, s звезда и ламбда звезда. Сега просто търся, ако заместим това, не в градиента на Лагранжиана, а в самия лагранжиан, тогава какво ще получим? Ще получим – просто поглеждаме дефиницията тук горе – R е изчислено за h звезда и s звезда, нали? Изваждаме ламбда звезда по В от h звезда и s звезда, минус коефициента, който е нашият бюджет, досещаш се, нещо, което приехме да е 10 000, или каквато стойност приемем за b. И сега може да попиташ защо това изобщо ни показва каквото и да било. Просто заместваме тук с тези стойности със звезда, вместо с обикновените променливи, но ключовото е, че ако заместим h звезда и s звезда, тази стойност трябва да е равна на нула, защото h звезда и s звезда трябва да отговарят на ограничителното условие. Спомни си, че едно от яките неща относно функцията на Лагнранж по принцип е това, че когато намерим частната ѝ производна относно ламбда, остава просто тази ограничителна функция минус ограничителната част. Когато приравним градиента на лагранжиана да е равен на нулевия вектор, единият компонент на това е частната производна относно ламбда, равно на нула. Ако си спомняш от уроците за лагранжиана, всичко това в крайна сметка се свежда до това, че ограничението е изпълнено, нали? Което означава, че бюджетът достига до 10 000. Когато заместим подходящите стойности за h звезда и s звезда тук, можем да достигнем ограничаващата сума пари, която можем да похарчим. Така че поради самия начин, по който са дефинирани h звезда и s звезда, фактът, че те са решения на задачата за оптимизация с ограничение, означава, че цялата тази част става нула. Така че един вид можем да унищожим всичко това, и тогава ни остава сумата на максимално възможните приходи, нали? Излиза, че когато изчислим лагранжиана в тази критична точка, за h звезда, s звезда и ламбда звезда, това е равно на М звезда. Равно е на максимлно възможната стойност на функцията, която искаме да максимизираме. Значи искаме да разберем как се променя тази максимална стойност, когато я разглеждаме като функция от бюджета. Следователно, това, което можем да потърсим, е просто да попитаме как се променя лагранжианът, когато го разглеждаме като функция от бюджета. Това е нещо интересно за анализ, защото, ако просто разгледаме дефиницията на лагранжиана, ако разгледаме формулата му, ако ти кажа да намериш производната на това относно малко b, колко ще се промени това относно малко b, тогава ще забележиш, че това става нула. Не е задължително да е малко b. Това също става нула, и всичко, което остава, е минус ламбда по минус b, а производната на това относно b ще бъде ламбда. Така че можеш да кажеш, че, разбира се, производната на този лагранжиан относно b, след като решим всичко това, единственият член, който остава, беше ламбда. Това е много интересно, но определено не е напълно вярно. Това пренебрегва факта, че това L всъщност не е дефинирано като функция от b. Когато дефинираме лагранжиана, ние приемаме, че b е константа. Ако наистина искаш да разглеждаш това като функция, която включва b, начинът, по който трябва да го напишем – ще изтрия това тук – начинът, по който трябва да напишем този лагранжиан, е да кажем, че той е функция от h звезда, като самото h звезда зависи от b, и от s звезда, което също е функция от b, нали? След като започнем да разглеждаме b като променлива, а не като константа, трябва да кажем, че тази критична точка, h звезда, s звезда и ламбда звезда, зависи от стойността на b. По същия начин ламбда звезда също ще бъде функция от b. Тогава можем да разглеждаме като четвърта променлива, така че добяваме още една променлива към тази функция – стойността на самото b. И сега искаме да разберем каква е стойността на лагранжиана в критичната точка h звезда, s звезда, ламлда звезда като функция от b. Това може да е объркващо. Имаме тази функция, която реално зависи само от една стойност, нали? Тя зависи само от b, но един вид преминава през функция от четири променливи. И за да направим това ясно, това трябва да е равно на стойността на R като функция от h звезда и s звезда, и всяко от тях е функция от малко b. Значи този член ни казва какви са нашите приходи. Изчисляваме го, като максимизираме h и s за даден бюджет, а после изваждаме ламбда звезда. О, тук вероятно трябваше... няма да ми стигне мястото. Така че изваждаме – минус ламбда звезда за b от h звезда и s звезда. Но всяко от тези е функция и от малко b, минус малко b. Имаме тази дълга и сложна функция от много променливи. Тя е дефинирана чрез h звезда и s звезда, които самите също са в неявна зависимост, нали? Можем да кажем, че по определение това са стойностите, за които градиентът на L е равен на нула. Много е трудно да си представим какво означава това конкретно, но всички те са зависими от една и съща стойност – малко b. Сега, ако искаме да намерим производната на L, ако искаме да намерим производната на този лагранжиан относно малко b, което е единственото нещо, от което зависи лагранжиана. Просто за всички тези останали променливи ще използваме правилото за диференциране на функция на много променливи, и на този етап, ако не знаеш правилото за диференциране на функция на много променливи, аз имам видео по темата. Определено постави на пауза и гледай онова видео, увери се, че го разбираш. Сега тук просто ще приема, че знаеш правилото за диференциране на функции на много променливи. Сега тук ще намерим частните производни относно всичките четири аргумента. Да започнем с частната производна на L относно h звезда, и ще умножим това по производната на h звезда относно b. Това сигурно ти изглежда много объркано, как можем да знаем как се променя h звезда, когато се променя b? Но не се тревожи за това. Ще видиш само след минутка, че ще се случи истинско чудо. После добавяме частната производна на L относно втората променлива, s звезда, относно това, което е втората ни променлива, умножено по производната на s звезда относно b. Виждаш, че е нужно да познаваш правилото за диференциране на функция на много променливи, нали? Иначе изглежда, че това е напълно необяснимо. Сега трябва да добавим частната производна на L относно това ламбда звезда, умножено по производната на ламбда звезда относно малко b. Накрая намираме частната производна на този лагранжиан относно малко b, което сега разглеждаме като променлива, нали? Вече не разглеждаме b като константа. Умножаваме го по – нещо малко глупаво – производната на b относно самото него. Ако сега си мислиш, че това е нещо ужасно за изчисляване, разбирам защо мислиш така. Трябва да знаеш производната на ламбда звезда относно b. Трябва да знаеш много добре как се променя това ламбда звезда, когато се променя b, и както казах, това е една неявна зависимост. Току-що казахме, че ламбда звезда, по определение, е решението на това уравнение за градиента. Някак се очаква да знаем как това се променя, когато променим с малко b ето тук. Но не е нужно да се тревожим за това, защото по определение h звезда, s звезда и ламбда звезда са стойностите, за които градиентът на L е равен на нула. Но, ако се замислиш за това – какво означава градиентът на L да е равен на нулевия вектор? Това означава, че когато намерим производната му относно първата променлива h звезда, това е равно на нула. Когато намерим производната относно втората променлива, това отново е равно на нула, и относно третата променлива, това пак ще е нула. По определение, h звезда, s звезда и ламбда звезда са стойностите, за които получаваме случая, в който като ги заместим в частна производна на лагранжиана относно някоя от тези променлива, ще получим нула. Значи изобщо няма защо да се тревожим за по-голямата част от това уравнение. Единствената част, която има значение, е частната производна на L относно b, което сега приемаме, че е променлива. умножено по – колко е db/db? Каква е скоростта на изменение на променливата относно самата нея? Тя е единица. Значи цялото това правило за диференциране на функция на много променливи се свежда до един-единствен множител, който изглежда безобиден, който е частната производна на L относно малко b. Тук има една много фина тънкост, понеже това изглежда очевидно. Казваме, че производната на L относно b е равна на производната на L относно b. Но може би трябва да използваме различен начин за записване. Защото тук, когато намираме производната, по същество, разглеждаме L като функция на една променлива. Не разглеждаме какво се случва, когато променяме свободно всичките четири променливи. Три от тях са фиксирани от b. Значи може би трябва да използвам различно означение. Мога да нарека това L звезда. L звезда е функция на една променлива, докато L e функция на много променливи. Това е функцията, в която можем свободно да променяме стойностите на h, s, ламда и b, когато ги въвеждаме. Ако се върна, за да видя нейното определение, което съм записал някъде, предполагам – ето го. Всъщност ще препиша това определение. Мисля, че ще ни е полезно. Ще препиша L, когато я разглеждаме като функция от четири променливи – на h, s, ламбда и b. Тя е равна на R, изчислено за h и s, минус ламбда, умножено по ограничителната функция В, изчислена за h и s, минус малко b. Ето това сега е това, което разглеждам, когато приемам малко b като променлива. Това е лагранжианът, когато разглеждаме всички тези четирите като свободни променливи, докато тук горе това е функция на една променлива, три от аргументите са фиксирани. Така че в крайна сметка това е просто функция от една променлива – b. Това е просто невероятно, че тази функция от една променлива, производната на това L, трябваше да напиша L звезда, относно b, в крайна сметка е равно на частната производна на L, на това L, когато всички променливи се изменят свободно, че тези трябва да са равни. Обикновено, в обичайния случай, всички тези членове по някакъв начин оказват влияние. Но специалното тук е, че по определение това L звезда, по специфичния начин, по който тези h звезда, s звезда и ламбда звезда са фиксирани, това е случаят, в който всички тези частни производни са нули. Това е много тънък момент, което намирам за много хитроумно, и така ни остава само да изчислим тази частна производна, която е съвсем проста, защото като погледнем тук долу и ако се запитаме коя е частната производна на L относно b – това R не съдържа b, така че то не ни интересува. Този член ето тук, неговата частна производна е минус 1, просто защото съдържа b, и това умножаваме по константата ламбда, така че това е равно на ламбда. Но ако имаме случая, когато ламбда е фиксирана като функция от малко b, тогава записваме ламбда звезда като функция от малко b, нали? Ако този начин на записване ти се струва малко объркващ, ще се съглася с теб. Но важната част тук е, това, което трябва да запомниш, е, че ние започнахме да разглеждаме b като променлива, и търсим h звезда, s звезда и ламбда звезда, които зависят от тази променлива. Направихме извода, че лагранжианът, изчислен в критичната точка, е равен на приходите, изчислени в същата тази критична точка. Останалите членове изчезват. Така че ако търсим производната на М звезда, максимизираща приходите, относно бюджета, колко ще се променят максималните приходи при една малка промяна на нашия бюджет, това е същото като да намерим производната на лагранжиана относно бюджета, когато го разглеждаме само за стойностите на h звезда, s звезда и ламбда звезда, които са критичните точки на лагранжиана. Всичко това много хубаво се сведе в крайна сметка до намирането на една проста частна производна, която ни дава връзката, която търсим.