Po uproszczeniu problemu za pomocą rutynowych procedur można go rozwiązać, przekształcając go w program podwójnej minimalizacji, który ma dobrze znaną odpowiedź z podstawowym dowodem. Być może ta dualizacja jest „subtelnym krokiem”, o którym mowa w pytaniu. Nierówność można również ustalić w sposób czysto mechaniczny poprzez maksymalizację|Ti| przez mnożniki Lagrange'a.
Najpierw jednak oferuję bardziej eleganckie rozwiązanie oparte na geometrii najmniejszych kwadratów. Nie wymaga wstępnego uproszczenia i jest niemal natychmiastowy, zapewniając bezpośrednią intuicję w wyniku. Jak sugerowano w pytaniu, problem sprowadza się do nierówności Cauchy'ego-Schwarza.
Rozwiązanie geometryczne
Rozważać x=(X1,X2,…,Xn) jako n-wymiarowy wektor w przestrzeni euklidesowej ze zwykłym iloczynem kropkowym. Pozwolićy=(0,0,…,0,1,0,…,0) być ith wektor podstawowy i 1=(1,1,…,1). pisaćx^ i y^ dla rzutów ortogonalnych z x i y do ortogonalnego uzupełnienia 1. (W terminologii statystycznej są to reszty w odniesieniu do średnich.) Następnie, odXi−X¯=x^⋅y i S=||x^||/n−1−−−−−√,
|Ti|=n−1−−−−−√|x^⋅y|||x^||=n−1−−−−−√|x^⋅y^|||x^||
jest składnikiem y^ w x^kierunek. Według Cauchy-Schwarz maksymalizuje się dokładnie, kiedyx^ jest równoległy do y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n, dla którego
Ti=±n−1−−−−−√y^⋅y^||y^||=±n−1−−−−−√||y^||=±n−1n−−√,
CO BYŁO DO OKAZANIA.
Nawiasem mówiąc, to rozwiązanie zapewnia wyczerpującą charakterystykę wszystkich przypadków, w których |Ti| jest zmaksymalizowany: wszystkie są formą
x =σy^+ μ 1 = σ(−1,−1,…,−1,n−1,−1,−1,…,−1)+μ(1,1,…,1)
dla wszystkich prawdziwych μ,σ.
Ta analiza uogólnia się łatwo do przypadku, w którym {1}jest zastępowany przez dowolny zestaw regresorów. Najwyraźniej maksimumTi jest proporcjonalny do długości reszty y, ||y^||.
Uproszczenie
Ponieważ Ti jest niezmienny w przypadku zmian lokalizacji i skali, możemy założyć bez utraty ogólności, że Xi suma do zera, a ich kwadraty do n−1. To identyfikuje|Ti| z |Xi|, od S (średni kwadrat) to 1. Maksymalizacja jest równoznaczna z maksymalizacją|Ti|2=T2i=X2i. Przyjmowanie nie powoduje utraty ogólnościi=1, ponieważ, ponieważ Xi są wymienne.
Rozwiązanie dzięki podwójnemu sformułowaniu
Podwójnym problemem jest ustalenie wartości X21 i zapytaj, jakie wartości pozostałych Xj,j≠1są potrzebne, aby zminimalizować sumę kwadratów∑nj=1X2j jeśli się uwzględni ∑nj=1Xj=0. PonieważX1 jest podane, jest to problem minimalizacji ∑nj=2X2j jeśli się uwzględni ∑nj=2Xj=−X1.
Rozwiązanie można łatwo znaleźć na wiele sposobów. Jednym z najbardziej elementarnych jest pisanie
Xj=−X1n−1+εj, j=2,3,…,n
dla którego ∑nj=2εj=0. Rozszerzenie funkcji celu i wykorzystanie tej tożsamości sumowania do zera w celu jej uproszczenia daje
∑j=2nX2j=∑j=2n(−X1n−1+εj)2=∑(−X1n−1)2−2X1n−1∑εj+∑ε2j=Constant+∑ε2j,
od razu pokazuje unikalne rozwiązanie εj=0 dla wszystkich j. W przypadku tego rozwiązania
(n−1)S2=X21+(n−1)(−X1n−1)2=(1+1n−1)X21=nn−1X21
i
|Ti|=|X1|S=|X1|n(n−1)2X21−−−−−−−√=n−1n−−√,
QED .
Rozwiązanie za pomocą maszyn
Wróć do uproszczonego programu, od którego zaczęliśmy:
Maximize X21
z zastrzeżeniem
∑i=1nXi=0 and ∑i=1nX2i−(n−1)=0.
Metoda mnożników Lagrange'a (która jest prawie czysto mechaniczna i prosta) utożsamia nietrywialną liniową kombinację gradientów tych trzech funkcji do zera:
(0,0,…,0)=λ1D(X21)+λ2D(∑i=1nXi)+λ3D(∑i=1nX2i−(n−1)).
Te elementy po komponencie n równania są
0000=2λ1X1+==⋯=λ2λ2λ2+2λ3X1+2λ3X2+2λ3Xn.
Ostatni n−1 z nich implikuje również X2=X3=⋯=Xn=−λ2/(2λ3) lub λ2=λ3=0. (Możemy wykluczyć ten drugi przypadek, ponieważ wówczas implikuje pierwsze równanieλ1=0, trywializacja kombinacji liniowej.) Powstaje ograniczenie sumy do zera X1=−(n−1)X2. Ograniczenie sumy kwadratów zapewnia dwa rozwiązania
X1=±n−1n−−√; X2=X3=⋯=Xn=∓1n−−√.
Oboje ulegają
|Ti|=|X1|≤|±n−1n−−√|=n−1n−−√.