Mam cztery zmienne numeryczne. Wszystkie są miernikami jakości gleby. Im wyższa zmienna, tym wyższa jakość. Zasięg wszystkich z nich jest inny:
Var1 od 1 do 10
Var2 od 1000 do 2000
Var3 od 150 do 300
Var4 od 0 do 5
Muszę połączyć cztery zmienne w jeden wynik jakości gleby, który z powodzeniem uporządkuje porządek.
Mój pomysł jest bardzo prosty. Standaryzuj wszystkie cztery zmienne, zsumuj je, a cokolwiek otrzymasz, to wynik, który powinien uporządkować rangę. Czy widzisz jakiś problem z zastosowaniem tego podejścia? Czy jest jakieś inne (lepsze) podejście, które poleciłbyś?
Dzięki
Edytować:
Dzięki chłopaki. Dużo dyskusji dotyczyło „wiedzy fachowej w dziedzinie” ... Sprawy rolnicze ... Podczas gdy spodziewałem się więcej statystyk. Jeśli chodzi o technikę, której będę używał ... Prawdopodobnie będzie to proste podsumowanie z-score + regresja logistyczna jako eksperyment. Ponieważ ogromna większość próbek ma słabą jakość 90%, zamierzam połączyć 3 kategorie jakości w jedną i zasadniczo mieć problem binarny (pewna różnica vs brak jakości). Zabijam dwa ptaki jednym kamieniem. Zwiększam swoją próbkę pod względem częstotliwości zdarzeń i korzystam z ekspertów, zachęcając ich do sklasyfikowania moich próbek. Próbki sklasyfikowane przez ekspertów zostaną następnie wykorzystane do dopasowania modelu log-reg, aby zmaksymalizować poziom zgodności / niezgodności z ekspertami… Jak to brzmi dla ciebie?