Szukam dobrej terminologii do opisania tego, co próbuję zrobić, aby ułatwić wyszukiwanie zasobów.
Powiedzmy, że mam dwa skupienia punktów A i B, każdy powiązany z dwiema wartościami, X i Y, i chcę zmierzyć „odległość” między A i B - tzn. Jak prawdopodobne jest, że próbkowano je z tego samego rozkładu (Mogę założyć, że rozkłady są normalne). Na przykład, jeśli X i Y są skorelowane w A, ale nie w B, rozkłady są różne.
Intuicyjnie dostałbym macierz kowariancji A, a następnie spojrzałem na to, jak prawdopodobne jest dopasowanie się tam każdego punktu B i odwrotnie (prawdopodobnie używając czegoś takiego jak odległość Mahalanobisa).
Ale to trochę „ad-hoc” i prawdopodobnie istnieje bardziej rygorystyczny sposób opisania tego (oczywiście w praktyce mam więcej niż dwa zestawy danych z więcej niż dwiema zmiennymi - próbuję ustalić, który z moich zestawów danych są wartościami odstającymi).
Dzięki!