Wybór wag ścieżki w modelach koncepcyjnych SEM dla bliźniąt jednojajowych i braterskich z wykorzystaniem openMx

Przeglądam pakiet R OpenMx do analizy epidemiologii genetycznej, aby dowiedzieć się, jak określać i dopasowywać modele SEM. Jestem w tym nowy, więc znoś mnie. Postępuję zgodnie z przykładem na stronie 59 Podręcznika użytkownika OpenMx . Tutaj rysują następujący model koncepcyjny:

Modele SEM dla bliźniąt jednojajowych i braterskich

Określając ścieżki, ustawiają ciężar utajonego „jednego” węzła dla manifestowanych węzłów bmi „T1” i „T2” na 0,6, ponieważ:

Główne ścieżki zainteresowania to ścieżki od każdej z ukrytych zmiennych do odpowiedniej obserwowanej zmiennej. Są one również szacowane (dlatego wszystkie są uwolnione), uzyskują wartość początkową 0,6 i odpowiednie etykiety.

# path coefficients for twin 1
mxPath(
  from=c("A1","C1","E1"),
  to="bmi1",
  arrows=1,
  free=TRUE,
  values=0.6,
  label=c("a","c","e")
),

# path coefficients for twin 2
mxPath(
  from=c("A2","C2","E2"),
  to="bmi2",
  arrows=1,
  free=TRUE,
  values=0.6,
  label=c("a","c","e")
),

Wartość 0,6 pochodzi z szacunkowej kowariancji bmi1i bmi2(ściśle mono- zygotycznych par bliźniaczych). Mam dwa pytania:

Kiedy mówią, że ścieżka ma wartość „początkową” wynoszącą 0,6, to przypomina to ustawianie numerycznej procedury integracji z wartościami początkowymi, jak w przypadku szacowania GLM?
Dlaczego ta wartość jest szacowana ściśle od bliźniąt jednozębnych?

— AdamO
źródło

Aby odpowiedzieć na 2 punkty:

1) Tak, dokładnie - wartość początkowa po prostu określa, gdzie algorytm rozpocznie proces optymalizacji. Większość pakietów oprogramowania faktycznie domyślnie określa własną wartość początkową, a użytkownik musi spróbować wprowadzić inne wartości tylko wtedy, gdy wystąpią problemy podczas szacowania. Z mojego doświadczenia wynika, że najbardziej prawdopodobne wartości początkowe wystarczą i nie zmienią ostatecznego modelu, na którym zbiega się algorytm.

2) Wartość 0,6 jest wartością początkową nie dla punktu przecięcia T1 i T2 (ścieżka między „jednym” a T1 i T2), ale jest to wartość początkowa dla ładunków czynnikowych łączących każdą ukrytą zmienną (A, C, E ) do ich wskaźnika T1 lub T2. Wskazuje na to fakt, że ścieżka idzie from=c("A1","C1","E1"), to="bmi1"w pierwszym przypadku, a from=c("A2","C2","E2"), to="bmi2"w drugim przypadku.

Jeśli chodzi o konkretną wartość „0.6”: nie mogłem znaleźć w dokumentacji, w której wspominają o przyjęciu tej wartości w oparciu o podgrupę monozygotycznych bliźniaków; w rzeczywistości tych oszacowań parametrów (ładunków czynnikowych dla 3 zmiennych utajonych) nie można bezpośrednio obliczyć z próbki, ponieważ z definicji te ukryte zmienne są nieobserwowane (są utajone). Jak wspomniałem w punkcie 1, wybór pomiędzy dwiema prawdopodobnymi wartościami rzadko wpływa na oszacowanie parametrów modelu zbieżnego, więc domyślam się, że po prostu wybrali jedną z wielu wiarygodnych wartości dla tych ładunków czynnikowych jako wartości początkowe. To, czy ta wartość pochodzi z szacowanej kowariancji między bmi1 i bmi2 w podgrupie monozygotycznej-bliźniaczej, powinno być nieistotne, ponieważ wszelkie prawdopodobne wartości początkowe powinny doprowadzić algorytm do zbieżności na tych samych końcowych wartościach, być może z pewnymi różnicami w czasie obliczeń. (Moja rada, aby się przekonać: wypróbuj! Wypróbuj kilka wartości początkowych i porównaj oszacowania parametrów modeli konwergentnych).

Jako ogólną uwagę zaznaczę, że wybór wartości początkowych dla każdego oszacowania parametru staje się BARDZO ważny, jeśli argument freejest ustawiony FALSE, ponieważ wartość początkowa skutecznie stanie się wartością oszacowania parametru w ostatecznym modelu (nie będzie być oszacowane; jest ustalane przed oszacowaniem).

— Patrick Coulombe
źródło