Interpretacja różnicy między rozkładem logarytmicznym a rozkładem mocy (rozkład stopni sieciowych)

22

Po pierwsze, nie jestem statystykiem. Jednak robiłem analizę sieci statystycznej dla mojego doktoratu.

W ramach analizy sieci przedstawiłem komplementarną funkcję skumulowanego rozkładu (CCDF) stopni sieciowych. Odkryłem, że w przeciwieństwie do konwencjonalnych dystrybucji sieciowych (np. WWW), dystrybucję najlepiej dopasowuje rozkład logarytmiczny. Próbowałem dopasować ją do prawa mocy i używając skryptów Matlaba autorstwa Clauset et al. Odkryłem, że ogon krzywej podąża za prawem mocy z odcięciem.

wprowadź opis zdjęcia tutaj

Linia przerywana oznacza dopasowanie prawa mocy. Fioletowa linia reprezentuje log-normalne dopasowanie. Zielona linia reprezentuje dopasowanie wykładnicze.

Próbuję zrozumieć, co to wszystko znaczy? Przeczytałem ten artykuł Newmana, który lekko porusza ten temat: http://arxiv.org/abs/cond-mat/0412004

Poniżej moje dzikie przypuszczenie:

Jeśli rozkład stopni jest zgodny z rozkładem prawa mocy, rozumiem, że oznacza to liniowe preferencyjne przywiązanie w rozkładzie łączy i stopniu sieci (bogaty uzyskuje bogatszy efekt lub proces Yulesa).

Czy mam rację mówiąc, że przy logarytmicznym rozkładzie, którego doświadczam, na początku łuku występuje subliniowe przywiązanie preferencyjne i staje się bardziej liniowe w kierunku ogona, gdzie można je dopasować za pomocą prawa mocy?

Ponadto, ponieważ rozkład logarytmiczno-normalny występuje, gdy logarytm zmiennej losowej (powiedzmy X) jest normalnie rozkładany, oznacza to, że w logarytmicznym rozkładzie normalnym jest więcej małych wartości X i mniej dużych wartości X niż czy zmienna losowa występująca po rozkładzie prawa mocy miałaby?

Co ważniejsze, jeśli chodzi o rozkład stopnia sieci, czy normalne logarytmiczne przywiązanie preferencyjne nadal sugeruje sieć pozbawioną skali? Instynkt podpowiada mi, że skoro ogon krzywej może być dopasowany przez prawo mocy, sieć może nadal zostać uznana za wykazującą cechy pozbawione skali.

— Mikrofon
źródło

2

Mike, myślę, że byłoby bardzo interesujące zobaczyć fabułę, na którą patrzysz. Czy mógłbyś edytować swoją odpowiedź, aby ją uwzględnić? Od razu zauważyłem, że implikacje dotyczące praw władzy i preferencyjnego przywiązania są odwrotne. Podczas gdy (niektóre) preferencyjne schematy przywiązania generują rozkłady stopni mocy prawa, odwrotna implikacja nie jest prawdziwa (tj. Nie jest to jedyny sposób). Pomocne mogą być również informacje na temat rodzaju oglądanej sieci. Twoje zdrowie.

— kardynał

1

Mam na myśli to, że preferencyjne przywiązanie to po prostu inna nazwa efektu „bogaty staje się bogatszy”, prawda? Jeśli tak jest, to liniowy (stopniowy) rozkład sieci jest tylko jednym z wielu rozkładów stopni, które mogą wykazywać preferencyjne przywiązanie? Innymi słowy, dopóki gradient krzywej jest ujemny na wykresie log-log, to istnieją pewne elementy preferencyjnego przywiązania, niezależnie od rozkładu? Zatem różnica między rozkładem logarytmiczno-normalnym a rozkładem mocy-prawa nie polega tak bardzo na tym, czy istnieje preferencyjne przywiązanie, ale na jego proporcjonalności.

— Mike

1

Zauważ, że przywiązanie preferencyjne jest procesem (stochastycznym), który generuje rozkłady stopnia mocy prawa dla sieci. Nachylenie linii zmieni się zgodnie z wykładnikiem skalowania dla prawa mocy, ale w przypadku logarytmicznego wykres nie będzie liniowy, nawet w ogonie. Gradient rozkładu przeżycia będzie zawsze ujemny, bez względu na efekt. (Dlaczego?)

— kardynał

To bardzo dobra edycja. Dzięki, Michael! Nietypowe dopasowanie do pokazanego regionu jest dość niezwykłe. Wygląda na to, że trochę się psuje.

— kardynał

Jeszcze raz dziękuję za odpowiedź kardynał. Czy zgadzasz się, że preferencyjne przywiązanie nadal działa w sieci, którą obserwuję? Kolejne pytanie, które nasuwa pytanie, dotyczy tego, czy sieć nie jest skalowana. Jeśli preferencyjne przywiązanie działa w sieci i dopóki sieć przyjmuje nowych członków, sieć można sklasyfikować jako pozbawioną skali, nawet jeśli rozkład stopnia sieci nie jest liniowy. Nie jestem tego pewien.

— Mike

12

Myślę, że pomocne będzie podzielenie pytania na dwie części:

Jaka jest funkcjonalna forma twojego rozkładu empirycznego? i
Co ta funkcjonalna forma implikuje w procesie generowania w twojej sieci?

$p>0.1$ $x\geq15$ $p<0.1$ oznacza w zasadzie robienie tego samego. Czy możesz odrzucić ten model jako proces generowania posiadanych danych rozkładu stopni? Jeśli nie, możesz umieścić log-normal w kategorii „wiarygodne”.

$x\gg1$

Drugie pytanie jest trudniejsze. Jak zauważyli niektórzy w powyższych komentarzach, istnieje wiele mechanizmów, które wytwarzają rozkłady mocy i preferencyjne przywiązanie (we wszystkich jego odmianach i chwale) jest tylko jednym z wielu. Zatem obserwowanie rozkładu prawa mocy w twoich danych (nawet prawdziwym, który przechodzi niezbędne testy statystyczne) nie jest wystarczającym dowodem, aby stwierdzić, że proces generowania był preferencyjnym przywiązaniem. Lub, bardziej ogólnie, jeśli masz mechanizm A, który wytwarza pewien wzorzec X w danych (np. Rozkład logarytmiczno-normalny w sieci). Obserwacja wzorca X w twoich danych nie jest dowodem na to, że twoje dane zostały wygenerowane przez mechanizm A. Dane są zgodne z A, ale to nie znaczy, że A jest właściwym mechanizmem.

Aby naprawdę pokazać, że odpowiedź A jest odpowiedzią, musisz bezpośrednio przetestować jej założenia mechanistyczne i wykazać, że dotyczą one również twojego systemu, a najlepiej także pokazać, że inne prognozy dotyczące mechanizmu również przechowują dane. Naprawdę świetny przykład części dotyczącej testowania założeń został wykonany przez Sid Rednera (patrz ryc. 4 tego artykułu ), w którym wykazał, że w przypadku sieci cytowań, liniowe preferencyjne przywiązanie faktycznie obowiązuje w danych.

Wreszcie termin „sieć bez skalowania” jest przeciążony w literaturze, dlatego zdecydowanie zalecam unikanie go. Ludzie używają go w odniesieniu do sieci z rozkładem stopni mocy prawa ido sieci wyhodowanych przez (liniowe) preferencyjne przywiązanie. Ale jak właśnie wyjaśniliśmy, te dwie rzeczy nie są takie same, więc użycie jednego terminu w odniesieniu do obu jest po prostu mylące. W twoim przypadku rozkład log-normal jest całkowicie niespójny z klasycznym mechanizmem liniowego preferencyjnego przyłączania, więc jeśli zdecydujesz, że log-normal jest odpowiedzią na pytanie 1 (w mojej odpowiedzi), oznacza to, że twoja sieć nie jest „ w tym sensie dowolna skala. W tym przypadku fakt, że górny ogon jest „w porządku” jako rozkład mocy, byłby bez znaczenia, ponieważ zawsze istnieje pewna część górnego ogona dowolnego rozkładu empirycznego, który przejdzie ten test (i przejdzie, ponieważ test traci moc, gdy nie ma zbyt wielu danych, co dzieje się w skrajnym górnym ogonie).

— aaronclauset
źródło

czy pomieszałeś <i> podczas mówienia o wartości p dla dopasowania górnego ogona?

— David Nathan

Warunki wartości p w tym komentarzu są prawidłowe. Wartości p, o których tu mowa, pochodzą z sekcji 4.1 arxiv.org/abs/0706.1062 , gdzie duże wartości oznaczają dobre dopasowanie, a małe wartości - złe dopasowanie. Zobacz w szczególności przypis 8 na dole strony 17.

— Jonathan S.

3

Takie fajne pytanie. Prowadzę powiązaną rozmowę na ten temat z pytaniem, które zadałem w innym miejscu na CrossValidated. Tam zapytałem, czy rozkład gamma jest dobrym rozkładem do zastosowania w symulacji sieci społecznościowej, w której prawdopodobieństwo powiązania jest endogeniczne dla jakiejś ciągłej „popularności” charakterystycznej dla węzłów. @NickCox zasugerował, żebym zamiast tego używał rozkładu logarytmicznego. Odpowiedziałem, że rozkład logarytmiczny ma pewne teoretyczne uzasadnienie jako podstawowy proces opisujący popularność, ponieważ popularność można interpretować jako iloczyn wielu zmiennych losowych o dodatniej wartości (np. Bogactwa, dochodu, wzrostu, sprawności seksualnej, sprawności walki, iloraz inteligencji). Ma to dla mnie więcej sensu niż teoretyczne uzasadnienie prawa potęgi i jest ono sprzeczne z danymi empirycznymi, które sugerują, że kształt prawa potęgi jest zbyt mało elastyczny, aby wyjaśnić zróżnicowanie międzysieciowe rozkładu stopni. Lognormal, dla porównania ma bardzo elastyczny kształt, a tryb zbliża się do zera dla dużej wariancji. Ponadto sensowne jest, że skośność rozkładu stopni powinna wzrastać wraz z wariancją ze względu na preferencyjny efekt przywiązania.

Podsumowując, uważam, że rozkład logarytmiczno-normalny najlepiej pasuje do twoich danych, ponieważ rozkład lognormalny opisuje proces leżący u podstaw tworzenia rozkładu stopni lepiej niż prawo mocy lub rozkłady wykładnicze.

— Zuchwała równowaga
źródło

2

Wchodzę na tę stronę po zliczeniu moich rozkładów bąbelków i użyciu prawa mocy dla danych lepkości.

Przejrzenie przykładowych zestawów danych w dokumencie prawa energetycznego autorstwa Clauset i in. przedstawili prawdziwe horrory zestawów danych, dalekie od zestawów danych prawa mocy, aby poprzeć ich argumenty. Tylko ze zdrowego rozsądku z pewnością nie próbowałbym dopasować funkcji prawa mocy do całego zakresu danych dla większości z nich. Jednak zachowanie samoskalujące w świecie rzeczywistym może być prawidłowe w części obserwowanego systemu, ale może ulec awarii, gdy niektóre właściwości systemu osiągną granicę fizyczną lub funkcjonalną.

Poniższe bardzo czytelne artykuły odnoszą się do dopasowania krzywej wzrostu dla ekologów, z dobrą dyskusją na temat prawa mocy i powiązanych rozkładów, w oparciu o oparte na obserwacjach modele zachowania populacji.

Autor jest znacznie bardziej pragmatyczny niż Clauset i in. Cytując: „... jeśli celem jest tylko najlepsze dopasowanie, a skale poza oknem skali zestawu danych nie są omawiane, każdy model może wystarczyć, biorąc pod uwagę, że daje dobre dopasowanie i nie wytwarza żadnych maksimów ani minimów w badanym oknie skali . ” „Często zmuszony jest dopasować ten sam model, ponieważ inni badacze zastosowali do swoich danych, aby móc porównywać wartości parametrów, ale można to zrobić oprócz zastosowania lepszego modelu lub modeli o lepszych oczekiwaniach kształty lub oba ”. Spokojne słowa.

Tjørve, E. (2003). Kształty i funkcje krzywych obszarowo-gatunkowych: przegląd możliwych modeli. Journal of Biogeography, 30 (6), 827-835.

Tjørve, E. (2009). Kształty i funkcje krzywych obszarowo-gatunkowych (ii): Przegląd nowych modeli i parametryzacji. Journal of Biogeography, 36 (8), 1435-1445.

— TerryW
źródło

1

Powyższe wyniki pokazują, że rozkład stopni może być zarówno prawem mocy, jak i logarytmem normalnym, co może sugerować, że w badanej sieci współistnieją małe własności o swobodnym zasięgu i skali. Aby sprawdzić, czy sieć jest wolna od skali (ze stałym parametrem skalowania) z preferencyjnym podłączeniem, często wymagany jest projekt eksperymentalny. We wspomnianym wyżej artykule Sid Rednera tempo wzrostu służy zrozumieniu mechanizmu wzrostu. Podczas gdy Gallos, Song i Makse używają pól do pokrycia sieci i dochodzą do wniosku, że rozkład stopnia sieci jest zgodny z rozkładem prawa mocy, jeśli NB (lB) ~ lB ^ -dB. Lub badanie związków między współczynnikiem klastra a stopniem (czy związek spełnia prawo mocy). W przeciwnym razie omawia się, że sieci hierachiczne mają właściwości zarówno małego świata, jak i wolnej skali. (pisanie bez skali fraktalnej,

— liandexinshi
źródło