Chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej oparty na wiadomościach

Mam ten poboczny projekt, w którym indeksuję lokalne serwisy informacyjne w moim kraju i chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej. Omówiłem już część projektu dotyczącą wyszukiwania informacji. Mój plan to zrobić:

Ekstrakcja tematu bez nadzoru.
Wykrywanie bliskich duplikatów.
Nadzorowana klasyfikacja i poziom incydentów (przestępczość / polityka - wysoka / średnia / niska).

Będę używać Pythona i Sklearn i już zbadałem algorytmy, których mogę użyć do tych zadań. Wydaje mi się, że 2. może mi podnieść współczynnik trafności historii: im więcej artykułów opublikuje się na temat historii lub tematu, tym bardziej będzie on odpowiedni na ten dzień.

Kolejnym krokiem jest zbudowanie miesięcznego, tygodniowego i dziennego indeksu (ogólnokrajowego i według miast) w oparciu o funkcje, które posiadam, i jestem trochę zagubiony, ponieważ „wrażliwość na niestabilność” może wzrosnąć z czasem. Chodzi mi o to, że wskaźnik z incydentu z poważną niestabilnością w ubiegłym roku może być mniejszy niż wskaźnik na ten rok. Również, jeśli chcesz użyć stałej skali 0-100 lub nie.

Później chciałbym móc na podstawie tego przewidzieć incydenty, np. Czy kolejność wydarzeń w ostatnich tygodniach prowadzi do poważnego incydentu. Ale na razie będę zadowolony z uruchomienia klasyfikacji i zbudowania modelu indeksu.

Byłbym wdzięczny za każdy wskaźnik do artykułu, odpowiednie odczyty lub przemyślenia. Dzięki.

PD: Przepraszam, jeśli pytanie tu nie należy.

AKTUALIZACJA : Jeszcze nie „udało mi się”, ale ostatnio pojawiła się wiadomość o grupie naukowców pracujących w systemie do przewidywania wydarzeń za pomocą archiwów wiadomości i wydała odpowiedni artykuł „ Wydobywanie Internetu w celu przewidywania przyszłych wydarzeń” (PDF ).

machine-learning classification text-mining

— Rolando Max
źródło

Jeśli chodzi o część techniczną (narzędzia), poleciłbym dwie książki jako dobry punkt widzenia zarówno z O'Reiley: Collective Intelligence (z kodem Python), Machine Learning (z kodem R) ... przechwytują tematy związane z twoim. Następnym krokiem może być strona Manning ... W części metodologicznej poleciłbym grupę Semantic Web na LinkedIn.

— Radu Marius Florin,

Bardzo podobne do tego pytania. Informuj nas na bieżąco !!

— entropia

Rozważ różnice w wyniku GINI.

Jest znormalizowany, a jego wyniki wahają się od 0 do 1.

EDYTOWAĆ:

Dlaczego GINI jest „fajny” lub przynajmniej potencjalnie odpowiedni:

Jest to miara nierówności lub nierówności. Jest on stosowany jako miara wolna od skali do scharakteryzowania heterogeniczności sieci pozbawionych skali, w tym sieci nieskończonych i losowych. Jest przydatny w budowaniu drzew CART, ponieważ jest miarą siły podziału określonego podziału danych.

Ze względu na jego zasięg:

jest mniej błędów zaokrągleń. Przedziały dalekie od 1,0 mają tendencję do problemów numerycznych.
jest czytelny dla człowieka i bardziej dostępny dla człowieka. Ludzie mają bardziej konkretne pojęcie o przedmiotach niż o miliardach.

Ponieważ jest znormalizowany:

porównania wyników są znaczące, 0,9 w jednym kraju oznacza ten sam poziom względnej nierównomierności jak 0,9 w innym kraju.
Jest on znormalizowany względem krzywej Lorenza w celu uzyskania doskonałej jednorodności, dlatego wartości są odpowiednimi wskaźnikami związku rozkładu interesujących wartości z krzywą Lorenza.

Bibliografia:

— EngrStudent - Przywróć Monikę
źródło

Witamy na stronie, @EngrStudent. Czy mógłbyś powiedzieć coś więcej o współczynniku GINI i dlaczego jest to właściwa odpowiedź? Ponieważ jesteś tutaj nowy i zaczynasz coś pisać, możesz przeczytać nasze FAQ , które zawiera wiele informacji o stronie.

— gung - Przywróć Monikę