Dane sentymentalne dla Emoji

Do eksperymentów chcielibyśmy użyć Emoji osadzonego w wielu tweetach jako podstawowych danych o prawdzie / treningu do prostej ilościowej analizy wrażliwości. Tweety są zwykle zbyt nieustrukturyzowane, aby NLP działało dobrze.

W każdym razie w Unicode 6.0 jest 722 Emoji, a prawdopodobnie kolejne 250 zostanie dodanych w Unicode 7.0.

Czy istnieje baza danych (jak np. SentiWordNet), która zawiera adnotacje o nich?

(Zauważ, że SentiWordNet również dopuszcza niejednoznaczne znaczenia. Rozważ np. Zabawne , co nie jest po prostu pozytywne: „to smakuje zabawnie” prawdopodobnie nie jest pozytywne ... to samo ;-)na przykład. Ale nie sądzę, że jest to trudniejsze dla Emoji niż dla zwykłych słów ...)

Ponadto, jeśli masz doświadczenie w stosowaniu ich do analizy nastrojów, chętnie się o tym dowiemy.

machine-learning classification parsing

— Erich Schubert
źródło

Nie wierz, że coś takiego istnieje obecnie, ale bardzo by mi się podobało, gdybyś połączył coś do tego!

— indico

Erich Schubert, szukam dokładnie tego samego! Czy miałeś szansę znaleźć przydatne zasoby?

— powiedział mehrabi

Odpowiedzi:

W sumie 972 emoji nie jest tak duże, że nie można ich ręcznie opisać, ale wątpię, czy będą działać jako dobra podstawowa prawda. Źródła takie jak Twitter są pełne ironii, sarkazmu i innych trudnych ustawień, w których symbole emocjonalne (takie jak emoji lub emotikony) oznaczają coś innego niż normalna interpretacja. Na przykład ktoś może napisać „xxx oszukał swoich klientów, a teraz sami się oszukują! Ha ha ha!: D”. Jest to zdecydowanie negatywny komentarz, ale autor cieszy się, że firma xxx ma kłopoty, a tym samym dodaje pozytywną emotikon. Te przypadki nie są tak częste, ale zdecydowanie nie są odpowiednie dla prawdziwej prawdy.

Znacznie bardziej powszechnym podejściem jest użycie emotikonu jako zarodka do zbierania rzeczywistego zestawu danych . Na przykład w tym artykule autorzy używają emotikonów i znaczników skrótu emocjonalnego do przechwytywania leksykonu słów przydatnych do dalszej klasyfikacji.

— przyjaciel
źródło

Właściwie nie zgadzam się. Ponieważ autor lubi, że mają kłopoty, jest to pozytywny sentyment. To negatywny komentarz do firmy, ale mimo to pozytywny sentyment autora. W tym prostszym scenariuszu (nie mówię, że jest to pełny cel) przewidywanie, które emotikony użytkownik doda do swojego postu, wydaje mi się rozsądnym zadaniem. W rzeczywistości możesz skonstruować wiele przypadków, w których emoji będzie niezbędne. Rozważ „Got f_cked :-)”, a nie „Got f_cked. :-(”

— Erich Schubert

Jeśli próbujesz oszacować emocje danej osoby w przeciwieństwie do jej stosunku do tematu, tak, ten przykład nie działa. Ale jest wiele innych. Sarkazm jest częstym przypadkiem. Rozważ zdanie „och tak, jesteś prawdziwym„ mistrzem ”;)”. Człowiek może wychwycić negatywny kontekst, ale pozytywna emotikon będzie wskazywać na pozytywne emocje. Ale tak naprawdę tego nie rozumiem: czy chcesz wyodrębnić subiektywne informacje z tweetów czy tylko przewidzieć możliwe emoji? Choć brzmią podobnie, drugie zadanie nie dotyczy analizy nastrojów. Przynajmniej nie bezpośrednio.

— zaprzyjaźnij się

„Mrugnięcie” buźki zwykle nie jest uważane za „pozytywne”, ale „ironiczne” ... dlatego dobry słownik taki jak SentiWordNet ma sens. Jeśli spojrzysz zabawnie w SentiWordNet, ma też więcej niż jedno znaczenie! sentiwordnet.isti.cnr.it/search.php?q=funny (Nie jest trywialne ręczne dodawanie adnotacji, ponieważ nie jest tak proste jak dodatnie / ujemne; ale powinieneś zrobić zwykłą weryfikację umowy między podmiotami itp.)

— Erich Schubert,

Teraz widzę twój pomysł. Ale tak naprawdę nie sądzę, że to zadziała, tylko dlatego, że (większość) emoji nie brzmią dla mnie jak dobre predyktory, a ty wyraźnie nie chcesz używać innych funkcji. W każdym razie jest to tylko opinia oparta na moim doświadczeniu, tylko dane mogą dać prawdziwe odpowiedzi. Powodzenia!

— zaprzyjaźnij się

Kto powiedział, że nie chcę korzystać z innych funkcji? Ale dla nich widziałem bazy danych ...

— Erich Schubert,

Uznałem, że to repozytorium Github jest przydatne (dobry początek): https://github.com/wooorm/emoji-emotion Lista emoji ocenionych na wartościowość z liczbą całkowitą od minus pięć (ujemna) do plus pięć (dodatnia).

Zobacz listę obsługiwanych emotikonów Unicode: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Zauważ, że niektóre emoji otrzymują prawdopodobnie mylące polaryzacje, takie jak stuck_out_tongue_closed_eyes (0), ponieważ są używane zarówno do emocji pozytywnych, jak i negatywnych.

— Tal Weiss
źródło