Mamy listę słów kluczowych powiązanych z listą dokumentów. Lista została utworzona z liczenia częstotliwości słów w tekście dokumentu. Próbujemy dodać wagę do słów kluczowych na podstawie tego, czy pojawiają się one w nazwie dokumentu, czy nie. Na przykład, gdybyśmy mieli dokument o nazwie Agency_Solutions.doc, słowo kluczowe agencysortowałoby się wyżej na liście niż telephone.
Sprawę komplikuje fakt, każdy dokument ma albo the, a, anjak to top słów kluczowych, na podstawie morfologii. Oczywiście wszystko, co należy wykluczyć; Utworzyłem VLOOKUPkolumnę zawierającą 171 „wspólnych” słów do wykluczenia.
Oto mój problem: jeśli ja MATCH(WORD,TITLE,0), Agencynie równa się Agency_Solutions(lub Agency Solutions, użyłem SUBSTITUTEdo stworzenia „czystych” wersje wszystkich tytułów) i nie dostać ważona. Jeśli SEARCH(WORD,TITLE)ważę, abo apojawia się w Agency_Solutions. FINDzwróci identyczne wyniki SEARCHw tym przypadku. Skała. Trudne miejsce
Próbowałem kilku iteracji rzeczy, ale nigdy nie otrzymuję wyników identyfikujących słowo kluczowe jako samodzielny podciąg w nazwie dokumentu. Jakieś pomysły?
EDYCJA: Oto niektóre dane
Lista wykluczeń (wklej do kolumny A)
a
an
is
the
what
when
who
Dokument, słowo kluczowe, liczba (Cols B, C i D)
Keyboard_and_mouse_problems.txt the 15
Keyboard_and_mouse_problems.txt an 15
Keyboard_and_mouse_problems.txt a 14
Keyboard_and_mouse_problems.txt when 12
Keyboard_and_mouse_problems.txt system 8
Keyboard_and_mouse_problems.txt keyboard 8
Keyboard_and_mouse_problems.txt mouse 8
Keyboard_and_mouse_problems.txt when 9
Keyboard_and_mouse_problems.txt what 9
Keyboard_and_mouse_problems.txt who 8
Keyboard_and_mouse_problems.txt is 8
Keyboard_and_mouse_problems.txt phone 6
Keyboard_and_mouse_problems.txt help 6
Keyboard_and_mouse_problems.txt desk 5
Keyboard_and_mouse_problems.txt cable 4
Keyboard_and_mouse_problems.txt jack 4
Agency_Solutions.txt X 2
Agency_Solutions.txt c 1
Agency_Solutions.txt on 1
Następnie moje formuły:
Col E =IFERROR(VLOOKUP(C2,$A$2:$A$225,1,0),"notFound") Is this in the exclusion list?
Col F =IFERROR(VLOOKUP(C2,$A$2:$A$225,1,0),"") Exclude this word
Col G =IF(F2=C2,0,C2) Include this word
Col H =IF(ISNUMBER(SEARCH(C2,B2)),100,0) Title Weight
Col I =IF(G2=0,0,D2+H2) Weighted Keywords
Col J =IF(AND(H2=100,G2=0),"BAD","OK") OK or Bad calculations