Dużo spamu przedostaje się przez filtr na serwerze pocztowym. Uruchomiłem go stosunkowo prostą sztuczką, zaczynając od kilku wierszy (niewiarygodnie oczywistej) utraty wagi lub innego tekstu oszustwa u góry, a następnie większej części tekstu z dokumentacji programowej - lub, co najgorsze, tekst zeskrobany z Stack Exchange . W najlepszym przypadku Spamassassin uważa to za BAYES_50 i zdarza się, że pozostałe wiadomości są konstruowane na tyle ostrożnie, że nie trafiają w inne wyzwalacze. (Na przykład nagłówki są minimalne i poprawne.) Często dołączone fragmenty są wystarczająco ściśle dopasowane do moich uzasadnionych interesów, że ogólna wiadomość jest oceniana jako BAYES_00, ponieważ bardzo spamowe tokeny są po prostu przytłoczone przez soczyste samorodki rozwiązywania problemów sysadmin.
Górna część jest tak oczywiście spamem (i w rzeczywistości jest bardzo podobna do wcześniej otrzymanych i wyszkolonych jako wiadomości spamowe), że jestem zaskoczony, że się przedostaje - ale najwyraźniej tak jest. Wydaje się, że jest to osobne podanie, które uzyskało 25 (lub więcej) pierwszych linii wiadomości i ważyło, że bardzo rozwiąże problem. Czy jest na to sposób?
Kilka osób sugerowało pisanie niestandardowych wyrażeń regularnych. Nie chcę się w to angażować, ponieważ jest to ciągła przegrana bitwa. Tak postępowali ludzie, zanim bayesowskie sortowanie spamu znalazło szerokie zastosowanie, i ogólnie było okropne. Żaden człowiek nie nadąża . Nie jest to dużo bardziej skuteczne niż naciśnięcie klawisza usuwania dla każdej wiadomości spamowej i dużo więcej pracy z mojej strony.
Bayesowskie filtrowanie spamu działa. Działa nawet w przypadku tego spamu, jeśli podzielę część „ nad fałdą ” i po prostu przeanalizuję tę część, po usunięciu wabika / plew. Pytanie brzmi: jak mogę zmusić Spamassassin do zrobienia tego?