Čo potrebujete vedieť o Bayesian Spam Filtering

by Heinz Tschabitscher

Zistite, ako štatistiky pomáhajú zachovať čistotu doručenej pošty

Bayesovské spamové filtre spočítajú pravdepodobnosť, že správa je spam založená na jej obsahu. Na rozdiel od jednoduchých filtrov založených na obsahu sa Bayesovská spamová filtrovanie učí z nevyžiadanej pošty a dobrej pošty, čo má za následok veľmi robustný, prispôsobivý a efektívny prístup proti spamu, ktorý najskôr vráti takmer žiadne falošné pozitíva.

Ako rozpoznávate nevyžiadanú poštu?

Premýšľajte o tom, ako zistíte spam . Rýchly pohľad je často dosť. Viete, ako vyzerá nevyžiadaná pošta a vy viete, aký dobrý pohľad vyzerá.

Pravdepodobnosť spamu vyzerá ako dobrá pošta je okolo ... nula.

Zhodnocovanie filtrov na základe obsahu sa neupravuje

Nebolo by skvelé, keby automatické filtre nevyžiadanej pošty fungovali taky?

Zaznamenávanie spamových filtrov založených na obsahu je práve to. Hľadajú slová a iné charakteristiky typické pre spam. Každému charakteristickému prvku sa priradí skóre a skóre spamu pre celú správu sa vypočíta z jednotlivých bodov. Niektoré scoringové filtre tiež hľadajú charakteristiky legitímnej pošty a znižujú konečné skóre správy.

Prístup k hodnoteniu filtrov funguje, ale má aj niekoľko nevýhod:

Zoznam charakteristík je zostavený zo spamu (a dobrej pošty), ktorý je k dispozícii inžinierom filtra. Ak chcete dobre pochopiť typický spam, ktorý by mohol mať každý, poštové zásielky sa musia zhromažďovať na stovkách e-mailových adries. Tým sa oslabuje účinnosť filtrov, a to najmä preto, že charakteristiky dobrej pošty budú pre každú osobu rôzne , ale toto sa neberie do úvahy.
Charakteristiky, ktoré sa hľadajú, sú viac-menej v kameňoch . Ak spameri vyvíjajú úsilie o prispôsobenie (a aby ich spam nevyzeral ako dobrý mail na filtre), filtrovanie musí byť vylepšené manuálne - ešte väčšie úsilie.
Skóre priradené každému slovu je pravdepodobne založené na správnom odhade, ale je stále ľubovoľné. Rovnako ako zoznam charakteristík, prispôsobuje sa ani zmenenému svetu nevyžiadanej pošty vo všeobecnosti, ani potrebám jednotlivých používateľov.

Bayesian Spam Filtre Tweak sami seba, lepšie a lepšie

Bayesovské spamové filtre sú tiež druhom hodnotenia filtrov založených na obsahu. Ich prístup odstraňuje problémy s jednoduchým zaznamenávaním spamových filtrov, a to tak radikálne. Keďže slabosť bodovacích filtrov je v ručne zostavovanom zozname charakteristík a ich skóre, tento zoznam je vylúčený.

Namiesto toho Bayesovské spamové filtre vytvárajú zoznam sami. V ideálnom prípade začnete s (veľkým) balíkom e-mailov, ktoré ste klasifikovali ako nevyžiadanú poštu a ďalšiu skupinu dobrých správ. Filtre sa pozerajú na obidva a analyzujú legitímnu poštu, ako aj spam, aby vypočítali pravdepodobnosť rôznych charakteristík, ktoré sa objavujú v nevyžiadanej pošte av dobrej pošte.

Ako Bayesovský spamový filter skúma e-mail

Vlastnosti, na ktoré sa Bayesovský spamový filter môže pozrieť, môže byť:

slová v tele správy, samozrejme, a
jeho hlavičky (napríklad odosielateľov a cesty správ ), ale tiež
iné aspekty, ako napríklad kód HTML / CSS (napríklad farby a iné formátovanie) alebo dokonca
slovné páry, frázy a
meta informácie (kde sa napríklad zobrazuje konkrétna fráza).

Ak sa napríklad slovo "kartézsky" nikdy nezobrazuje v spamoch, ale často v legitímnom e-maile, ktoré dostanete, pravdepodobnosť, že "kartézsky" označuje spam, je takmer nula. "Toner", na druhej strane, sa javí výlučne a často v nevyžiadanej forme. "Toner" má veľmi vysokú pravdepodobnosť, že sa nájde v spamoch, nie oveľa pod 1 (100%).

Keď príde nová správa, analyzuje sa Bayesovský spam filter a pravdepodobnosť úplného spamu sa vypočíta podľa jednotlivých charakteristík.

Predpokladajme, že správa obsahuje "kartézsky" a "toner". Z týchto slov samotných ešte nie je jasné, či máme spam alebo legitímnu poštu. Ostatné charakteristiky (dúfajme a s najväčšou pravdepodobnosťou) naznačujú pravdepodobnosť, že filter umožňuje klasifikovať správu ako spam alebo dobrú poštu.

Bayesovské spamové filtre sa môžu naučiť automaticky

Teraz, keď máme klasifikáciu, správa sa môže použiť na ďalší tréning filtra. V takomto prípade sa pravdepodobnosť "kartézskeho" označovania dobrej pošty zníži (ak sa zistí, že správa obsahujúca aj "kartézsky" a "toner" je spam), alebo pravdepodobnosť "tonera" označujúceho nevyžiadanú poštu sa musí prehodnotiť.

Pomocou tejto auto-adaptačnej techniky sa bayesovské filtre môžu učiť z vlastných i užívateľských rozhodnutí (ak manuálne opraví nesprávny odhad filtrov). Adaptabilita Bayesovského filtrovania tiež zabezpečuje, že sú pre jednotlivého e-mailového používateľa najefektívnejšie. Zatiaľ čo spam väčšiny ľudí môže mať podobné vlastnosti, legitímna pošta je charakteristicky odlišná pre všetkých.

Ako môžu spaméri dostať za Bayesovské filtre?

Vlastnosti legitímnej pošty sú rovnako dôležité pre proces filtrovania nevyžiadanej pošty ako spam. Ak sú filtre vycvičené špeciálne pre každého používateľa, spameri budú mať ešte ťažší čas pracovať okolo spamových filtrov všetkých (alebo dokonca väčšiny ľudí) a filtre sa dokážu prispôsobiť takmer všetkým, čo spameri skúsia.

Spameri sa postarajú len o dobre vyškolené bayesovské filtre, ak robia svoje spamové správy dokonale vyzerajúce ako obyčajná e-mailová adresa, ktorú môžu dostať všetci.

Spameri neposielajú obyčajné e-maily. Predpokladajme, že toto je preto, že tieto e-maily nefungujú ako nevyžiadaná pošta. Takže je pravdepodobné, že to nebudú robiť, keď obyčajné, nudné e-maily sú jediný spôsob, ako sa dostať mimo spamové filtre.

Ak spameri prepnú na väčšinu obyčajných e-mailov, v zozname doručených sa však znova zobrazí veľké množstvo nevyžiadanej pošty a e-maily sa môžu stať frustrujúce, ako to bolo v predbešských dňoch (alebo ešte horšie). Bude tiež zničiť trh pre väčšinu druhov nevyžiadanej pošty, a preto nebude trvať dlho.

Silné ukazovatele Môže to byť Bayesovský spamový filter Achilles. päta

Jedna výnimka môže byť vnímaná pre spamerov, aby si prešli cez bayeské filtre aj s ich obvyklým obsahom. Je to povaha bayesovskej štatistiky, že jedno slovo alebo charakteristika, ktorá sa veľmi často objavuje v dobrej pošte, môže byť taká významná, že akúkoľvek správu, ktorá vyzerá ako spam, môže byť hodnotená ako šunka filtrem.

Ak spameri nájdu spôsob, ako určiť vaše slová s dobrou správou pošty - pomocou výpisov vratky vo formáte HTML, aby ste zistili, ktoré správy ste napríklad otvorili, môžu zahrnúť jednu z nich do nevyžiadanej pošty a osloviť vás aj prostredníctvom dobre- vyškolený Bayesovský filter.

John Graham-Cumming sa to pokúsil tým, že nechal dva bayesovské filtre pracovať proti sebe, "zlý", ktorý sa prispôsobil a ku ktorým správam sa dostal cez "dobrý" filter. Hovorí, že to funguje, hoci proces je časovo náročný a komplexný. Nemyslíme si, že veľa z toho dôjde, aspoň nie vo veľkom meradle a nie je prispôsobené jednotlivým e-mailovým charakteristikám. Spameri môžu (vyskúšať) zistiť niektoré kľúčové slová pre organizácie (niečo ako "Almaden" pre niektorých ľudí v IBM možno?).

Spam sa zvyčajne bude (výrazne) líšiť od bežnej pošty alebo nebude spam.

Zrátané podčiarknuté: Sila Bayesovského filtrovania môže byť jej slabosťou

Bayesovské spamové filtre sú filtre založené na obsahu, ktoré:

sú špeciálne vyškolení na to, aby rozpoznali nevyžiadanú poštu a dobrú poštu e-mailových používateľov , čo je veľmi efektívne a ťažko sa prispôsobí spammerom.
môže neustále a bez veľkého úsilia alebo manuálnej analýzy prispôsobiť najnovšie triky spamerov.
berte do úvahy dobrú poštu jednotlivých používateľov a majú veľmi nízku mieru falošných pozitív .
Bohužiaľ, ak to spôsobí slepú dôveru v Bayesovské antispamové filtre, robí to príležitostnú chybu ešte vážnejšou . Opačný účinok falošných negatívov (spam, ktorý vyzerá presne ako bežná pošta) má potenciál narušiť a frustrovať používateľov.