Čo potrebujete vedieť o Bayesian Spam Filtering

Zistite, ako štatistiky pomáhajú zachovať čistotu doručenej pošty

Bayesovské spamové filtre spočítajú pravdepodobnosť, že správa je spam založená na jej obsahu. Na rozdiel od jednoduchých filtrov založených na obsahu sa Bayesovská spamová filtrovanie učí z nevyžiadanej pošty a dobrej pošty, čo má za následok veľmi robustný, prispôsobivý a efektívny prístup proti spamu, ktorý najskôr vráti takmer žiadne falošné pozitíva.

Ako rozpoznávate nevyžiadanú poštu?

Premýšľajte o tom, ako zistíte spam . Rýchly pohľad je často dosť. Viete, ako vyzerá nevyžiadaná pošta a vy viete, aký dobrý pohľad vyzerá.

Pravdepodobnosť spamu vyzerá ako dobrá pošta je okolo ... nula.

Zhodnocovanie filtrov na základe obsahu sa neupravuje

Nebolo by skvelé, keby automatické filtre nevyžiadanej pošty fungovali taky?

Zaznamenávanie spamových filtrov založených na obsahu je práve to. Hľadajú slová a iné charakteristiky typické pre spam. Každému charakteristickému prvku sa priradí skóre a skóre spamu pre celú správu sa vypočíta z jednotlivých bodov. Niektoré scoringové filtre tiež hľadajú charakteristiky legitímnej pošty a znižujú konečné skóre správy.

Prístup k hodnoteniu filtrov funguje, ale má aj niekoľko nevýhod:

Bayesian Spam Filtre Tweak sami seba, lepšie a lepšie

Bayesovské spamové filtre sú tiež druhom hodnotenia filtrov založených na obsahu. Ich prístup odstraňuje problémy s jednoduchým zaznamenávaním spamových filtrov, a to tak radikálne. Keďže slabosť bodovacích filtrov je v ručne zostavovanom zozname charakteristík a ich skóre, tento zoznam je vylúčený.

Namiesto toho Bayesovské spamové filtre vytvárajú zoznam sami. V ideálnom prípade začnete s (veľkým) balíkom e-mailov, ktoré ste klasifikovali ako nevyžiadanú poštu a ďalšiu skupinu dobrých správ. Filtre sa pozerajú na obidva a analyzujú legitímnu poštu, ako aj spam, aby vypočítali pravdepodobnosť rôznych charakteristík, ktoré sa objavujú v nevyžiadanej pošte av dobrej pošte.

Ako Bayesovský spamový filter skúma e-mail

Vlastnosti, na ktoré sa Bayesovský spamový filter môže pozrieť, môže byť:

Ak sa napríklad slovo "kartézsky" nikdy nezobrazuje v spamoch, ale často v legitímnom e-maile, ktoré dostanete, pravdepodobnosť, že "kartézsky" označuje spam, je takmer nula. "Toner", na druhej strane, sa javí výlučne a často v nevyžiadanej forme. "Toner" má veľmi vysokú pravdepodobnosť, že sa nájde v spamoch, nie oveľa pod 1 (100%).

Keď príde nová správa, analyzuje sa Bayesovský spam filter a pravdepodobnosť úplného spamu sa vypočíta podľa jednotlivých charakteristík.

Predpokladajme, že správa obsahuje "kartézsky" a "toner". Z týchto slov samotných ešte nie je jasné, či máme spam alebo legitímnu poštu. Ostatné charakteristiky (dúfajme a s najväčšou pravdepodobnosťou) naznačujú pravdepodobnosť, že filter umožňuje klasifikovať správu ako spam alebo dobrú poštu.

Bayesovské spamové filtre sa môžu naučiť automaticky

Teraz, keď máme klasifikáciu, správa sa môže použiť na ďalší tréning filtra. V takomto prípade sa pravdepodobnosť "kartézskeho" označovania dobrej pošty zníži (ak sa zistí, že správa obsahujúca aj "kartézsky" a "toner" je spam), alebo pravdepodobnosť "tonera" označujúceho nevyžiadanú poštu sa musí prehodnotiť.

Pomocou tejto auto-adaptačnej techniky sa bayesovské filtre môžu učiť z vlastných i užívateľských rozhodnutí (ak manuálne opraví nesprávny odhad filtrov). Adaptabilita Bayesovského filtrovania tiež zabezpečuje, že sú pre jednotlivého e-mailového používateľa najefektívnejšie. Zatiaľ čo spam väčšiny ľudí môže mať podobné vlastnosti, legitímna pošta je charakteristicky odlišná pre všetkých.

Ako môžu spaméri dostať za Bayesovské filtre?

Vlastnosti legitímnej pošty sú rovnako dôležité pre proces filtrovania nevyžiadanej pošty ako spam. Ak sú filtre vycvičené špeciálne pre každého používateľa, spameri budú mať ešte ťažší čas pracovať okolo spamových filtrov všetkých (alebo dokonca väčšiny ľudí) a filtre sa dokážu prispôsobiť takmer všetkým, čo spameri skúsia.

Spameri sa postarajú len o dobre vyškolené bayesovské filtre, ak robia svoje spamové správy dokonale vyzerajúce ako obyčajná e-mailová adresa, ktorú môžu dostať všetci.

Spameri neposielajú obyčajné e-maily. Predpokladajme, že toto je preto, že tieto e-maily nefungujú ako nevyžiadaná pošta. Takže je pravdepodobné, že to nebudú robiť, keď obyčajné, nudné e-maily sú jediný spôsob, ako sa dostať mimo spamové filtre.

Ak spameri prepnú na väčšinu obyčajných e-mailov, v zozname doručených sa však znova zobrazí veľké množstvo nevyžiadanej pošty a e-maily sa môžu stať frustrujúce, ako to bolo v predbešských dňoch (alebo ešte horšie). Bude tiež zničiť trh pre väčšinu druhov nevyžiadanej pošty, a preto nebude trvať dlho.

Silné ukazovatele Môže to byť Bayesovský spamový filter Achilles. päta

Jedna výnimka môže byť vnímaná pre spamerov, aby si prešli cez bayeské filtre aj s ich obvyklým obsahom. Je to povaha bayesovskej štatistiky, že jedno slovo alebo charakteristika, ktorá sa veľmi často objavuje v dobrej pošte, môže byť taká významná, že akúkoľvek správu, ktorá vyzerá ako spam, môže byť hodnotená ako šunka filtrem.

Ak spameri nájdu spôsob, ako určiť vaše slová s dobrou správou pošty - pomocou výpisov vratky vo formáte HTML, aby ste zistili, ktoré správy ste napríklad otvorili, môžu zahrnúť jednu z nich do nevyžiadanej pošty a osloviť vás aj prostredníctvom dobre- vyškolený Bayesovský filter.

John Graham-Cumming sa to pokúsil tým, že nechal dva bayesovské filtre pracovať proti sebe, "zlý", ktorý sa prispôsobil a ku ktorým správam sa dostal cez "dobrý" filter. Hovorí, že to funguje, hoci proces je časovo náročný a komplexný. Nemyslíme si, že veľa z toho dôjde, aspoň nie vo veľkom meradle a nie je prispôsobené jednotlivým e-mailovým charakteristikám. Spameri môžu (vyskúšať) zistiť niektoré kľúčové slová pre organizácie (niečo ako "Almaden" pre niektorých ľudí v IBM možno?).

Spam sa zvyčajne bude (výrazne) líšiť od bežnej pošty alebo nebude spam.

Zrátané podčiarknuté: Sila Bayesovského filtrovania môže byť jej slabosťou

Bayesovské spamové filtre sú filtre založené na obsahu, ktoré: