Yr hyn sydd angen i chi ei wybod am hidlo sboniau Bayesian

Darganfyddwch sut mae ystadegau'n helpu i gadw'ch blwch mewnol yn lân

Mae hidlwyr sbam Bayesaidd yn cyfrifo tebygolrwydd neges yn cael ei sbam yn seiliedig ar ei gynnwys. Yn wahanol i hidlwyr syml sy'n seiliedig ar gynnwys, mae hidlo sbam Bayesian yn dysgu o sbam ac o bost da, gan arwain at ymagwedd gwrth-spam cadarn, addasu ac effeithlon, sydd, orau oll, yn dychwelyd yn fyr iawn i unrhyw fethiannau cadarn.

Sut Ydych chi'n Adnabod E-bost Junk?

Meddyliwch am sut rydych chi'n canfod spam . Mae golwg gyflym yn ddigon aml. Rydych chi'n gwybod pa sbam sy'n edrych, ac rydych chi'n gwybod sut mae post da yn edrych.

Y tebygolrwydd o sbam sy'n edrych fel post da yw oddeutu ... dim.

Nid yw Hidlau Sgorio sy'n Seiliedig ar Gynnwys yn Addasu

Oni fyddai hi'n wych pe bai hidlwyr sbam awtomatig yn gweithio fel hynny, hefyd?

Sgorio hidlwyr sbam sy'n seiliedig ar gynnwys yn ceisio hynny. Maent yn chwilio am eiriau a nodweddion eraill sy'n nodweddiadol o sbam. Rhoddir sgôr i bob elfen nodweddiadol, a chofnodir sgôr sbam ar gyfer yr holl neges o'r sgorau unigol. Mae rhai hidlwyr sgorio hefyd yn chwilio am nodweddion y post dilys, gan ostwng sgôr derfynol neges.

Mae'r ymagwedd hidlwyr sgorio yn gweithio, ond mae ganddo hefyd nifer o anfanteision:

Mae Filtrau Spam Bayesaidd yn Tweak Eu Hunan, Gwell Gwell a Gwell

Mae hidlwyr sbam Bayesian yn fath o hidlwyr sy'n seiliedig ar gynnwys yn sgorio hefyd. Mae eu hymagwedd yn mynd i ffwrdd â phroblemau hidlwyr sbam syml, fodd bynnag, ac mae'n gwneud hynny'n radical. Gan fod gwendidau hidlwyr sgorio yn y rhestr o nodweddion sydd wedi'u hadeiladu'n llaw a'u sgoriau, mae'r rhestr hon yn cael ei ddileu.

Yn lle hynny, mae hidlwyr sbam Bayesaidd yn adeiladu'r rhestr eu hunain. Yn ddelfrydol, byddwch chi'n dechrau gyda chriw (mawr) o negeseuon e-bost rydych chi wedi eu dosbarthu fel sbam, ac un arall o bost da. Mae'r hidlwyr yn edrych ar y ddau ac yn dadansoddi'r post cyfreithlon yn ogystal â'r spam i gyfrifo tebygolrwydd gwahanol nodweddion sy'n ymddangos mewn sbam, ac mewn post da.

Sut mae Filter Filter Spam Bayesian yn Archwiliwch E-bost

Gall y nodweddion y gall hidlo sbam Bayesian edrych arnynt fod yn:

Os yw gair, "Cartesaidd" er enghraifft, byth yn ymddangos yn y sbam ond yn aml yn yr e-bost cyfreithlon a gewch, mae'r tebygolrwydd bod "Cartesaidd" yn nodi bod sbam yn agos at sero. Mae "Toner", ar y llaw arall, yn ymddangos yn gyfan gwbl, ac yn aml, mewn sbam. Mae gan "Toner" debygolrwydd uchel iawn o gael ei ganfod mewn sbam, nid yw llawer islaw 1 (100%).

Pan fydd neges newydd yn cyrraedd, caiff ei ddadansoddi gan y hidlydd sbam Bayesian, a thebygolrwydd y bydd y neges gyflawn yn cael ei gyfrifo gan ddefnyddio nodweddion unigol.

Tybwch fod neges yn cynnwys "Cartesaidd" a "toner". O'r geiriau hyn ar ei ben ei hun nid yw eto'n glir a oes gennym bost sbam neu gyfreithlon. Bydd nodweddion eraill (gobeithio ac yn ôl pob tebyg) yn dangos tebygolrwydd sy'n caniatáu i'r hidlydd ddosbarthu'r neges naill ai â sbam neu bost da.

Gall Filters Spam Bayesian Ddysgu'n Awtomatig

Nawr bod gennym ddosbarthiad, gellir defnyddio'r neges i hyfforddi'r hidlydd ei hun ymhellach. Yn yr achos hwn, mae naill ai'r tebygolrwydd o "Cartesaidd" sy'n dangos post da yn cael ei ostwng (os canfyddir bod y neges sy'n cynnwys "Cartesaidd" a "toner" yn sbam), neu mae'n rhaid ailystyried y tebygolrwydd o "toner" sy'n nodi sbam.

Gan ddefnyddio'r dechneg auto-addasu hon, gall hidlwyr Bayesaidd ddysgu oddi wrth eu penderfyniadau eu hunain a phenderfyniadau'r defnyddiwr (os yw hi'n cywiro camfarn gan y hidlwyr). Mae addasrwydd hidlo Bayesian hefyd yn sicrhau eu bod fwyaf effeithiol i'r defnyddiwr e-bost unigol. Er bod gan sbam y rhan fwyaf o bobl nodweddion tebyg, mae'r post dilys yn nodweddiadol wahanol i bawb.

Sut All Spammers Ei Holl Hylifwyr Bayesaidd?

Mae nodweddion post dilys yr un mor bwysig ar gyfer proses hidlo sbam Bayesian gan fod y sbam. Os caiff yr hidlwyr eu hyfforddi'n benodol ar gyfer pob defnyddiwr, bydd gan sbamwyr amser anoddach hyd yn oed yn gweithio o amgylch hidlwyr sbam pawb (neu hyd yn oed y rhan fwyaf o bobl), a gall y hidlwyr addasu i bron i bopeth sbameri.

Dim ond os bydden nhw'n gwneud eu negeseuon sbam yn edrych yn berffaith fel yr e-bost arferol y gall pawb ei gael.

Fel arfer nid yw sbamwyr yn anfon negeseuon e-bost cyffredin fel arfer. Gadewch inni dybio bod hyn oherwydd nad yw'r negeseuon e-bost hyn yn gweithio fel e-bost sothach. Felly, mae'n debyg na fyddant yn ei wneud pan fydd negeseuon e-bost diflas yr unig ffordd i'w wneud yn hidlo hidlwyr sbam.

Os yw sbamwyr yn newid i negeseuon e-bost cyffredin yn bennaf, fodd bynnag, fe welwn lawer o sbam yn ein Blychau Mewnol eto, a gall e-bost fod mor rhwystredig ag y bu mewn dyddiau cyn y Bayesia (neu hyd yn oed yn waeth). Bydd hefyd wedi difetha'r farchnad ar gyfer y rhan fwyaf o fathau o sbam, fodd bynnag, ac felly ni fydd yn para hir.

Dangosyddion Cryf Gall fod yn Filter & # 39; s Achilles & # 39; Heel

Gellir canfod un eithriad i sbamwyr weithio trwy eu hidlwyr Bayesaidd hyd yn oed gyda'u cynnwys arferol. Yng ngoleuni ystadegau Bayesaidd y gall un gair neu nodwedd sy'n ymddangos yn aml iawn mewn post da fod mor arwyddocaol o ran troi unrhyw neges rhag edrych fel sbam i gael ei raddio fel ham gan y hidlydd.

Os yw sbamwyr yn dod o hyd i ffordd i benderfynu ar eich geiriau post-dān sicr-drwy ddefnyddio derbynebau dychwelyd HTML i weld pa negeseuon a agorwyd gennych, er enghraifft- gallant gynnwys un ohonynt mewn post sbwriel a'ch cyrraedd hyd yn oed trwy ffitrwydd da, hidlwyr Bayesian hyfforddedig.

Mae John Graham-Cumming wedi rhoi cynnig ar hyn trwy osod dau hidlydd baeesaidd yn erbyn ei gilydd, ac mae'r un "drwg" yn addasu i ba negeseuon a geir trwy'r hidlydd "da". Dywed ei fod yn gweithio, er bod y broses yn cymryd llawer o amser ac yn gymhleth. Nid ydym yn credu y byddwn yn gweld llawer o'r hyn yn digwydd, o leiaf nid ar raddfa fawr, ac nid yw wedi'i deilwra i nodweddion e-bost unigolion. Gall sbamwyr (ceisiwch) nodi rhai geiriau allweddol ar gyfer sefydliadau (rhywbeth fel "Almaden" i rai pobl yn IBM efallai?) Yn lle hynny.

Fel arfer, bydd sbam bob amser (yn sylweddol) yn wahanol i bost rheolaidd neu os na fydd yn sbam, fodd bynnag.

Y Llinell Isaf: Gall Cryfder Hidlo Bayesian a'i Ddiffyg Hwn

Mae hidlwyr sbam Bayesaidd yn hidlwyr yn seiliedig ar gynnwys :