สิ่งที่คุณต้องทราบเกี่ยวกับการกรอง Spam แบบ Bayesian

by Heinz Tschabitscher

ดูวิธีที่สถิติช่วยให้กล่องจดหมายของคุณสะอาด

ตัวกรองสแปม Bayesian คำนวณความน่าจะเป็นของข้อความที่เป็นสแปมตามเนื้อหา การกรองสแปมแบบ Bayesian จะเรียนรู้จากสแปมและจากอีเมลที่ดีทำให้ไม่ต้องใช้ตัวกรองเนื้อหาแบบง่ายๆการกรองสแปมแบบเบส์จะช่วยให้สามารถใช้งานการป้องกันสแปมที่มีประสิทธิภาพและสามารถปรับใช้ได้อย่างมีประสิทธิภาพ

คุณรับรู้อีเมลขยะได้อย่างไร?

คิดถึงวิธีที่คุณตรวจพบ สแปม อย่างรวดเร็วมักจะเพียงพอ คุณรู้ว่าสแปมมีลักษณะอย่างไรและคุณรู้ว่าจดหมายดีมีลักษณะอย่างไร

ความน่าจะเป็นของสแปมที่มองว่าเป็นจดหมายที่ดีอยู่ที่ประมาณศูนย์

ตัวกรองเนื้อหาที่ให้คะแนนไม่ปรับเปลี่ยน

การกรองสแปมอัตโนมัติจะทำงานได้เช่นเดียวกันหรือไม่?

การทำคะแนนตัวกรองสแปมที่ใช้เนื้อหาช่วยให้ลองทำเช่นนั้น พวกเขามองหาคำและลักษณะอื่น ๆ ทั่วไปของสแปม องค์ประกอบทุกอย่างได้รับมอบหมายคะแนนและคะแนนสแปมสำหรับข้อความทั้งหมดจะคำนวณจากคะแนนแต่ละส่วน ตัวกรองคะแนนบางตัวยังมองหาลักษณะเฉพาะของจดหมายที่ถูกต้องโดยลดคะแนนสุดท้ายของข้อความ

วิธีการใช้ตัวกรองคะแนนไม่ทำงาน แต่ก็มีข้อบกพร่องหลายประการ:

รายการลักษณะถูกสร้างขึ้นจากสแปม (และอีเมลที่ดี) ที่วิศวกรของตัวกรองระบุ เพื่อให้เข้าใจถึงสแปมทั่วไปที่ทุกคนอาจได้รับอีเมลต้องเก็บรวบรวมที่อยู่อีเมลหลายร้อยฉบับ จะทำให้ประสิทธิภาพของตัวกรองลดลงโดยเฉพาะอย่างยิ่งเนื่องจาก ลักษณะจดหมายที่ดีจะแตกต่างกันสำหรับแต่ละบุคคล แต่จะไม่นำมาพิจารณา
ลักษณะที่มองหามีมากหรือน้อย ตั้งอยู่ในหิน หากผู้ส่งอีเมลขยะพยายามปรับตัว (และทำให้สแปมดูดีเช่นจดหมายที่ส่งไปยังตัวกรอง) ลักษณะการกรองจะต้องมีการปรับแต่งด้วยตนเองซึ่งเป็นความพยายามที่ยิ่งใหญ่กว่า
คะแนนที่กำหนดให้กับแต่ละคำอาจขึ้นอยู่กับการประมาณการที่ดี แต่ก็ยังคงเป็นข้อ และเช่นเดียวกับรายการคุณลักษณะจะไม่ปรับเปลี่ยนรูปแบบของสแปมโดยทั่วไปหรือเพื่อสนองความต้องการของผู้ใช้แต่ละราย

ตัวกรองจดหมายขยะ Bayesian ปรับแต่งตัวเองให้ดีขึ้นเรื่อย ๆ

ตัวกรองสแปม Bayesian ยังเป็นตัวกรองเนื้อหาที่ใช้ตัวกรองด้วย วิธีการของพวกเขาไม่ไปกับปัญหาของตัวกรองสแปมที่ให้คะแนนอย่างง่ายแม้ว่าและมันไม่ให้รุนแรง เนื่องจากจุดอ่อนของตัวกรองคะแนนอยู่ในรายชื่อลักษณะและคะแนนของตนเองรายการนี้จึงถูกตัดออก

ตัวกรองสแปมแบบ Bayesian สร้างรายชื่อด้วยตัวเอง คุณจะเริ่มต้นด้วย (ขนาดใหญ่) อีเมลที่คุณจำแนกเป็นสแปมและอีกหนึ่งจดหมายดีๆ ตัวกรองจะพิจารณาทั้งสองอย่างและวิเคราะห์จดหมายที่ถูกต้องรวมทั้งสแปมเพื่อคำนวณความน่าจะเป็นของลักษณะต่างๆที่ปรากฏในสแปมและในจดหมายที่ดี

ตัวกรองสแปมแบบ Bayesian ตรวจสอบอีเมลอย่างไร

ลักษณะตัวกรองสแปม Bayesian สามารถดูได้:

คำพูดใน เนื้อหา ของข้อความแน่นอนและ
ส่วนหัว ของมัน (ผู้ส่งและ เส้นทางข้อความ เช่น!) แต่ยัง
ด้านอื่น ๆ เช่นโค้ด HTML / CSS (เช่นสีและการจัดรูปแบบอื่น ๆ ) หรือแม้แต่
คู่คำวลีและ
ข้อมูลเมตา (ตัวอย่างเช่นวลีที่ปรากฏตัวอย่างเช่น)

หากคำว่า "คาร์ทีเซียน" ไม่ปรากฏในสแปม แต่บ่อยครั้งในอีเมลที่คุณได้รับตามกฎหมายความน่าจะเป็นว่า "คาร์ทีเซียน" ระบุว่าสแปมอยู่ใกล้ศูนย์ "โทนเนอร์" ตรงกันข้ามปรากฏเฉพาะและบ่อยครั้งในสแปม "ผงหมึก" มีความเป็นไปได้สูงที่จะถูกพบในสแปมซึ่งไม่ต่ำกว่า 1 (100%)

เมื่อมีข้อความใหม่มาถึงจะมีการวิเคราะห์โดยใช้ตัวกรองจดหมายขยะ Bayesian และความเป็นไปได้ที่ข้อความทั้งหมดจะเป็นสแปมจะถูกคำนวณโดยใช้ลักษณะเฉพาะ

สมมติว่าข้อความมีทั้ง "Cartesian" และ "toner" จากคำเหล่านี้เพียงอย่างเดียวยังไม่ชัดเจนว่าเรามีสแปมหรือจดหมาย legit หรือไม่ ลักษณะอื่น ๆ (หวังและน่าจะเป็นมากที่สุด) บ่งบอกถึงความเป็นไปได้ที่จะช่วยให้ตัวกรองสามารถจัดประเภทข้อความเป็นสแปมหรืออีเมลที่ดีได้

ตัวกรองจดหมายขยะของ Bayesian สามารถเรียนรู้โดยอัตโนมัติ

ขณะนี้เรามีการจำแนกแล้วข้อความสามารถใช้ในการฝึกตัวกรองต่อไปได้ ในกรณีนี้อาจมีการลดความเป็นไปได้ที่ "คาร์ทีเซียน" ที่ระบุอีเมลที่ดีจะลดลง (ถ้าข้อความที่มีทั้ง "Cartesian" และ "toner" พบว่าเป็นสแปม) หรือความเป็นไปได้ที่ "ผงหมึก" ที่ระบุว่าเป็นสแปมต้องได้รับการพิจารณาใหม่

การใช้เทคนิคการปรับตัวอัตโนมัตินี้ตัวกรองแบบเบส์สามารถ เรียนรู้จากการตัดสินใจของตนเองและผู้ใช้ (ถ้าเธอแก้ไขตัวกรองด้วยตนเอง) ความสามารถในการปรับตัวของการกรอง Bayesian ช่วยให้มั่นใจได้ว่ามีประสิทธิภาพมากที่สุดสำหรับผู้ใช้อีเมลแต่ละราย แม้ว่าสแปมของผู้คนส่วนใหญ่อาจมีลักษณะคล้ายคลึงกัน แต่จดหมายที่ถูกต้องมีลักษณะแตกต่างกันสำหรับทุกคน

ผู้ส่งอีเมลขยะสามารถรับตัวกรองแบบเบส์ได้อย่างไร?

ลักษณะของอีเมลที่ถูกต้องมีความสำคัญสำหรับขั้นตอนการกรองสแปมแบบเบส์เช่นเดียวกับสแปม หากตัวกรองได้รับการฝึกอบรมโดยเฉพาะสำหรับผู้ใช้ทุกคนผู้ส่งอีเมลขยะจะมีเวลาที่ต้องทำงานกับตัวกรองจดหมายขยะของทุกคน (หรือแม้แต่คนส่วนใหญ่) และตัวกรองสามารถปรับให้เหมาะกับผู้ส่งอีเมลขยะเกือบทุกอย่างได้

ผู้ส่งอีเมลขยะจะทำให้ผ่านตัวกรอง Bayesian ที่ผ่านการฝึกอบรมมาอย่างดีหากพวกเขาทำให้ข้อความสแปมของตนดูสมบูรณ์เหมือนกับอีเมลทั่วไปที่ทุกคนอาจได้รับ

ผู้ส่งอีเมลขยะมักไม่ส่งอีเมลธรรมดาดังกล่าว สมมติว่านี่เป็นเพราะอีเมลเหล่านี้ไม่ทำงานเป็นอีเมลขยะ ดังนั้นโอกาสที่พวกเขาจะไม่ทำเมื่ออีเมลธรรมดาน่าเบื่อเป็นวิธีเดียวที่จะทำให้ตัวกรองสแปมที่ผ่านมา

หากผู้ส่งอีเมลขยะเปลี่ยนไปใช้อีเมลที่ดูธรรมดาส่วนใหญ่ แต่เราจะเห็นสแปมจำนวนมากในกล่องจดหมายของเราอีกครั้งและอีเมลอาจกลายเป็นเรื่องที่ น่าผิดหวัง เหมือนกับที่อยู่ในช่วงก่อนเทศกาลเบส์ (หรือแย่กว่านั้น) นอกจากนี้ยังมีการทำลายตลาดสำหรับสแปมส่วนใหญ่ด้วยเช่นกันซึ่งจะไม่เกิดขึ้นนาน

ตัวบ่งชี้ที่แข็งแกร่งอาจเป็นตัวกรอง Achilles & # 39; ตัวกรองจดหมายขยะของ Bayesian ส้น

ยกเว้นอย่างใดอย่างหนึ่งที่สามารถรับรู้ได้สำหรับผู้ส่งอีเมลขยะที่ทำงานผ่านทางตัวกรองแบบเบส์แม้จะมีเนื้อหาตามปกติ อยู่ในลักษณะของสถิติ Bayesian ว่าคำหรือลักษณะเฉพาะที่ปรากฏบ่อยๆในจดหมายที่ดีอาจมีความสำคัญมากจนทำให้ข้อความใด ๆ ดูเหมือนว่าสแปมจะถูกจัดอันดับเป็นตัวกรองแฮมโดยตัวกรอง

หากผู้ส่งอีเมลขยะหาวิธีตรวจสอบคำที่เป็นอีเมลที่มีการใช้งานโดยใช้การ ส่งคืน HTML เพื่อดูว่าข้อความใดที่คุณเปิดตัวอย่างเช่นอาจมีคนส่งอีเมลขยะดังกล่าวอยู่ในอีเมลขยะและเข้าถึงคุณได้แม้กระทั่งผ่านทางอีเมลที่ดี Bayesian กรองผ่านการฝึกอบรม

John Graham-Cumming พยายามนี้โดยอนุญาตให้ตัวกรอง Bayesian สองตัวทำงานร่วมกันซึ่งเป็น "ไม่ดี" ที่ปรับตัวให้เข้ากับข้อความที่พบผ่านตัวกรอง "ดี" เขาบอกว่ามันทำงานแม้ว่ากระบวนการนี้ใช้เวลาและซับซ้อน เราไม่คิดว่าเราจะเห็นสิ่งที่เกิดขึ้นนี้อย่างน้อยไม่ใช่ในขนาดใหญ่และไม่เหมาะกับลักษณะเฉพาะของอีเมลของแต่ละบุคคล ผู้ส่งอีเมลขยะอาจพยายามหาคำหลักบางคำสำหรับองค์กร (เช่น "Almaden" สำหรับบางคนที่ IBM อาจจะ) แทน

โดยปกติแล้วสแปมจะมีความแตกต่างจากจดหมายทั่วไปเสมอไปหรือจะไม่ใช่สแปมก็ตาม

บรรทัดล่าง: ความสามารถในการกรอง Bayesian อาจเป็นจุดอ่อนของมัน

ตัวกรองสแปม Bayesian เป็นตัวกรอง เนื้อหา ที่:

ได้ รับการฝึกอบรมโดยเฉพาะเพื่อจดจำสแปมและอีเมลที่ดีของผู้ใช้อีเมลแต่ละราย ซึ่งทำให้พวกเขามีประสิทธิภาพและยากที่จะปรับตัวให้เข้ากับผู้ส่งอีเมลขยะ
สามารถอย่างต่อเนื่องและไม่มีความพยายามมากหรือการวิเคราะห์ด้วยตนเอง ปรับให้เข้า กับเทคนิคล่าสุดของผู้ส่งอีเมลขยะ
ใช้อีเมลที่ดีของผู้ใช้แต่ละรายและมี อัตราที่เป็นเท็จต่ำ มาก
น่าเสียดายที่หากเกิดความเชื่อมั่นแบบตาบอดในตัวกรองการต่อต้านสแปมของ Bayesian ทำให้เกิด ความผิดพลาดเป็นครั้งคราวยิ่งรุนแรง ขึ้น ผลตรงข้ามของภาพ เชิงลบ (สแปมที่มีลักษณะเหมือนกับจดหมายธรรมดา) มีแนวโน้มที่จะรบกวนและทำให้ผู้ใช้หลงลืม