การจำแนกเป็นเทคนิคการทำเหมืองข้อมูลที่กำหนดหมวดหมู่ให้กับชุดข้อมูลเพื่อช่วยในการคาดการณ์และการวิเคราะห์ที่แม่นยำยิ่งขึ้น หรือที่เรียกว่าบางครั้งเรียกว่า Tree ตัดสินใจการ จำแนกเป็นหนึ่งในหลายวิธีที่มีวัตถุประสงค์เพื่อให้การวิเคราะห์ชุดข้อมูลขนาดใหญ่มีประสิทธิภาพมาก
ทำไมต้องจัดหมวดหมู่?
ฐานข้อมูลขนาดใหญ่มากกำลังกลายเป็นบรรทัดฐานในโลกปัจจุบันของ "ข้อมูลขนาดใหญ่" ลองจินตนาการถึงฐานข้อมูลที่มีข้อมูลเทราไบต์หลายเทราไบต์ - หนึ่ง พันล้าน ไบต์ข้อมูล
Facebook เพียงครั้งเดียว crunches 600 terabytes ของข้อมูลใหม่ทุกวันเดียว (ณ 2014 เป็นครั้งสุดท้ายที่รายงานรายละเอียดเหล่านี้) ความท้าทายหลักของข้อมูลขนาดใหญ่คือการทำความเข้าใจเรื่องนี้
และปริมาตรที่แท้จริงไม่ใช่ปัญหาเฉพาะ: ข้อมูลขนาดใหญ่ยังมีแนวโน้มที่จะมีความหลากหลายไม่มีโครงสร้างและมีการเปลี่ยนแปลงอย่างรวดเร็ว พิจารณาข้อมูลเสียงและวิดีโอโพสต์สื่อสังคมออนไลน์ข้อมูล 3D หรือข้อมูลภูมิสารสนเทศ ข้อมูลประเภทนี้ไม่สามารถจัดหมวดหมู่หรือจัดระเบียบได้ง่าย
เพื่อตอบสนองความท้าทายนี้ได้มีการพัฒนาวิธีการสกัดข้อมูลที่เป็นประโยชน์โดยอัตโนมัติ
วิธีการจำแนกประเภท
เมื่อต้องขยับไปไกลเกินไปในการพูดคุยทางเทคนิคลองหารือกันว่าการจัดหมวดหมู่ทำงานอย่างไร เป้าหมายคือการสร้างชุดของกฎการจัดหมวดหมู่ที่จะตอบคำถามตั้งคำถามหรือทำนายพฤติกรรมเมื่อต้องการเริ่มต้นชุดข้อมูลการฝึกอบรมจะได้รับการพัฒนาขึ้นโดยมีชุดของคุณลักษณะบางอย่างรวมทั้งผลลัพธ์ที่เป็นไปได้
งานของอัลกอริทึมการจัดหมวดหมู่คือการค้นพบว่าแอตทริบิวต์ชุดนั้นมีข้อสรุปอย่างไร
สถานการณ์ : บางที บริษัท บัตรเครดิตอาจพิจารณาว่าลูกค้ารายใดควรได้รับข้อเสนอพิเศษเกี่ยวกับบัตรเครดิต
นี่อาจเป็นชุดของข้อมูลการฝึกอบรม:
ชื่อ | อายุ | เพศ | รายได้ต่อปี | ข้อเสนอบัตรเครดิต |
---|---|---|---|---|
John Doe | 25 | M | $ 39,500 | ไม่ |
Jane Doe | 56 | F | $ 125,000 | ใช่ |
คอลัมน์ "predictor" อายุ เพศ และ รายได้ประจำปี กำหนดค่าของ "predictor attribute" Credit Card Offer ในชุดฝึกอบรมจะรู้จักแอตทริบิวต์ predictor อัลกอริทึมการจัดหมวดหมู่จะพยายามกำหนดค่าแอตทริบิวต์ predictor: ความสัมพันธ์ระหว่างตัวทำนายกับการตัดสินใจมีความสัมพันธ์กันอย่างไร? จะพัฒนาชุดของกฎการคาดการณ์โดยปกติคำสั่ง IF / THEN เช่น
IF (อายุ> 18 หรืออายุ <75) และรายได้ต่อปี> 40,000 THEN Credit Card Offer = yes
เห็นได้ชัดว่านี่เป็นตัวอย่างง่ายๆและอัลกอริทึมจะต้องมีการสุ่มตัวอย่างข้อมูลที่ใหญ่กว่าข้อมูลสองระเบียนที่แสดงไว้ที่นี่ นอกจากนี้กฎการคาดการณ์จะมีความซับซ้อนมากขึ้นรวมถึงกฎย่อยเพื่อจับรายละเอียดแอตทริบิวต์
ขั้นถัดไปอัลกอริทึมจะได้รับ "ชุดคำทำนาย" ของข้อมูลเพื่อวิเคราะห์ แต่ชุดนี้ไม่มีแอตทริบิวต์การคาดคะเน (หรือการตัดสินใจ):
ชื่อ | อายุ | เพศ | รายได้ต่อปี | ข้อเสนอบัตรเครดิต |
---|---|---|---|---|
แจ็คฟรอสต์ | 42 | M | $ 88,000 | |
Mary Murray | 16 | F | $ 0 |
ข้อมูล predictor นี้ช่วยในการประมาณความถูกต้องของกฎการคาดคะเนและกฎจะถูกปรับแต่งจนกว่าผู้พัฒนาจะพิจารณาการคาดการณ์ที่มีประสิทธิภาพและเป็นประโยชน์
ตัวอย่างการจัดประเภทวันแล้ววันเล่า
การจำแนกประเภทและเทคนิคการทำเหมืองข้อมูลอื่น ๆ อยู่เบื้องหลังประสบการณ์ที่เรามีต่อวันเป็นอย่างมาก
การคาดการณ์สภาพอากาศอาจใช้การจัดหมวดหมู่เพื่อรายงานว่าวันนี้จะมีฝนตกแดดหรือเมฆมาก แพทย์อาจวิเคราะห์สภาวะสุขภาพเพื่อทำนายผลทางการแพทย์ ประเภทของวิธีการจำแนกประเภท Naive Bayesian ใช้ความน่าจะเป็นไปได้ในการจัดประเภทอีเมลสแปม จากการตรวจสอบการทุจริตต่อข้อเสนอของผลิตภัณฑ์การจัดหมวดหมู่อยู่เบื้องหลังทุกวันเพื่อวิเคราะห์ข้อมูลและคาดการณ์การผลิต