K-means Clustering คืออะไร?

การทำเหมืองข้อมูลด้วยอัลกอริทึม k-means

อัลกอริทึมการจัดกลุ่มแบบ k หมายถึงเป็นเครื่องมือการทำเหมืองข้อมูลและเครื่องมือการเรียนรู้ด้วยคอมพิวเตอร์ที่ใช้ในการสังเกตการณ์กลุ่มเป็นกลุ่มของการสังเกตที่เกี่ยวข้องโดยไม่ต้องมีความรู้เกี่ยวกับความสัมพันธ์เหล่านี้ก่อน โดยการสุ่มตัวอย่างอัลกอริธึมจะพยายามแสดงให้เห็นว่ามีกลุ่มข้อมูลหรือกลุ่มข้อมูลใดอยู่ด้วยจำนวนกลุ่มที่กำหนดด้วยค่า k

อัลกอริทึม k- means เป็นหนึ่งในเทคนิคการจัดกลุ่มที่ง่ายที่สุดและมักใช้ในการถ่ายภาพทางการแพทย์ชีวภาพและสาขาที่เกี่ยวข้อง ข้อดีของ k- means clustering คือการบอกเกี่ยวกับข้อมูลของคุณ (โดยใช้แบบฟอร์มที่ไม่ได้รับการยกเว้น) มากกว่าที่คุณจะต้องสั่งให้อัลกอริทึมเกี่ยวกับข้อมูลในตอนเริ่มต้น (ใช้รูปแบบการดูแลของอัลกอริทึม)

บางครั้งเรียกว่า Lloyd's Algorithm โดยเฉพาะในวงการวิทยาศาสตร์คอมพิวเตอร์เนื่องจากขั้นตอนวิธีมาตรฐานเป็นครั้งแรกโดย Stuart Lloyd ในปีพ. ศ. 2500 คำว่า "k-means" ได้รับการประกาศเกียรติคุณในปี 1967 โดย James McQueen

วิธีอัจฉริยะ k-means

อัลกอริทึม k- means เป็นอัลกอริทึมการวิวัฒนาการที่ได้รับชื่อจากวิธีการทำงาน กลุ่มอัลกอริทึมจะสังเกตการณ์เป็นกลุ่ม k โดยที่ k มีให้เป็นพารามิเตอร์ป้อนเข้า จากนั้นจะกำหนดการสังเกตการณ์แต่ละกลุ่มตามความใกล้เคียงของการสังเกตการณ์กับค่าเฉลี่ยของคลัสเตอร์ ค่าเฉลี่ยของกลุ่มจะถูกคำนวณใหม่และกระบวนการจะเริ่มขึ้นอีกครั้ง นี่คือขั้นตอนวิธีการทำงาน:

  1. อัลกอริทึมจะเลือกจุด k เป็นศูนย์คลัสเตอร์เริ่มต้น (หมายถึง)
  2. แต่ละจุดในชุดข้อมูลจะถูกกำหนดให้กับคลัสเตอร์แบบปิดตามระยะทางยุคลิดระหว่างแต่ละจุดและแต่ละศูนย์ของคลัสเตอร์
  3. ศูนย์ข้อมูลคลัสเตอร์แต่ละรายการถูกคำนวณเป็นค่าเฉลี่ยของจุดในคลัสเตอร์นั้น
  4. ขั้นตอนที่ 2 และ 3 ซ้ำจนกว่ากลุ่มจะมาบรรจบกัน การรวมกันอาจมีการกำหนดขึ้นอยู่กับการใช้งานโดยปกติ แต่โดยปกติแล้วจะไม่มีการเปลี่ยนแปลงใด ๆ ในกรณีที่ทำซ้ำขั้นตอนที่ 2 และ 3 หรือการเปลี่ยนแปลงนี้ไม่ได้ทำให้เกิดความแตกต่างในความหมายของคลัสเตอร์

การเลือกจำนวนกลุ่ม

ข้อเสียอย่างหนึ่งของ k- means clustering คือความจริงที่ว่าคุณต้องระบุจำนวนของกลุ่มเป็นส่วนนำเข้าของอัลกอริทึม ตามที่ออกแบบมาอัลกอริทึมไม่สามารถระบุจำนวนกลุ่มที่เหมาะสมและขึ้นอยู่กับผู้ใช้ในการระบุกลุ่มนี้ล่วงหน้า

ตัวอย่างเช่นถ้าคุณมีกลุ่มคนที่จะคลัสเตอร์ตามอัตลักษณ์ทางเพศแบบไบนารีเป็นเพศชายหรือเพศหญิงการเรียกใช้อัลกอริทึม k- means โดยใช้ input k = 3 จะบังคับให้ผู้คนออกเป็นสามกลุ่มเมื่อมีเพียงสองหรือ input ของ k = 2 จะให้พอดีกับธรรมชาติมากขึ้น

ในทำนองเดียวกันถ้ากลุ่มของบุคคลสามารถคลัสเตอร์ได้โดยง่ายขึ้นอยู่กับสถานะของบ้านและคุณเรียกว่าอัลกอริทึม k- means กับ input k = 20 ผลลัพธ์อาจเป็นนัยทั่วไปเกินไปที่จะมีประสิทธิภาพ

ด้วยเหตุนี้การทดลองกับค่าต่างๆของ k จะเป็นการระบุค่าที่เหมาะสมกับข้อมูลของคุณมากที่สุด นอกจากนี้คุณยังอาจต้องการสำรวจการใช้ ขั้นตอนวิธีการทำเหมืองข้อมูลอื่น ๆ ในการแสวงหาความรู้ที่เรียนรู้ด้วยเครื่อง