'ข้อมูลขนาดใหญ่' คืออะไร?

และทำไมมันถึงเป็นเรื่องใหญ่?

'ข้อมูลขนาดใหญ่' เป็นวิทยาศาสตร์ใหม่ในการทำความเข้าใจและคาดการณ์พฤติกรรมของมนุษย์ด้วยการศึกษาปริมาณข้อมูลที่ไม่มีโครงสร้าง ข้อมูลขนาดใหญ่เรียกว่า 'analytical predictive analytics'

การวิเคราะห์โพสต์ Twitter, ฟีด Facebook, การค้นหา eBay, เครื่องติดตาม GPS และเครื่อง ATM เป็นตัวอย่างข้อมูลขนาดใหญ่ การศึกษาข้อมูลการรักษาความปลอดภัยข้อมูลการจราจรรูปแบบสภาพอากาศการเข้ามาเที่ยวบินหอนาฬิกาโทรศัพท์มือถือและเครื่องติดตามอัตราการเต้นของหัวใจเป็นรูปแบบอื่น ๆ ข้อมูลขนาดใหญ่เป็นวิทยาศาสตร์ใหม่ ๆ ที่ยุ่งเหยิงซึ่งมีการเปลี่ยนแปลงทุกสัปดาห์และมีเพียงไม่กี่ผู้เชี่ยวชาญที่เข้าใจเรื่องทั้งหมด

อะไรคือตัวอย่างบางส่วนของข้อมูลขนาดใหญ่ในชีวิตปกติ?

ภาพ http://project.wnyc.org/transit-time

แม้ว่าโครงการข้อมูลขนาดใหญ่ส่วนใหญ่จะคลุมเครือ แต่ก็มีตัวอย่างที่ประสบความสำเร็จจากข้อมูลขนาดใหญ่ที่ส่งผลต่อชีวิตประจำวันของบุคคล บริษัท และรัฐบาลต่างๆดังนี้

การคาดการณ์การแพร่ระบาดของไวรัส โดยการศึกษาข้อมูลทางสังคมการเมืองข้อมูลสภาพอากาศและสภาพภูมิอากาศและข้อมูลโรงพยาบาล / ข้อมูลทางคลินิกนักวิทยาศาสตร์เหล่านี้กำลังคาดการณ์การระบาดของโรคไข้เลือดออกโดยแจ้งล่วงหน้า 4 สัปดาห์

Homicide Watch: โครงร่างโครงการข้อมูลขนาดใหญ่นี้เป็นรูปเหยียดผู้ตกเป็นเหยื่อการฆาตกรรมผู้ต้องสงสัยและอาชญากรในวอชิงตันดีซี ทั้งสองเป็นวิธีการเพื่อเป็นเกียรติกับผู้ตายและเป็นทรัพยากรที่มีการรับรู้สำหรับผู้คนโครงการข้อมูลขนาดใหญ่แห่งนี้น่าสนใจ

การวางแผนการเดินทางข้ามประเทศ, NYC: โปรแกรมเมอร์วิทยุ WNYC Steve Melendez ได้รวมตารางเวลารถไฟใต้ดินออนไลน์ไว้กับซอฟต์แวร์การเดินทางท่องเที่ยว การสร้างของพระองค์ช่วยให้ชาวนิวยอร์กคลิกตำแหน่งของพวกเขาบนแผนที่และการคาดการณ์เวลาเดินทางสำหรับรถไฟและรถไฟใต้ดินจะปรากฏขึ้น

Xerox ลดการสูญเสียแรงงานของพวกเขา: งานศูนย์บริการเป็นที่หลบหนีทางอารมณ์ Xerox ได้ศึกษาการรีบข้อมูลด้วยความช่วยเหลือของนักวิเคราะห์มืออาชีพและตอนนี้พวกเขาสามารถคาดเดาได้ว่าศูนย์บริการใดที่ได้รับการว่าจ้างมีแนวโน้มที่จะอยู่กับ บริษัท นี้เป็นเวลานานที่สุด

การสนับสนุนการต่อต้านการก่อการร้าย: โดยการศึกษาสื่อสังคมบันทึกทางการเงินการจองเที่ยวบินและข้อมูลด้านความปลอดภัยการบังคับใช้กฎหมายสามารถทำนายและหาผู้ต้องสงสัยว่าเป็นผู้ก่อการร้ายก่อนที่พวกเขาจะกระทำการชั่วของตน

การปรับการตลาดแบรนด์บนพื้นฐานของความคิดเห็นจากสื่อสังคมออนไลน์ : คนที่โผงผางและแชร์ความคิดออนไลน์ของพวกเขาในผับร้านอาหารหรือสโมสรออกกำลังกาย เป็นไปได้ในการศึกษาบทความสื่อสังคมออนไลน์จำนวนหลายล้านฉบับเหล่านี้และให้ข้อเสนอแนะแก่ บริษัท เกี่ยวกับสิ่งที่ผู้คนคิดถึงบริการของตน

ใครใช้ข้อมูลขนาดใหญ่? พวกเขาทำอะไรกับมัน?

บริษัท เสาหินหลายแห่งใช้ข้อมูลขนาดใหญ่เพื่อปรับราคาเสนอและราคาเพื่อเพิ่มความพึงพอใจสูงสุด

ทำไมข้อมูลขนาดใหญ่จึงเป็นเรื่องใหญ่?

4 สิ่งที่ทำให้ข้อมูลสำคัญมาก:

1. ข้อมูลมีขนาดใหญ่ มันจะไม่พอดีกับ ฮาร์ดดิสก์ตัวเดียว และใช้ USB stick น้อยลง ปริมาณข้อมูลที่ไกลเกินกว่าสิ่งที่จิตใจของมนุษย์สามารถรับรู้ได้ (คิดเป็นพันล้านล้านเมกะไบต์และคูณด้วยพันล้าน)

2. ข้อมูลไม่เป็นระเบียบและไม่มีโครงสร้าง 50% ถึง 80% ของงานข้อมูลขนาดใหญ่คือการแปลงและทำความสะอาดข้อมูลเพื่อให้สามารถค้นหาและจัดเรียงได้ ผู้เชี่ยวชาญเพียงไม่กี่พันคนบนโลกของเราเท่านั้นที่ทราบวิธีการล้างข้อมูลนี้ ผู้เชี่ยวชาญเหล่านี้ยังต้องการเครื่องมือพิเศษอย่าง HPE และ Hadoop เพื่อทำหัตถกรรม บางทีในรอบ 10 ปีผู้เชี่ยวชาญด้านข้อมูลขนาดใหญ่จะกลายเป็นค่าทิปโหล แต่ตอนนี้พวกเขาเป็นนักวิเคราะห์ที่หายากมากและงานของพวกเขาก็ยังไม่ชัดเจนและน่าเบื่อ

3. ข้อมูลกลายเป็นสินค้า ** ที่สามารถขายได้ ตลาดข้อมูลมีที่ซึ่ง บริษัท และบุคคลทั่วไปสามารถซื้อเทราไบต์ของโซเชียลมีเดียและข้อมูลอื่น ๆ ได้ ข้อมูลส่วนใหญ่เป็นระบบคลาวด์เนื่องจากมีขนาดใหญ่เกินไปเพื่อให้พอดีกับฮาร์ดดิสก์ตัวใดตัวหนึ่ง ข้อมูลการซื้อมักเกี่ยวข้องกับค่าสมัครที่คุณต่อเข้ากับเซิร์ฟเวอร์ฟาร์มระบบคลาวด์

** ผู้นำของเครื่องมือข้อมูลขนาดใหญ่และไอเดียต่างๆ ได้แก่ Amazon, Google, Facebook และ Yahoo เนื่องจาก บริษัท เหล่านี้ให้บริการผู้คนนับล้านกับบริการออนไลน์ของตนทำให้รู้สึกว่าพวกเขาเป็นจุดรวบรวมและมีวิสัยทัศน์ที่อยู่เบื้องหลังการวิเคราะห์ข้อมูลขนาดใหญ่

4. ความเป็นไปได้ของข้อมูลขนาดใหญ่ไม่มีที่สิ้นสุด บางทีหมอจะมีวันทำนายการโจมตีหัวใจและจังหวะสำหรับสัปดาห์ก่อนที่จะเกิดขึ้น การชนกันของเครื่องบินและรถยนต์อาจลดลงด้วยการวิเคราะห์ข้อมูลทางกลและรูปแบบการจราจรและสภาพอากาศของพวกเขา การหาคู่ออนไลน์อาจได้รับการปรับปรุงให้ดีขึ้นโดยมีตัวบ่งชี้ข้อมูลขนาดใหญ่สำหรับผู้ที่มีบุคลิกที่เข้ากันได้สำหรับคุณ นักดนตรีอาจได้รับข้อมูลเชิงลึกเกี่ยวกับองค์ประกอบเพลงที่ชื่นชอบที่สุดในรสนิยมที่เปลี่ยนแปลงไปของกลุ่มเป้าหมาย นักโภชนาการอาจคาดการณ์ได้ว่าการรวมกันของอาหารที่ซื้อในร้านใดจะทำให้ผู้ป่วยหนักหน่วงหรือช่วยรักษาอาการเจ็บป่วยได้ พื้นผิวมีรอยขีดข่วนและการค้นพบข้อมูลขนาดใหญ่เกิดขึ้นทุกสัปดาห์

ข้อมูลขนาดใหญ่ไม่เป็นระเบียบ

Monty Rakusen / Getty

ข้อมูลขนาดใหญ่คือการวิเคราะห์เชิงคาดการณ์: การแปลงข้อมูลที่ไม่มีโครงสร้างเป็นข้อมูลที่สามารถค้นหาและจัดเรียงได้ นี่เป็นพื้นที่ยุ่งเหยิงและยุ่งเหยิงที่ต้องใช้ความรู้และความอดทนเป็นพิเศษ

ยกตัวอย่างเช่นบริการจัดส่ง UPS แบบเสาเข็ม โปรแกรมเมอร์ที่ UPS ศึกษาข้อมูลจาก GPS ไดรเวอร์และสมาร์ทโฟนเพื่อวิเคราะห์วิธีที่มีประสิทธิภาพมากที่สุดเพื่อปรับให้เข้ากับความแออัดของการจราจร ข้อมูล GPS และสมาร์ทโฟนนี้มีขนาดใหญ่และไม่พร้อมสำหรับการวิเคราะห์โดยอัตโนมัติ ข้อมูลนี้จะมาจาก GPS และฐานข้อมูลแผนที่ต่างๆผ่านอุปกรณ์ฮาร์ดแวร์ต่างๆของสมาร์ทโฟน นักวิเคราะห์ของ UPS ใช้เวลาหลายเดือนในการแปลงข้อมูลทั้งหมดลงในรูปแบบที่สามารถค้นหาและจัดเรียงได้ง่าย ความพยายามนี้คุ้มค่า วันนี้ยูพีเอสช่วยประหยัดเชื้อเพลิงได้มากกว่า 8 ล้านแกลลอนเนื่องจากเริ่มมีการใช้ข้อมูลขนาดใหญ่เหล่านี้

เนื่องจากข้อมูลขนาดใหญ่ยุ่งมากและต้องใช้ความพยายามอย่างมากในการทำความสะอาดและเตรียมตัวสำหรับการใช้ข้อมูลนักวิทยาศาสตร์ข้อมูลจึงกลายเป็นชื่อเล่นว่า 'ภารโรงข้อมูล' สำหรับงานที่น่าเบื่อทั้งหมดที่พวกเขาทำ

วิทยาศาสตร์ของข้อมูลขนาดใหญ่และการวิเคราะห์เชิงคาดการณ์มีการปรับปรุงทุกสัปดาห์แม้ว่า คาดว่าข้อมูลขนาดใหญ่จะสามารถเข้าถึงได้ง่ายสำหรับทุกคนภายในปี พ.ศ. 2568

ข้อมูลขนาดใหญ่ไม่เป็นภัยคุกคามต่อข้อมูลส่วนบุคคลหรือไม่?

Feingersh / Getty

ใช่ถ้ากฎหมายและการป้องกันข้อมูลส่วนบุคคลของเราไม่มีการจัดการอย่างรอบคอบข้อมูลขนาดใหญ่จะแทรกแซงความเป็นส่วนตัว เมื่อพูดถึง Google และ YouTube และ Facebook ได้ติดตามพฤติกรรมออนไลน์ของคุณทุกวัน แล้ว สมาร์ทโฟนและคอมพิวเตอร์ของคุณทิ้งรอยดิจิตอลทุกวันและ บริษัท ที่มีความซับซ้อนกำลังศึกษารอยเท้าเหล่านี้

กฎหมายที่เกี่ยวกับข้อมูลขนาดใหญ่กำลังพัฒนาขึ้น ความเป็นส่วนตัวคือสถานะของการเป็นที่ตอนนี้คุณต้องรับผิดชอบส่วนบุคคลเนื่องจากคุณไม่สามารถคาดหวังว่าจะเป็นสิทธิ์ดีฟอลต์ได้

สิ่งที่คุณสามารถทำได้เพื่อปกป้องข้อมูลส่วนบุคคลของคุณ:

ขั้นตอนเดียวที่ใหญ่ที่สุดที่คุณสามารถทำได้คือการปกปิดนิสัยประจำวันของคุณโดยใช้การเชื่อมต่อเครือข่าย VPN บริการ VPN จะแย่งสัญญาณของคุณเพื่อให้ข้อมูลประจำตัวและตำแหน่งของคุณถูกสวมหน้ากากอย่างน้อยบางส่วนจากแทร็กเกอร์ การทำเช่นนี้จะไม่ทำให้คุณเป็นแบบไม่ระบุชื่อ 100% แต่ VPN จะช่วยลดจำนวนผู้คนทั่วโลกที่สามารถสังเกตพฤติกรรมออนไลน์ของคุณได้

ฉันสามารถเรียนรู้เพิ่มเติมเกี่ยวกับข้อมูลขนาดใหญ่ได้ที่ไหน?

Monty Raskusen / Getty

ข้อมูลขนาดใหญ่เป็นสิ่งที่น่าสนใจสำหรับผู้ที่มีจิตใจในการวิเคราะห์และรักเทคโนโลยี ถ้าเป็นเช่นนั้นคุณก็เยี่ยมชมหน้าโครงการข้อมูลขนาดใหญ่ที่น่าสนใจนี้