หน้าแรก Storage Big Data ข้อมูลเบื้องต้นที่คุณควรรู้เกี่ยวกับ Data Lake

ข้อมูลเบื้องต้นที่คุณควรรู้เกี่ยวกับ Data Lake

แบ่งปัน

น้ำนิ่งไหลลึก เป็นสุภาษิตที่ได้ยินกันมานาน ที่บรรยายถึงลักษณะของสิ่งที่เรียกว่า Data Lake ได้เป็นอย่างดี ตัว Data Lake นับเป็นแหล่งเก็บข้อมูลหรือสตอเรจที่เก็บข้อมูลดิบจำนวนมากในรูปแบบดั้งเดิมทิ้งไว้จนกว่าจะมีการร้องขอจากแอพพลิเคชั่น อย่างเช่นการวิเคราะห์เชิงพยากรณ์

ลักษณะที่เหมือนน้ำก็คือ Data Lake ดูเหมือนเป็นน้ำที่มืดและลึกลับอันเกิดจากความเข้าใจผิดเกี่ยวกับเทคโนโลยีนี้ ซึ่งความเข้าใจผิดบางอย่างอาจส่งผลสร้างความเสียหาย หรือถึงขนาดต้องล้มโปรเจ็กต์ได้เลยทีเดียว ดังนั้นจึงควรทำเข้าใจกับหลักการของ Data Lake ดังต่อไปนี้

เริ่มต้นจาก Data Lake และ Data Warehouse นั้นไม่เหมือนกัน โดย Data Warehouse จะเก็บข้อมูลที่ถูกโหลดมาจากระบบต้นกำเนิดตามเกณฑ์ที่กำหนดไว้ล่วงหน้า ขณะที่ Data Lake จะเก็บข้อมูลดิบที่ยังไม่ได้จัดการใดๆ ก่อนเอาเข้า Lake เพื่อให้ทีมงานที่หลากหลายภายในองค์กรนำข้อมูลไปวิเคราะห์ต่อได้

แม้จะนิยามต่างกัน แต่ทั้ง Data Lake และ Data Warehouse ก็สามารถทำงานร่วมกันในรูปโมเดลแบบไฮบริดจ์ได้ เพื่อเปิดให้บริษัทต่างๆ สตรีมข้อมูลเข้ามายัง Data Lakeแล้วย้ายไปยังซับเซ็ตที่เลือกไว้บนโครงสร้างที่เกี่ยวข้องต่อได้ทันที

เมื่อข้อมูลมีอายุผ่านถึงจุดหนึ่ง หรือถูกพิจารณาว่าไม่มีประโยชน์แล้ว ก็สามารถโยกข้อมูลกลับมายัง Data Lake ได้โดยอัตโนมัติเพื่อให้เก็บรักษาข้อมูลโดยมีค่าใช้จ่ายที่ต่ำกว่าในระยะยาว แต่ก็ไม่ควรมอง Data Lake เสมือนเป็นถังขยะดิจิตอล แม้จะสามารถจัดเก็บข้อมูลทั้งแบบ Structured, Unstructured, และ Semi-Structured ในรูปข้อมูลดิบ

เพราะการที่ข้อมูลไม่ได้ถูกประมวลผลหรือวิเคราะห์ก่อนนำเข้ามาใน Lake จึงควรบำรุงรักษาและอัพเดท Data Lake เป็นประจำ เพื่อให้ผู้ใช้ทุกคนรู้แหล่งข้อมูลใน Lake สำหรับการนำไปวิเคราะห์ได้อย่างเหมาะสม โดยสิ่งที่สำคัญมากที่สุดในการสร้าง Data Lake คืดขั้นตอนการเพิ่มข้อมูลพร้อมกับการทำให้แน่ใจว่าแคตตาล็อกได้รับการอัพเดทไปพร้อมกัน

ทั้งนี้ เพื่อให้แคตตาล็อกเป็นปัจจุบัน และเข้าถึงได้ตลอด มิฉะนั้นอาจทำให้กลุ่มข้อมูลที่เป็นประโยชน์สูญหายได้ ตัวแคตตาล็อกนี้จะช่วยให้นักวิเคราะห์จัดการแหล่งข้อมูล พร้อมทั้งวัตถุประสงค์การใช้งาน แหล่งกำเนิด และชื่อเจ้าของข้อมูลไว้เป็นหมวดหมู่

ที่มา : Networkcomputing