หน้าแรก Storage เราจะจัดการกับ “ทะเลข้อมูล” (Data Lake) กันอย่างไรดี !?

[บทความ] เราจะจัดการกับ “ทะเลข้อมูล” (Data Lake) กันอย่างไรดี !?

แบ่งปัน
Image : marketingland

ทุกวันนี้ข้อมูลที่องค์กรต้องการนำมาใช้นั้นมีมากดั่งทะเลข้อมูลอันกว้างใหญ่ไพศาล ทำให้ต้องใช้เครื่องมือมากมายในการจัดการกับข้อมูลอันมหาศาลที่มีอยู่ แต่สุดท้ายก็ยังไม่สามารถแยกแยะและใช้ประโยชน์ของข้อมูลได้หมดสิ้น โดยเฉพาะอย่างยิ่งเมื่อธุรกิจในปัจจุบันนั้นเป็นการทำธุรกิจผ่านระบบออนไลน์ในรูปแบบต่างๆ ซึ่งอยู่ในรูปแบบ Unstructured ทำให้ไม่สามารถใช้วิธีการจัดเก็บไว้ในระบบฐานข้อมูลในรูปแบบเดิมๆ ได้อีกต่อไป

ยิ่งเมื่อผู้บริโภคในยุคปัจจุบันมีการใช้อุปกรณ์ประเภทสมาร์ตโฟนและแท็บเล็ตกันอย่างแพร่หลาย จึงมีแอพพลิเคชั่นที่ถูกพัฒนามาเพื่อสนับสนุนการใช้โซเชียลเน็ตเวิร์กอย่างมากมาย ทำให้พฤติกรรมในการบริโภคและรูปแบบของโฆษณาที่มีการเฉพาะเจาะจงกลุ่มเป้าหมายที่ต้องการมากยิ่งขึ้น ทำให้เครื่องมือในการจัดการข้อมูลแบบเดิมๆ ไม่ตอบโจทย์อีกต่อไป

อันที่จริงแล้ว ถ้ามีการจัดเก็บข้อมูลอย่างเหมาะสมและนำมาวิเคราะห์ให้ดี จะพบว่าข้อมูลเหล่านี้เปรียบเสมือนขุมทรัพย์ที่จะทำให้ธุรกิจเติบโตได้อย่างมาก เพราะข้อมูลที่หลากหลายนั้นสามารถนำมาสร้างมูลค่าเพิ่มให้กับองค์กรได้ในหลายๆ มุมมอง และหากมีเครื่องมือที่เหมาะสมก็ยิ่งจะช่วยให้การนำข้อมูลออนไลน์มาใช้ในการดำเนินธุรกิจนั้นเกิดประสิทธิภาพในการวิเคราะห์ข้อมูลจนสามารถนำมาใช้ประโยชน์ได้ดียิ่งขึ้น ทำให้เกิดมุมมองใหม่ๆ สามารถมองเห็นในสิ่งที่คู่แข่งยังมองไม่เห็นหรือไม่ได้ใส่ใจที่จะนำมาใช้ ทำให้องค์กรของเราได้เปรียบหรือมีความเหนือชั้นกว่าในการดำเนินธุรกิจ และมีโอกาสประสบความสำเร็จมากกว่าคู่แข่ง เครื่องมือที่ว่านั้นก็คือ Big Data นั่นเอง

ฝันร้ายของ DBA
จากประโยชน์ของ Big Data ที่กล่าวไปเบื้องต้น จึงทำให้หลายๆ องค์กรตื่นเต้นและต้องการนำมาใช้ในองค์กร แต่สำหรับ DBA แล้วมันเหมือนกับฝันร้าย เพราะกว่าจะจัดการกับข้อมูลในปัจจุบันให้สามารถดึงไปทำ BI (Business Intelligent) และ data mining ได้นั้น แม้จะใช้เวลาตั้งหลายปีก็ยังไม่เสร็จสมบูรณ์ มาวันนี้จะเปลี่ยนมาทำ Big Data ซึ่งถือได้ว่าเป็นการกลับขั้วกับ BI เลยทีเดียว เพราะ BI นั้นจะทำการรวบรวมข้อมูล history มาเพื่อวิเคราะห์ทำให้ได้ข้อมูลที่เป็นอดีต (-1 วันเป็นอย่างน้อย) แต่สำหรับ Big Data แล้วนั้นจะใช้ข้อมูล Operation ที่เป็นปัจจุบัน ดังนั้นจึงทำให้ได้ข้อมูลวิเคราะห์เพื่อประกอบการตัดสินใจที่เป็น “LIVE” ในขณะนั้นเลยทีดียว

ซึ่งรูปแบบในการจัดเก็บและปกป้องข้อมูล, การควบคุมการเข้าถึงข้อมูล รวมถึงความเสถียรของระบบฐานข้อมูล ถือเป็นความท้าทายของ DBA อย่างมาก แต่อย่างน้อย Big Data ก็ไม่ใช่แค่แนวคิดทฤษฏีที่จับต้องไม่ได้ เพราะมีหลายองค์กรได้นำไปติดตั้งและใช้งานจนประสบความสำเร็จในระดับกลุ่มผู้นำของธุรกิจ อาทิเช่น Google, Facebook, Twitter, Yahoo เป็นต้น โดยที่ถึงแม้ Hadoop ที่เป็น Framework หลักของ Big Data จะถือกำเนิดมาจากเทคโนโลยีเปิด แต่ก็ได้ผ่านการพิสูจน์มามากมายจนเป็นที่ยอมรับในตลาด ดังนั้นจึงถือได้ว่าในฝันร้ายยังพอมีเรื่องดีให้เห็นอยู่บ้าง

การจัดการสตอเรจ…..ปัญหาใหญ่ของ Big Data
ถึงแม้ว่าข้อมูลที่ใช้ในการทำ Big Data นั้นควรจะต้องเป็นข้อมูล Production แต่การ duplicate ข้อมูล Production ออกมาตลอดเวลานั้นไม่ใช่เรื่องง่ายเลย โดยเฉพาะเมื่อต้องผ่านกระบวนการ Extract, Transform and Load (ETL) processes เพื่อให้ข้อมูลสามารถโหลดลง Hadoop ได้นั้นย่อมต้องมีผลกระทบต่อฟังก์ชั่น data deduplicate อย่างไม่ต้องสงสัย (กรณีที่องค์กรนั้นมีการนำเทคโนโลยี data deduplicate มาใช้)

hadoop

นอกจากนี้เรื่องประสิทธิภาพในการ duplicate ข้อมูล Production ออกไปเก็บที่ Hadoop ก็เป็นอีกสิ่งที่ท้าทาย เพราะขนาดข้อมูลที่ใช้ในการทำ BI ยังมากมายจนกระทั่งต้องหลบทราฟฟิกที่เกิดขึ้นในช่วงเวลาทำงานด้วยการทำ ETL เพื่อโหลดข้อมูลลง Data warehouse หลังเที่ยงคืน ซึ่งเป็นช่วงเวลาที่ Operation มีการทำงานน้อยที่สุด ดังนั้นหาก Hadoop จะต้อง duplicate data ออกมาในเวลาเดียวกันนั้นก็ย่อมหลีกเลี่ยงปริมาณทราฟฟิกที่เพิ่มขึ้นไม่ได้เลย จึงไม่ใช่แต่เพียงแค่สตอเรจที่มีความต้องการเพิ่มขึ้น แม้แต่ระบบเครือข่ายก็มีความต้องการแบนด์วิดธ์เพิ่มมากขึ้นด้วยเช่นกัน แต่ทั้งนี้ก็ขึ้นกับแนวทางในการทำงานของแต่ละองค์กร เพราะในปัจจุบันมีหลายๆ องค์กรที่ยังคงต้องการใช้ประโยชน์จากระบบ BI เดิมที่มีอยู่ก็อาจจะผสมผสานเอา Hadoop เข้ามาทำ ETL และยอมรับกับข้อจำกัดในเรื่องข้อมูลย้อนหลัง (day-1) หรืออาจจะแยกทำข้อมูลออนไลน์เพิ่มเฉพาะในส่วนที่สนใจก็ได้ ไม่ถือว่าผิดหลักการแต่อย่างใด

อีกหนึ่งสิ่งที่เพิ่มขึ้นมาใหม่พร้อมๆ กับ Big Data ก็คือโปรโตคอล HDFS (Hadoop Distributed File System) ที่ไม่ใช่ว่าอุปกรณ์สตอเรจใดๆ ก็สามารถรองรับโปรโตคอลนี้ได้ เพราะมันเป็นฟีเจอร์ที่มีเฉพาะผลิตภัณฑ์ที่ออกมาใหม่ๆ เท่านั้น ดังนั้นอุปกรณ์สตอเรจที่ไม่ได้รองรับโปรโตคอล HDFS จึงต้องใช้งานผ่านโปรโตคอล NFS ที่มีอยู่แล้วแทนโดยทำงานผ่าน Hadoop virtualization ซึ่งจะช่วยแปลงโปรโตคอลอื่นให้มาใช้โปรโตคอล HDFS ได้ แต่นั่นก็ต้องยอมรับว่าความสามารถของ NFS นั้นก็ไม่สามารถเทียบเท่ากับ HDFS ได้นะครับ

ข้อควรระวัง
ถึงแม้ว่า Big data จะเป็นแนวคิดที่ดี แต่ก็ไม่ได้สามารถจัดการกันง่ายๆ แบบที่เรียกว่าปอกกล้วยเข้าปาก เพราะยังมีความต้องการการดูแลจากผู้ดูแลระบบอย่างใกล้ชิดเพื่อปรับแต่งให้ระบบมีความพร้อมต่อการทำงานตามที่องค์กรคาดหวัง โดยสิ่งที่ควรระมัดระวังในการทำ Big Data ก็คือ

1.  Index ของข้อมูล (ทั้ง data และ metadata) นั้นควรจะประกอบด้วย แหล่งข้อมูล, เวอร์ชั่น, ความจริงของข้อมูล และ ความถูกต้องของข้อมูล ที่ทำให้สามารถจัดหมวดหมู่ของข้อมูลได้อย่างเหมาะสม เพราะถ้าปราศจากสิ่งนี้เราจะได้แต่เก็บข้อมูลมหาศาลที่ไม่มีวันนำมาทำอะไรได้เลย
2.  Security ของข้อมูล ทั้งในเรื่องของการกำหนดสิทธิ์, ล็อกในการตรวจสอบ และการอนุญาตให้เข้าถึงซับเซตของข้อมูล เป็นต้น เพราะยิ่งมีการเก็บข้อมูลมากเท่าใด ความเสี่ยงที่ข้อมูลความลับขององค์กรจะหลุดไปอยู่ในมือของคนที่ไม่สมควรก็มากขึ้นด้วย ดังนั้นการรักษาความปลอดภัยจึงเป็นอีกสิ่งที่ควรให้ความใส่ใจอย่างมาก
3.  IT governance ขององค์กรที่ต้องปฏิบัติตาม ไม่ว่าจะเป็นข้อบังคับจากกฏหมาย หรือข้อบังคับขององค์กรก็ตาม จะต้องมีการจัดการกับข้อมูลเหมือนกับระบบอื่นๆ ตั้งแต่เริ่มสร้างข้อมูลจนกระทั่งทำลายข้อมูลทิ้งหลังจากเลิกใช้งานตามมาตรการที่องค์กรกำหนดเอาไว้
4.  Data Protection ตามนโยบายขององค์กร โดยถ้าองค์กรของท่านไม่ได้มีนโยบาย BCP/DRP ที่จะต้องมีการทำไซต์สำรอง อย่างน้อยองค์กรก็ต้องมีนโยบายในการแบ็กอัพข้อมูล ซึ่งถ้ามีการจัดการอย่างเหมาะสมเมื่อระบบมีปัญหาจะได้สามารถนำข้อมูลกลับมาใช้งานได้เร็วที่สุด

ที่มา : นิตยสาร Enterprise ITPro