👋 สวัสดีจ้าาา วันนี้แอดจะพาเพื่อน ๆ มาทำความรู้จักกับ Data Lakes กันน !! มันคืออะไร สำคัญยังไง มาหาคำตอบไปพร้อม ๆ กันเลยจ้าาา
.
📑 Data Lakes - เป็นศูนย์รวมการเก็บข้อมูลจากทุก ๆ แหล่ง สามารถเก็บข้อมูลแบบ Structured หรือ Unstructured ก็ได้ ไม่ต้องเปลี่ยนแปลงข้อมูลก่อนการจัดเก็บ และสามารถดึงข้อมูลมาใช้ได้อย่างรวดเร็ว โดยข้อมูลเหล่านี้จะนำมาใช้ในการวิเคราะห์, สร้าง Dashboard, รวมไปถึงการประมวลผล Big Data และ Machine Learning
.
🌈 Data Lakes พัฒนาเพื่อลบข้อจำกัดของ Data Warehouse แม้ว่า Data Warehouse จะช่วยให้ธุรกิจมีการวิเคราะห์ข้อมูลที่มีประสิทธิภาพสูง แต่มันก็ยังมีข้อจำกัดในเรื่องของราคาและเรื่องการปรับขนาด ซึ่งมันจะทำให้เสีย Cost ตรงนี้มากขึ้น ซึ่งเจ้า Data Lakes เป็นสถาปัตยกรรมที่ทันสมัยกว่า เก็บข้อมูลไว้ที่ศูนย์กลาง โดยไม่ต้องกำหนดโครงสร้างของข้อมูล รองรับข้อมูลได้หลากหลาย มีความสามารถในการปรับขนาดได้ มีความทนทานสูง และต้นทุนต่ำกว่า เหมาะกับการนำไปทำ Machine Learning มากกว่า
.
✨ ประโยชน์
- สามารถจัดเก็บข้อมูลแบบไม่มี Schema ได้ เมื่อข้อมูลถูกอ่านระหว่างการประมวลผลจะถูกปรับให้เป็นข้อมูลที่มี Schema ตามที่จำเป็น ซึ่งมันจะช่วยประหยัดเวลาไปเยอะเลยนั่นเอง
- สามารถเข้าถึงข้อมูล จัดเตรียม และวิเคราะห์ข้อมูลได้รวดเร็ว
- มีความยืดหยุ่นสูง และต้นทุนต่ำ
.
💡 มันสำคัญยังไงกันนะ ?
องค์กรที่มีการทำ Data Lakes ทำให้มีการวิเคราะห์ข้อมูลประเภทใหม่ และสามารถเข้าถึงแหล่งข้อมูลใหม่ ๆ มากขึ้น ซึ่งจะช่วยให้เพิ่มประสิทธิภาพในการตัดสินใจทางธุรกิจ ดึงดูดลูกค้า และมีโอกาสเติบโตมากกว่านั่นเอง (อ้างอิงจากผลสำรวจ Aberdeen)
.
💥 อ่านเพิ่มเติมได้ที่ : https://aws.amazon.com/th/big-data/datalakes-and-analytics/what-is-a-data-lake/ ,
https://databricks.com/discover/data-lakes/introduction , https://www.talend.com/resources/what-is-data-lake/ ,
https://s3-ap-southeast-1.amazonaws.com/mktg-apac/Big+Data+Refresh+Q4+Campaign/Aberdeen+Research+-+Angling+for+Insights+in+Today's+Data+Lake.pdf
.
หากใครชอบเนื้อหานี้ ฝากกดไลค์กดแชร์เป็นกำลังใจให้แอดด้วยน้าาาา 😍
.
borntoDev - 🦖 สร้างการเรียนรู้ที่ดีสำหรับสายไอทีในทุกวัน
s3 data lake 在 軟體開發學習資訊分享 Facebook 的最佳貼文
在本課程中,我們將首先理解什麼時候資料湖泊( Data Lake )是你該選用的解決方案,而不是用資料倉庫。
在接下來的兩個小時中,你將學習資料湖泊( Data Lake )的所有組成部分。
其優點之一是可以靈活地使用 SQL 直接查詢檔案。
你將從建構 Glue Data 目錄並使用 Athena 進行查詢開始。
然後將致力於 Glue ETL,這是一個強大的基於 Apache Sppark 的資料轉換解決方案。
為了演示 Athena 的可伸展性,我們將查詢具有超過1.3億條評論的 Amazon Customer Reviews (亞馬遜客戶評論) 資料集。
最後,我們將使用 Kinesis Firehose、 Lambda、Comprehend AI、 Glue、 Athena 和 S3 建構一個無伺服器的應用程式,它可以處理無限條客戶評論、執行情緒分析,並將其儲存在資料庫中供查詢。
https://softnshare.com/data-lake-in-aws/
s3 data lake 在 eCloudvalley Facebook 的最讚貼文
"ironSource built a multi-purpose data lake with Upsolver, Amazon S3, and Amazon Athena to enable data consumers to work independently with data, while significantly improving data freshness, which helps power both the company’s internal decision-making and external reporting."
https://ecloudvalley.pse.is/ironSource-data-lake
<< Reprinted from AWS Blog >>
s3 data lake 在 8 Examples of Data Lake Architectures on Amazon S3 的相關結果
S3 is used as the data lake storage layer into which raw data is streamed via Kinesis. AWS Lambda functions are written in Python to process the ... ... <看更多>
s3 data lake 在 Is S3 a data lake? - Quora 的相關結果
Amazon S3 is unlimited, durable, elastic, and cost-effective for storing data or creating data lakes. A data lake on S3 can be used for reporting, ... ... <看更多>
s3 data lake 在 資料湖儲存體| AWS 的相關結果
Amazon Simple Storage Service (S3) 是最大和最具效能的物件儲存服務,用於 ... 然後,Lake Formation 會收集不同來源的資料,並將資料遷移至Amazon S3 的新資料湖。 ... <看更多>