Hồ dữ liệu tích hợp SageMaker là gì?

Lakehouse của Amazon SageMaker thống nhất tất cả dữ liệu của bạn trên các hồ dữ liệu Amazon Simple Storage Service (Amazon S3), bao gồm Bảng S3, và kho dữ liệu Amazon Redshift, từ đó giúp bạn xây dựng các ứng dụng phân tích và AI/ML mạnh mẽ trên một bản sao dữ liệu duy nhất. Hồ dữ liệu tích hợp SageMaker cho phép bạn truy cập và truy vấn dữ liệu tại chỗ một cách linh hoạt bằng tất cả công cụ và máy phân tích tương thích với Apache Iceberg. Bảo mật dữ liệu của bạn trong hồ dữ liệu bằng cách xác định quyền chi tiết được thực thi trên tất cả các công cụ và phương tiện phân tích cũng như máy học (ML). Đưa dữ liệu từ các ứng dụng và cơ sở dữ liệu vận hành vào hồ dữ liệu của bạn gần như theo thời gian thực thông qua tích hợp không ETL. Ngoài ra, truy cập và truy vấn dữ liệu tại chỗ nhờ khả năng truy vấn liên kết trên các nguồn dữ liệu của bên thứ ba.

Quan sát cách thức hoạt động

Xem cách bạn có thể truy cập dữ liệu thống nhất từ hồ dữ liệu S3, Bảng S3 và kho dữ liệu Redshift trong Lakehouse của SageMaker.

hình thu nhỏ của lakhouse của sagemaker

Lợi ích

Hợp nhất tất cả dữ liệu của bạn trên các hồ dữ liệu Amazon S3, bao gồm Bảng S3, và kho dữ liệu Amazon Redshift với SageMaker Lakehouse. Di chuyển dữ liệu của bạn từ cơ sở dữ liệu và ứng dụng liên quan đến vận hành vào hồ dữ liệu tích hợp gần theo thời gian thực thông qua tích hợp không ETL. Bạn có thể sử dụng hàng trăm đầu nối để tích hợp dữ liệu từ nhiều nguồn khác nhau. Ngoài ra, bạn có thể truy cập và truy vấn dữ liệu tại chỗ với khả năng truy vấn liên kết trên các nguồn dữ liệu của bên thứ ba.
Sử dụng các công cụ và phương tiện ưa thích của bạn, tương thích với tiêu chuẩn mở Apache Iceberg. Mang đến khả năng linh hoạt để truy cập và truy vấn dữ liệu của bạn tại chỗ với tất cả các công cụ tương thích với Apache Iceberg trên một bản sao dữ liệu duy nhất. Tương thích với thông số danh mục REST của Iceberg, Lakehouse của SageMaker cho phép bạn sử dụng các công cụ phân tích và công cụ tùy chọn, chẳng hạn như SQL, Apache Spark, nghiệp vụ thông minh (BI) và các công cụ AI/ML, đồng thời cộng tác với dữ liệu được lưu trữ trên các hồ dữ liệu Amazon S3 và kho dữ liệu Amazon Redshift. Lakehouse của SageMaker hoạt động với kiến trúc dữ liệu hiện có của bạn, cho phép bạn sử dụng các định dạng lưu trữ và công cụ truy vấn ưa thích, tương thích với Apache Iceberg.
Bảo mật dữ liệu của bạn với các biện pháp kiểm soát truy cập tích hợp, chi tiết được thực thi trên tất cả dữ liệu của bạn trong tất cả các công cụ và công cụ phân tích. Xác định quyền một lần và tự tin chia sẻ dữ liệu trên toàn tổ chức của bạn.

Trường hợp sử dụng

Hợp nhất tất cả dữ liệu của bạn trên các hồ dữ liệu Amazon S3 và kho dữ liệu Amazon Redshift cho các sáng kiến phân tích và AI của bạn với một bản sao dữ liệu duy nhất. Với các kiểm soát truy cập tích hợp, SageMaker Lakehouse cho phép bạn xác định các quyền chi tiết và chia sẻ một bản sao dữ liệu một cách an toàn trên toàn bộ tổ chức.
Truy cập dữ liệu gần thời gian thực trên cơ sở dữ liệu hoạt động và ứng dụng trong SageMaker Lakehouse thông qua tích hợp không ETL. Truy cập và truy vấn dữ liệu của bạn tại chỗ, từ một loạt các dịch vụ AWS cũng như các công cụ mã nguồn mở và các công cụ của bên thứ ba hỗ trợ Apache Iceberg.
Đưa dữ liệu hiện có từ nhiều kho dữ liệu Amazon Redshift vào SageMaker Lakehouse để truy vấn và tham gia dữ liệu được lưu trữ trong các cụm và nhóm làm việc Amazon Redshift. Mở rộng khối lượng công việc của bạn cho các quy trình trích xuất, chuyển đổi và tải (ETL), báo cáo BI và phân tích khi cần thiết mà không cần quản lý nhiều chia sẻ dữ liệu.

Khách hàng

Lennar

"Chúng tôi đã dành 18 tháng qua để làm việc với AWS nhằm chuyển đổi nền tảng dữ liệu của mình để sử dụng các giải pháp tốt nhất trong ngành, đồng thời tiết kiệm chi phí. Với những tiến bộ như Studio hợp nhất của Amazon SageMaker và Lakehouse của Amazon SageMaker, chúng tôi sẽ đẩy nhanh tốc độ phân phối thông qua truy cập liền mạch vào dữ liệu và dịch vụ, từ đó cho phép các kỹ sư, nhà phân tích và nhà khoa học công bố những thông tin chuyên sâu mang lại giá trị vật chất cho doanh nghiệp của chúng tôi."

Lee Slezak, Phó chủ tịch phụ trách Dữ liệu và Phân tích, Lennar

Roche

Roche là công ty tiên phong trên toàn cầu về dược phẩm và chẩn đoán, tập trung vào việc thúc đẩy khoa học để cải thiện cuộc sống của mọi người.

"Chúng tôi đã sử dụng Amazon Redshift để thu thập thông tin chuyên sâu từ cả dữ liệu cấu trúc và bán cấu trúc trên tất cả các kho dữ liệu của mình. Tôi rất hào hứng với tiềm năng của Lakehouse của Amazon SageMaker mới trong việc tăng cường và hợp nhất quyền truy cập vào hồ dữ liệu hoặc các nguồn dữ liệu khác với các dịch vụ như Amazon Redshift, Danh mục dữ liệu AWS Glue và AWS Lake Formation. Sự đổi mới này sẽ cho phép các đội ngũ dữ liệu và kỹ thuật của chúng tôi đơn giản hóa việc truy cập dữ liệu, thúc đẩy khả năng tương tác giữa dữ liệu, phân tích và khối lượng công việc ứng dụng. Tôi dự đoán lỗi dữ liệu sẽ giảm đáng kể nhờ vào việc sao chép dữ liệu ít hơn, thời gian xử lý giảm xuống 40%, rút ngắn tốc độ ghi lại dữ liệu phân tích vào các hệ thống giao dịch để cải thiện việc ra quyết định và trao quyền cho các nhóm của chúng tôi tập trung vào việc tạo ra giá trị kinh doanh.”

Yannick Misteli, Trưởng bộ phận Kỹ thuật, Chiến lược sản phẩm toàn cầu, Roche

Roche

Idealista

Idealista hỗ trợ các đại lý bất động sản và cá nhân tư nhân trên khắp Nam Âu bằng cách cung cấp một nền tảng rao vặt bất động sản trực tuyến.

“Mục tiêu của chúng tôi là hợp lý hóa khả năng truy cập vào dữ liệu Salesforce để thực hiện phân tích nâng cao trong hồ dữ liệu của chúng tôi. Bằng cách tận dụng khả năng hỗ trợ từ Lakehouse của Amazon SageMaker cho tính năng tích hợp không ETL từ các ứng dụng, chúng tôi có thể đơn giản hóa quy trình trích xuất và tải nhập dữ liệu của mình, loại bỏ nhu cầu sử dụng nhiều ETL để truy cập trực tiếp vào Salesforce. Cách tiếp cận tập trung này giúp giảm độ phức tạp và cải thiện đáng kể hiệu quả quản lý dữ liệu của chúng tôi. Chúng tôi dự đoán sẽ tiết kiệm đáng kể thời gian trong việc phát triển trích xuất và tải nhập dữ liệu, cho phép đội ngũ của chúng tôi tập trung vào việc thu thập thông tin chuyên sâu hữu ích từ dữ liệu của chúng tôi thay vì quản lý việc thu thập dữ liệu.”

Javier Monterrubio, Giám đốc kỹ sư Nền tảng dữ liệu, Idealista

Idealista

Carrier

“Tại Carrier, thế hệ Amazon SageMaker mới đang thay đổi chiến lược dữ liệu doanh nghiệp của chúng tôi bằng cách hợp lý hóa cách chúng tôi xây dựng và điều chỉnh quy mô các sản phẩm dữ liệu. Cách tiếp cận của Studio thống nhất SageMaker với việc khám phá, xử lý và phát triển mô hình dữ liệu đã đẩy nhanh đáng kể quá trình triển khai kho hồ dữ liệu của chúng tôi. Ấn tượng nhất là khả năng tích hợp liền mạch với danh mục dữ liệu hiện có của chúng tôi và các biện pháp kiểm soát quản trị tích hợp cho phép chúng tôi dân chủ hóa quyền truy cập dữ liệu trong khi vẫn duy trì các tiêu chuẩn bảo mật, qua đó giúp các nhóm của chúng tôi nhanh chóng cung cấp các giải pháp phân tích và AI tiên tiến trên toàn doanh nghiệp.”

Carrier

Đối tác

Tableau

Tableau giúp mọi người và tổ chức hoạt động dựa trên dữ liệu hơn.

“Sự hợp tác giữa Amazon và Salesforce Tableau thể hiện cam kết chung về đổi mới và sự thành công của khách hàng. Thông qua tích hợp không ETL mới của Amazon, chúng tôi kết hợp dữ liệu và phân tích dựa trên AI của Tableau với cơ sở hạ tầng dữ liệu mạnh mẽ của Amazon để chuyển đổi cách các tổ chức thu thập thông tin chuyên sâu từ dữ liệu của họ. Tích hợp liền mạch này cho phép khách hàng của chúng tôi có được thông tin chuyên sâu từ tất cả dữ liệu có cấu trúc và phi cấu trúc của họ bằng cách tận dụng khả năng từ Lakehouse của Amazon SageMaker và Amazon Redshift, giúp giảm đáng kể độ phức tạp kỹ thuật và thời gian triển khai. Cùng nhau, Tableau và Amazon giúp khách hàng đẩy nhanh quá trình chuyển đổi kỹ thuật số và thúc đẩy giá trị kinh doanh trên quy mô lớn.”

Ali Tore, Phó chủ tịch cấp cao phụ trách Phân tích nâng cao, Tableau

Tableau

dbt Labs

dbt Labs có sứ mệnh giúp các nhà phân tích tạo ra và phổ biến kiến thức tổ chức.

“Chúng tôi từ lâu đã trở thành tiêu chuẩn chuyển đổi trên Amazon Redshift, cung cấp sự linh hoạt, hợp tác và tin tưởng. Với Lakehouse của Amazon SageMaker mới, chúng tôi rất vui mừng được mở rộng giá trị này tới nhiều khách hàng hơn và thậm chí nhiều dữ liệu hơn trong môi trường AWS. Giờ đây, khách hàng có thể truy cập tất cả dữ liệu của họ trên hệ thống AWS, bao gồm kho dữ liệu và hồ dữ liệu. Chúng tôi rất vui mừng được kết hợp các tính năng của mình với Amazon SageMaker mới để cung cấp khả năng quản trị, lập danh mục và tối ưu hóa dữ liệu cho các khách hàng chung của chúng tôi.”

Shawn Toldo, Phó chủ tịch phụ trách Quan hệ đối tác, dbt Labs

dbt Labs

Informatica

Informatica, công ty hàng đầu trong lĩnh vực quản lý dữ liệu đám mây được hỗ trợ bởi AI cho doanh nghiệp, mang dữ liệu và AI vào cuộc sống bằng cách trợ giúp cho các doanh nghiệp nhận ra sức mạnh chuyển đổi từ các tài sản quan trọng nhất của họ.

“Nền tảng Intelligent Data Management Cloud (IDMC) của chúng tôi và Amazon SageMaker giúp các tổ chức khai thác tiềm năng dữ liệu và thúc đẩy đổi mới cùng với sự hiệu quả. Là đối tác ra mắt Lakehouse của Amazon SageMaker, chúng tôi tự hào cung cấp giải pháp cấp doanh nghiệp để đáp ứng các tiêu chuẩn cao của các tổ chức dựa trên dữ liệu hiện đại. Cùng với cơ sở hạ tầng của AWS, chúng tôi giúp đưa ra quyết định nhanh hơn, sáng suốt hơn để tạo nên kết quả có tác động trong các ngành công nghiệp.”

Pratik Parekh, Phó chủ tịch cấp cao phụ trách Quản lý sản phẩm, Informatica

Informatica