Apache Spark trên Amazon EMR – Nền tảng dữ liệu lớn – Amazon Web Services

Amazon EMR là nơi tốt nhất để chạy Apache Spark. Bạn có thể nhanh chóng và dễ dàng tạo các cụm Spark được quản lý từ Bảng điều khiển quản lý AWS, AWS CLI hoặc Amazon EMR API. Ngoài ra, bạn có thể tận dụng các tính năng bổ sung của Amazon EMR, bao gồm kết nối Amazon S3 nhanh chóng bằng cách sử dụng Hệ thống tệp Amazon EMR (EMRFS), khả năng tích hợp với thị trường Amazon EC2 Spot và Danh mục dữ liệu AWS Glue, cũng như Mở rộng quy mô được quản lý EMR để thêm hoặc xóa các phiên bản khỏi cụm của bạn. AWS Lake Formation đem đến khả năng kiểm soát truy cập chi tiết, trong khi đó việc tích hợp với AWS Step Functions sẽ giúp điều phối các quy trình dữ liệu của bạn. EMR Studio (bản xem trước) là môi trường phát triển tích hợp (IDE) giúp các nhà khoa học dữ liệu và kỹ sư dữ liệu dễ dàng phát triển, trực quan hóa và gỡ lỗi các ứng dụng kỹ thuật dữ liệu và khoa học dữ liệu được viết ở R, Python, Scala và PySpark. EMR Studio cung cấp sổ ghi chép Jupyter được quản lý đầy đủ và các công cụ như Spark UI và YARN Timeline Service để đơn giản hóa việc gỡ lỗi. EMR Notebooks giúp bạn dễ dàng thử nghiệm và xây dựng các ứng dụng với Spark. Nếu thích, bạn có thể sử dụng Apache Zeppelin để tạo các máy tính xách tay tương tác và kết hợp để khám phá dữ liệu sử dụng Spark.

Tìm hiểu thêm về Apache Spark tại đây.