ETL là gì? Giải thích về ETL – AWS

Trích xuất, chuyển đổi và tải (ETL) bắt nguồn từ sự xuất hiện của các cơ sở dữ liệu quan hệ trong đó dữ liệu được lưu trữ dưới dạng bảng để phân tích. Các công cụ ETL ban đầu đã cố gắng chuyển đổi dữ liệu từ định dạng dữ liệu giao dịch sang định dạng dữ liệu quan hệ để phân tích.

ETL truyền thống

Dữ liệu thô trước đây thường được lưu trữ trong cơ sở dữ liệu giao dịch hỗ trợ nhiều yêu cầu đọc và ghi nhưng không phù hợp với phân tích. Bạn có thể coi nó như một hàng trong bảng tính. Ví dụ: trong hệ thống thương mại điện tử, cơ sở dữ liệu giao dịch lưu trữ thông tin mặt hàng đã mua, chi tiết khách hàng và chi tiết đơn đặt hàng trong một giao dịch. Trong năm, nó ghi lại một danh sách dài các giao dịch với các mục nhập lặp lại cho cùng một khách hàng đã mua nhiều mặt hàng trong năm đó. Do sự trùng lặp dữ liệu, việc phân tích các mặt hàng phổ biến nhất hoặc xu hướng mua hàng trong năm đó trở nên phức tạp.

Để khắc phục vấn đề này, các công cụ ETL đã tự động chuyển đổi dữ liệu giao dịch này thành dữ liệu quan hệ với các bảng được liên kết với nhau. Các nhà phân tích có thể sử dụng các truy vấn để xác định mối quan hệ giữa các bảng, ngoài các mẫu và xu hướng.

ETL hiện đại

Khi công nghệ ETL phát triển, cả loại dữ liệu và nguồn dữ liệu đều tăng theo cấp số nhân. Công nghệ đám mây đã xuất hiện để tạo ra cơ sở dữ liệu rộng lớn (còn gọi là bộ góp dữ liệu). Các bộ góp dữ liệu như vậy có thể nhận dữ liệu từ nhiều nguồn và có các tài nguyên phần cứng cơ sở có khả năng mở rộng theo thời gian. Các công cụ ETL cũng trở nên tinh vi hơn và có thể hoạt động với các bộ góp dữ liệu hiện đại. Chúng có thể chuyển đổi dữ liệu từ các định dạng dữ liệu cũ sang các định dạng dữ liệu hiện đại. Sau đây là các ví dụ về cơ sở dữ liệu hiện đại.

Kho dữ liệu

Kho dữ liệu là kho lưu trữ trung tâm có thể lưu trữ nhiều cơ sở dữ liệu. Trong mỗi cơ sở dữ liệu, bạn có thể sắp xếp dữ liệu của mình thành các bảng và cột mô tả loại dữ liệu trong bảng. Phần mềm kho dữ liệu hoạt động trên nhiều loại phần cứng lưu trữ, chẳng hạn như ổ cứng thể rắn (SSD), ổ cứng và lưu trữ đám mây khác, để tối ưu hóa việc xử lý dữ liệu của bạn.

Hồ dữ liệu

Với hồ dữ liệu, bạn có thể lưu trữ toàn bộ dữ liệu có cấu trúc và không có cấu trúc tại một kho tập trung ở bất kỳ quy mô nào. Bạn có thể lưu trữ dữ liệu nguyên trạng mà không cần phải cấu trúc dữ liệu trước dựa trên các câu hỏi mà bạn có thể có trong tương lai. Hồ dữ liệu cho phép bạn sử dụng nhiều loại phân tích khác nhau trên dữ liệu của bạn như truy vấn SQL, phân tích dữ liệu lớn, tìm kiếm toàn văn bản, phân tích thời gian thực và máy học (ML) để định hướng các quyết định tốt hơn.