ETL là gì – minh – ETL là gì? ETL là tên viết tắt của Extract, Transform và Load. Trong quá trình – StuDocu

ETL là gì?

ETL là tên viết tắt của Extract, Transform và Load. Trong quá trình này, một công cụ ETL
trích xuất dữ liệu từ các hệ thống nguồn RDBMS khác nhau sau đó chuyển đổi dữ liệu
như áp dụng các biến đổi dữ liệu ( tính toán, nối chuỗi v. ) và sau đó tải dữ liệu vào hệ
thống Data Warehouse. ETL là những luồng từ “nguồn” tới ”đích”. Trong quá trình ETL,
engine chuyển đổi sẽ xử lý mọi thay đổi dữ liệu.

Vậy ELT là gì?

ELT là một phương pháp khác để tiếp cận công cụ chuyển động dữ liệu. Thay vì chuyển
đổi dữ liệu trước khi viết, ELT cho phép “hệ thống đích” chuyển đổi trước. Dữ liệu đầu
tiên được sao chép vào “đích” và sau đó được chuyển đổi tại đó. ELT thường được sử
dụng với các database No-SQL như Hadoop, Data Appliance hoặc Cloud Installation.

Sự khác nhau giữa ETL và ELT

ETL và ELT khác nhau ở những điểm sau:

Tóm Tắt

ETL ELT

1 trình Dữ liệu được chuyển đổi từ
server staging sau đó được
transfer tới Data warehouse DB

Dữ liệu vẫn còn trong DB của Data
warehouse

2 Usage Được sử dụng cho:-Những biến
đổi chuyên sâu về tính toán-
Lượng data nhỏ

Được sử dụng cho lượng data rất lớn

3ến đổi dữ liệu Các biến đổi được thực hiện
trong ETL server/staging

Các biến đổi được thực hiện bên
trong “hệ thống đích”

4ời gian load Dữ liệu trước tiên được load vào
staging sau đó mới load vào
“đích”. Cần nhiều thời gian

Dữ liệu được load vào “đích” chỉ 1
lần sau đó mới biến đổi. Nhanh hơn

5ời gian biến
đổi

Quá trình ETL bắt buộc cần quá
trình “Tranform” hoàn tất. Khi
kích thước dữ liệu tăng lên, thời

. Trong quá trình ELT, tốc độ không
bao giờ phụ thuộc vào kích thước
của dữ liệu.

ETL ELT

gian chuyển đổi cũng tăng theo.

6ời gian bảo
trì

Nhu cầu bảo trì là rất cao vì cần
phải chọn dữ liệu để load và
transform

Nhu cầu bảo trì là rất thấp vì dữ liệu
luôn có sẵn

7.Độ phức tạp khi
bắt đầu

Ở giai đoạn đầu thực hiện rất dễ
dàng

Để thực hiện quá trình ELT, cần phải
có những kiến thức rất sâu về các
tools và kĩ năng chuyên môn

8ỗ trợ Data
warehouse?

Mô hình ETL được sử dụng cho
dữ liệu on-premise, quan hệ và
có cấu trúc

Được sử dụng cho cơ sở hạ tầng
cloud có thể support các nguồn dữ
liệu có cấu trúc và phi cấu trúc

9ỗ trợ Data
Lake

Không support Cho phép sử dụng Data Lake với dữ
liệu phi cấu trúc

10.Độ phức tạp Quá trình ETL chỉ load những dữ
liệu quan trọng, như đã được xác
định trước từ thời điểm design

Quá trình này bao gồm tất cả quá
trình phát triển từ output-backward
và load những dữ liệu liên quan

11 phí Chi phí rất cao cho các doanh
nghiệp vừa và nhỏ

Chi phí đầu vào thấp khi sử dụng
các phần mềm online làm Services
Platforms

12 Trong quá trình ETL, cả 2 bảng
Facts và Dimensions cần có sẵn
trong Staging

Tất cả dữ liệu đều sẽ có sẵn vì
Extract và Load được thực hiện chỉ
trong 1 hành động

  1. Aggregations Độ phức tạp tăng lên với dữ liệu
    thêm vào trong dataset

Sức mạnh của target platform có thể
xử lí một lượng dữ liệu đáng kể 1
cách nhanh chóng

14ính toán Ghi đè lên cột đang có hoặc cần
cắm cờ và đẩy sang “đích”

Dễ dàng thêm cột đã được tính toán
vào bảng hiện có.

15 ETL đã được sử dụng trong hơn
2 thập kỷ. Nó có bộ tài liệu tốt và
dễ dàng để thực hành

Khái niệm tương đối mới và khá
phức tạp để triển khai

Phần 2 tự chọn 1 chủ đề làm etl(chăm sóc kh cm, bán hàng, phân tích thị trường, phân
tích tài chính, phân tích tình hình kd

mục tiêu gì- trích dữ liệu ra

Tuần sau hoc: xem video olap(online analytical)

Tìm hiểu: olap và oltp khác nhau chổ nào, phân tích xử lý trực tuyến khác gì pitch xử
lý giao dịch

Sự khác biệt giữa OLAP và OLTP được thể hiện qua những yếu tố sau:

  • Người dùng: Hệ thống OLTP được thiết kế dành cho nhân viên văn phòng trong khi
    đó hệ thống OLAP được thiết kế cho những người ra quyết định. Vì thế, mặc dù hệ
    thống OLTP có thể truy cập bởi hàng trăm, hàng nghìn khách hàng trong cùng một
    doanh nghiệp lớn thì hệ thống OLAP chỉ phù hợp để được truy cập bởi một nhóm
    người quản lý đã được lựa chọn và chỉ cho phép được sử dụng bởi hàng chục người
    dùng.

– Chức năng:

OLAP được thiết kế để phân tích đa chiều dữ liệu trong kho dữ liệu, chứa cả dữ liệu
giao dịch và dữ liệu lịch sử. Các ứng dụng phổ biến của OLAP bao gồm khai thác dữ
liệu, các ứng dụng thông minh trong kinh doanh, tính toán phân tích phức tạp cũng
như các chức năng báo cáo kinh doanh như: lập ngân sách, phân tích tài chính, lập kế
hoạch dự báo.

OLTP được thiết kế để hỗ trợ các ứng dụng hướng đến giao dịch bằng cách xử lý
những giao dịch gần đây một cách nhanh chóng và chính xác nhất có thể. Các ứng
dụng phổ biến của OLTP bao gồm: phần mềm thương mại điện tử, máy ATM, xử lý
thanh toán bằng thẻ tín dụng, hệ thống đặt chỗ và những công cụ lưu trữ hồ sơ.

  • Bản chất:

OLAP: OLAP không có chức năng xử lý hồ sơ của khách hàng cá nhân. Thay vào đó,
hệ thống OLAP sẽ bao gồm cung cấp thông tin tóm tắt hoặc tổng hợp lại cho người
quản lý truy vấn xử lý dữ liệu trong cùng một thời điểm.

OLTP: Các phương thức của OLTP được thiết kế để ghi từng bước một. Ví dụ: một dữ
liệu có liên quan đến người dùng có thể đang trong cửa hàng hàng hoặc đang sử dụng
điện thoại.

– Thiết kế:

OLAP: Các hoạt động của cơ sở dữ liệu OLAP được thiết kế theo hướng chủ đề và
xem thông tin dưới dạng đa chiều.

OLTP: Các hoạt động của cơ sở dữ liệu OLTP được thiết kế theo hướng ứng dụng và
xem bản ghi doanh nghiệp như một tập hợp các bảng.

– Dữ liệu:

OLAP: OLAP cần thông tin dữ liệu lịch sử trong vài năm bởi thông thường các xu
hướng rất cần thiết trong khi đưa ra quyết định.

OLTP: Thông thường OLTP xử lý trạng thái hiện tại của dữ liệu. Ví dụ: Một hồ sơ của
một nhân viên đã nghỉ việc cách đây 4 năm có thể sẽ không khả thi trên hệ thống nhân
sự.

– Loại sử dụng:

OLAP: Các phương thức trong OLAP thường không được cập nhật dữ liệu.

OLTP: Các phương thức trong OLTP được sử dụng hỗ trợ các thao tác đọc và ghi.

– Chế độ xem:

OLAP: Hệ thống OLAP xử lý các thông tin có nguồn gốc từ các doanh nghiệp khác
nhau, tích hợp các thông tin từ nhiều kho dữ liệu và được lưu trữ trên nhiều phương
tiện lưu trữ do khối lượng khá lớn. Ngoài ra, OLAP còn hỗ trợ cả dữ liệu trong quá
khứ.

OLTP: Hệ thống OLTP hầu như tập trung vào dữ liệu hiện tại của doanh nghiệp,
không đề cập tới dữ liệu lịch sử hay dữ liệu của các tổ chức khác nhau.

– Các mẫu truy cập:

OLAP: Do các kho dữ liệu của OLAP lưu trữ cả thông tin lịch sử nên việc truy cập
vào OLAP chủ yếu là các hoạt động chỉ đọc.

OLTP: Mẫu truy cập của hệ thống OLTP hầu như chỉ bao gồm các giao dịch nguyên
từ ngắn.

Olap and MDX

DW Models (star vs Snowflake schema)

DW applications

DW Storage

DW and web Technology