Kiến thức tổng quan về Data Warehouse (kho dữ liệu) | BKHOST

Là một bộ phận cốt lõi trong hệ thống kinh doanh thông minh (BI-Business Intelligence), Data Warehouse được sử dụng để phân tích và hỗ trợ việc ra quyết định. Vậy một kho dữ liệu có đặc điểm, lợi ích gì? Hãy cùng chúng tôi tìm hiểu về kho dữ liệu qua bài viết sau đây.

Data Warehouse (kho dữ liệu) là gì?

Data Warehouse la gi

Data Warehouse (kho dữ liệu) hoặc kho dữ liệu doanh nghiệp (EDW -Enterprise Data Warehouse), là một hệ thống tổng hợp dữ liệu đơn lẻ từ các nguồn khác nhau thành một kho dữ liệu trung tâm, có tính nhất quán. Mục đích chính để hỗ trợ phân tích dữ liệu, khai thác dữ liệu, trí tuệ nhân tạo (AI-Artificial Intelligence) và machine learning.

Đăng ký dịch vụ Hosting Giá Rẻ tại BKHOST

BKHOST đang có chương trình khuyến mãi cực shock dành cho khách hàng đăng ký dịch vụ Hosting Giá Rẻ:

  • Giảm giá lên đến

    40%

    .

  • Chỉ từ

    9k

    /tháng.

  • Tặng thêm gói bảo mật SSL Let’s Encrypt.

Đăng ký ngay:

mua host giá rẻ

Một hệ thống kho dữ liệu cho phép một tổ chức chạy các phân tích mạnh mẽ với khối lượng lớn (lên tới hàng petabyte) dữ liệu.

Kiến trúc kho dữ liệu

Kiến trúc của một kho dữ liệu phụ thuộc vào nhu cầu của tổ chức xây dựng nên chúng. Nhìn chung, một kho dữ liệu sẽ có kiến trúc ba tầng. Cụ thể:

  • Tầng dữ liệu đầu vào (tầng dưới cùng) bao gồm một máy chủ kho dữ liệu, thường là hệ thống cơ sở dữ liệu quan hệ, thu thập, làm sạch và chuyển đổi dữ liệu từ nhiều nguồn dữ liệu thông qua một quy trình được gọi là “Trích xuất – Biến đổi -Tải”(Extract-Transform-Load=ETL) hoặc “Trích xuất – Tải – Biến đổi” (Extract-Load-Transform = ELT).
  • Tầng giữa bao gồm một máy chủ OLAP ( xử lý phân tích trực tuyến) cho phép tốc độ truy vấn nhanh. Ba loại mô hình OLAP có thể được sử dụng trong tầng này, được gọi là ROLAP, MOLAP và HOLAP.
  • Tầng phân tích dữ liệu (Tầng trên cùng) là giao diện dành cho người dùng cuối hoặc công cụ báo cáo, cho phép người dùng tiến hành phân tích dữ liệu đặc biệt.

Kien truc Data Warehouse

Tìm hiểu về OLAP và OLTP trong kho dữ liệu

Trong một kho dữ liệu, thường có hai chiến lược chính được sử dụng trong việc phát triển dữ liệu đó là OLAP (Online Analytical Processing) và OLTP (Online Transactional Processing). Sự khác biệt chính giữa OLAP và OLTP là trong tên gọi:

  • OLAP được dùng để xử lý phân tích trực tuyến, xử lý dữ liệu đa chiều. Là công cụ để thực hiện phân tích đa chiều với tốc độ cao trên khối lượng lớn dữ liệu từ kho dữ liệu thống nhất, tập trung. OLAP được sử dụng phổ biến trong việc khai thác dữ liệu và các ứng dụng kinh doanh thông minh (BI) khác, tính toán phân tích phức tạp…
  • OLTP để xử lý các giao dịch trực tuyến. Nó cho phép thực hiện giao dịch thời gian thực với số lượng lớn cơ sở dữ liệu của các giao dịch tới từ nhiều người dùng.OLTP được thiết kế để hỗ trợ xử lý các giao dịch nhanh nhất và chính xác nhất. Ứng dụng của OLTP bao gồm ATM, phần mềm thương mại điện tử…

Các lược đồ trong Data Warehouse

Lược đồ (Schema) là những cách mà dữ liệu được tổ chức trong cơ sở dữ liệu hoặc kho dữ liệu. Có hai loại cấu trúc lược đồ chính, sẽ tác động đến việc thiết kế mô hình dữ liệu:

  • Lược đồ sao bao gồm một bảng dữ kiện (fact table) có thể được nối với một số bảng thứ nguyên (dimension table) được chuẩn hóa. Khi được kết nối với nhau, bảng thứ nguyên sẽ giải thích cho bảng dữ kiện. Đây là loại lược đồ đơn giản nhất và phổ biến nhất, có tốc độ nhanh hơn trong khi truy vấn.

Cac luoc do trong Data Warehouse-1

  • Lược đồ bông tuyết tương đương với một lược đồ sao. Ở lược đồ này, bảng dữ kiện kết nối chuẩn hóa với các bảng thứ nguyên, đồng thời các bảng thứ nguyên đó lại có kết nối với các bảng con. Người dùng được hưởng lợi từ mức độ dư thừa dữ liệu thấp của nó, nhưng nó phải trả giá bằng hiệu suất truy vấn.

Cac luoc do trong Data Warehouse-2

Data warehouse vs database, data lake, data mart

Chúng ta sẽ cùng so sánh thuật ngữ kho dữ liệu với các thuật ngữ còn lại để xem sự khác biệt và đặc điểm của mỗi loại, (ở đây người viết sẽ sử dụng các thuật ngữ này với nguyên gốc tiếng Anh). Cụ thể:

Data warehouse vs Database

Một database được xây dựng với mục đích chính là để xử lý các truy vấn nhanh, các giao dịch chứ không dành cho phân tích dữ liệu. Database thường đóng vai trò là lưu trữ dữ liệu tập trung cho một ứng dụng cụ thể, trong khi data warehouse lưu trữ dữ liệu từ tất cả các nguồn trong một tổ chức. Database tập trung vào việc cập nhật dữ liệu thời gian thực, còn data ware house có phạm vi rộng hơn.

Data warehouse vs Data lake

Data lake là một kho dữ liệu không có các lược đồ được xác định trước. Do đó, nó cho phép sử dụng nhiều loại phân tích hơn là data warehouse.

Data warehouse vs Data mart

Data mart là một tập hợp con của data warehouse, chứa dữ liệu của một ngành nghề hoặc bộ phận cụ thể. Với những dữ liệu ngắn gọn, được xây dựng tương ứng cho một nhóm người dùng nhất định, data mart sẽ truy xuất, phân tích dữ liệu nhanh hơn so với việc sử dụng data warehouse.

Các loại Data warehouse

Cloud data warehouse

Kho dữ liệu đám mây là một kho dữ liệu được xây dựng cụ thể để hoạt động lưu trữ điện toán đám mây và nó được cung cấp cho khách hàng như một dịch vụ được quản lý. Với kho dữ liệu đám mây, cơ sở hạ tầng kho dữ liệu vật lý được quản lý bởi công ty cung cấp dịch vụ lưu trữ đám mây.

Data warehouse software

Một doanh nghiệp có thể mua giấy phép sử dụng kho dữ liệu và sau đó triển khai cơ sở hạ tầng tại trụ sở của họ. Đó là lựa chọn tốt hơn cho các tổ chức muốn kiểm soát dữ liệu hoặc cần tuân thủ các quy định bảo mật thông tin.

Data warehouse appliance

Một thiết bị kho dữ liệu là một gói phần cứng và phần mềm tích hợp sẵn. Nó sử dụng hệ điều hành, phần mềm kho dữ liệu mà một doanh nghiệp có thể kết nối với mạng của nó và bắt đầu sử dụng.

Lợi ích của Data warehouse

Kho dữ liệu là kết quả của việc tổng hợp những dữ liệu đơn lẻ từ nhiều nguồn khác nhau vào một nơi lưu trữ duy nhất, mặc dù quy trình xây dựng khó khăn và mất nhiều thời gian, thế nhưng lợi ích của nó mang lại thì không thể phủ nhận. Cụ thể:

  • Khi kho dữ liệu tập trung làm sạch nó, loại bỏ các bản sao và tiêu chuẩn hóa dữ liệu, để tạo ra một nguồn thông tin duy nhất có chất lượng dữ liệu tốt nhất.
  • Kho dữ liệu cho phép tích hợp khối lượng lớn các dữ liệu có sẵn, giúp người dùng tận dụng thông tin hữu ích, nâng cao vị thế và tầm nhìn, giúp họ tự tin đưa ra các quyết định quan trọng nhanh hơn, thông minh hơn.
  • Nắm giữ càng nhiều thông tin hữu ích, các công ty và tổ chức sẽ đạt được và phát triển lợi thế cạnh tranh.

Tổng kết về Data warehouse

Data warehouse đang được sử dụng trong các ngành chăm sóc sức khỏe, bảo hiểm… cho phép người dùng truy cập dữ liệu phong phú hơn. Bài viết trên đây của chúng tôi phần nào đã giới thiệu cho các bạn sơ lược về kho dữ liệu.

Nếu bạn có thắc mắc về Data warehouse, hãy để lại ở bên bình luận bên dưới, BKHOST sẽ trả lời bạn trong thời gian sớm nhất.

P/s: Bạn cũng có thể truy cập vào Blog của BKHOST để đọc thêm các bài viết chia sẻ kiến thức về lập trình, quản trị mạng, website, domain, hosting, vps, server, email,… Chúc bạn thành công.

  • kiến trúc kho dữ liệu
  • data warehouse là gì
  • kho dữ liệu là gì

Đăng ký tên miền tại BKHOST

BKHOST đang có chương trình khuyến mại cực shock dành cho khách hàng đăng ký mới tên miền.

  • Giảm giá lên đến

    70%

    .

  • Bắt đầu chỉ từ

    59k

    /năm đầu.

Rất nhiều tên miền đẹp đang chờ bạn. Nhanh tay sở hữu ngay hôm nay trước khi đối thủ của bạn nhắm tới.

mua tên miền