Học thêm kiến thức về Hadoop

Hadoop là gì?
Đây chắc hẳn không phải thuật ngữ gì quá xa lạ đối với các bạn làm Big data, có thể hiểu Hadoop là một tập hợp của các chương trình và quy trình nguồn mở, nó cho phép xử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông qua mô hình lập trình đơn giản để đạt hiệu quả hơn cho việc vận hành Big data. Sau đây là một vài khái niệm và đặc tính cơ bản của Hadoop để giúp bạn có thể nhanh chóng hiểu được về thuật ngữ này một cách dễ dàng.
Phân tích Hadoop (HD)
HD tổng cộng có 4 module:
HDFS (Hadoop Distributed File System)
HDFS được hiểu là một hệ thống file có khả năng lưu trữ dữ liệu khủng khiếp và đồng thời giúp phân tán, ngoài ra còn có tính năng tối ưu hoá việc sử dụng băng thông giữa các node. Chính vì thế nó được sử dụng để chạy trên một cluster lớn với hàng chục ngàn node.
Bên cạnh đó, chúng ta có thể sử dụng HDFS như một ổ đĩa mà gần như không bị giới hạn về dung lượng. Nó cho phép truy xuất nhiều ổ đĩa như là 1 ổ đĩa, vì thể muốn tăng dung lượng chỉ cần thêm node vào hệ thống.
MapReduce (Hadoop MapReduce)

Đây chắc hẳn không phải thuật ngữ gì quá xa lạ đối với các bạn làm Big data, có thể hiểu Hadoop là một tập hợp của các chương trình và quy trình nguồn mở, nó cho phép xử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông qua mô hình lập trình đơn giản để đạt hiệu quả hơn cho việc vận hành Big data. Sau đây là một vài khái niệm và đặc tính cơ bản của Hadoop để giúp bạn có thể nhanh chóng hiểu được về thuật ngữ này một cách dễ dàng.HD tổng cộng có 4 module:HDFS được hiểu là một hệ thống file có khả năng lưu trữ dữ liệu khủng khiếp và đồng thời giúp phân tán, ngoài ra còn có tính năng tối ưu hoá việc sử dụng băng thông giữa các node. Chính vì thế nó được sử dụng để chạy trên một cluster lớn với hàng chục ngàn node.Bên cạnh đó, chúng ta có thể sử dụng HDFS như một ổ đĩa mà gần như không bị giới hạn về dung lượng. Nó cho phép truy xuất nhiều ổ đĩa như là 1 ổ đĩa, vì thể muốn tăng dung lượng chỉ cần thêm node vào hệ thống.