Mã Hash Là Gì Và Hash Dùng Để Làm Gì? Hash Là Gì Và Hash Dùng Để Làm Gì

Hash (hàm băm) là một trong những phần quan trọng nhất của thứ công nghệ giúp giữ an toàn cho mạng lưới Bitcoin. Nhưng Hash là gì và nó hoạt động như thế nào? Hãy cùng tìm hiểu nhé.

Bạn đang xem: Mã hash là gì

Bạn đang xem: Mã hash là gì

Hash là gì?

Về cơ bản hashing là quy trình biến một tài liệu nguồn vào có độ dài bất kể thành một chuỗi đầu ra đặc trưng có độ dài cố định và thắt chặt. Hashing được thực thi trải qua hàm băm ( hash function ) .Một cách tổng quát hàm băm là bất kể hàm nào hoàn toàn có thể được sử dụng để ánh xạ tài liệu có kích cỡ tùy ý thành những giá trị kích cỡ cố định và thắt chặt. Các giá trị được trả về bởi hàm băm được gọi là giá trị băm, mã băm, thông điệp băm, hoặc đơn thuần là “ hash ” .

Ví dụ, khi bạn download một video trên YouTube có dung lượng 50 MB và thực hiện hashing trên nó bằng thuật toán băm SHA-256, thì đầu ra bạn thu được sẽ là một giá trị băm có độ dài 256 bit. Tương tự, nếu bạn lấy một tin nhắn văn bản có dung lượng 5 KB, để hashing bằng SHA-256 thì giá trị băm đầu ra bạn thu được vẫn sẽ là 256 bit.

Như bạn hoàn toàn có thể thấy, trong trường hợp SHA-256, mặc dầu nguồn vào của bạn lớn hay nhỏ như thế nào đi chăng nữa, thì đầu ra bạn nhận được sẽ luôn có độ dài 256 bit cố định và thắt chặt. Điều này trở nên quan trọng khi bạn giải quyết và xử lý một lượng lớn tài liệu và thanh toán giao dịch. Khi đó, thay vì bạn phải giải quyết và xử lý hàng loạt lượng tài liệu nguồn vào ( hoàn toàn có thể có size rất lớn ), bạn chỉ cần giải quyết và xử lý và theo dõi một lượng tài liệu rất nhỏ là những giá trị băm .Trong blockchain, những thanh toán giao dịch có độ dài khác nhau sẽ được băm trải qua một thuật toán băm nhất định và toàn bộ đều cho đầu ra có độ dài cố định và thắt chặt bất kể độ dài của thanh toán giao dịch nguồn vào là bao nhiêu. Chẳng hạn, Bitcoin sử dụng thuật toán SHA-256 để băm những thanh toán giao dịch cho hiệu quả đầu ra có độ dài cố định và thắt chặt là 256 bit ( 32 byte ) mặc dầu thanh toán giao dịch chỉ là một từ hoặc thanh toán giao dịch phức tạp với lượng tài liệu khổng lồ. Điều làm cho việc theo dõi những thanh toán giao dịch trở nên thuận tiện hơn khi truy xuất và theo dõi lại những giá trị băm. Kích thước của hàm băm sẽ phụ thuộc vào vào hàm băm được sử dụng .Kỹ thuật hashing thường được sử dụng và có ứng dụng thoáng đãng nhất trong việc bảo vệ tính toàn vẹn cho tài liệu trong blockchain là những hàm băm mật mã ( cryptographic hash function ) ví dụ điển hình như SHA-1. SHA-2. SHA-3, SHA-256 … Sỡ dĩ như vậy là do những hàm băm mật mã có 1 số ít đặc thù quan trọng tương thích cho việc bảo vệ bảo đảm an toàn tài liệu .

Hàm băm mật mã

Hàm băm mật mã là những hàm băm tương thích để sử dụng trong mật mã. Cũng giống như những hàm băm thường thì, nó là một thuật toán toán học ánh xạ tài liệu có size tùy ý thành một chuỗi bit có size cố định và thắt chặt ( gọi là “ giá trị băm ”, “ mã băm ” hoặc “ thông điệp băm ” ). Ngoài ra nó còn bảo vệ đặc thù là một hàm một chiều, nghĩa là, một hàm mà trên thực tiễn không hề có ngược. Nếu bạn có một giá trị băm đầu ra, bạn sẽ không hề suy ngược lại được giá trị nguồn vào là gì để hoàn toàn có thể băm ra một thông điệp băm như vậy, hoặc tối thiểu là rất khó suy luận được ra, trừ khi bạn vét cạn hết hàng loạt những năng lực hoàn toàn có thể của thông điệp nguồn vào. Đây là đặc thù vô cùng quan trọng của hàm băm mật mã biến nó thành một công cụ cơ bản của mật mã văn minh .

*
Các hàm băm mật mã có nhiều ứng dụng trong bảo đảm an toàn thông tin. Nó được sử dụng nhiều trong chữ ký số, mã xác nhận thông điệp ( MAC ) và những hình thức xác nhận khác. Ngoài ra, chúng cũng hoàn toàn có thể được sử dụng như những hàm băm thường thì, để lập chỉ mục dữ liệu trong bảng băm, lấy đặc trưng của tài liệu, phát hiện tài liệu trùng lặp hoặc làm tổng kiểm tra để phát hiện lỗi những tài liệu ngẫu nhiên .

Tính chất của hàm băm mật mã

Hàm băm mật mã về cơ bản cần bảo vệ những đặc thù sau :Tính tất định, nghĩa là cùng một thông điệp đầu vào luôn tạo ra cùng một hàm băm.Tính hiệu quả. Có khả năng tính toán nhanh chóng giá trị băm của bất kỳ thông điệp nào.Tính nhạy cảm. Đảm bảo rằng bất kỳ một thay đổi nào, dù là nhỏ nhất trên dữ liệu đều sẽ gây ra sự thay đổi cực lớn trên giá trị băm và tạo ra giá trị băm hoàn toàn khác, và không hề có liên hệ gì với giá trị băm cũ (hiệu ứng tuyết lở).Tính tất định, nghĩa là cùng một thông điệp nguồn vào luôn tạo ra cùng một hàm băm. Tính hiệu suất cao. Có năng lực đo lường và thống kê nhanh gọn giá trị băm của bất kể thông điệp nào. Tính nhạy cảm. Đảm bảo rằng bất kể một biến hóa nào, dù là nhỏ nhất trên tài liệu đều sẽ gây ra sự đổi khác cực lớn trên giá trị băm và tạo ra giá trị băm trọn vẹn khác, và không hề có liên hệ gì với giá trị băm cũ ( hiệu ứng tuyết lở ) .

*
Như bạn thấy, mặc dầu bạn chỉ đổi khác duy nhất một vần âm tiên phong của nguồn vào thì đầu ra đã gần như biến hóa trọn vẹn. Đây là một đặc thù quan trọng của hàm băm chính do nó dẫn đến một trong những đặc thù lớn nhất của blockchain, đó là tính không bao giờ thay đổi. Nghĩa là bạn không hề tạo ra một biến hóa nào trên blockchain mà không tạo ra một sự đổi khác lớn trên đầu ra. Bạn không hề sửa 10 $ thàng 100 $ trong thanh toán giao dịch và ngược lại …Ngoài ra, với mục tiêu bảo vệ bảo đảm an toàn cho tài liệu, những hàm băm mật mã phải có năng lực chịu được tổng thể những loại tiến công mã hóa đã biết. Trong triết lý mật mã, mức độ bảo đảm an toàn của hàm băm mật mã đã được xác lập bằng những thuộc tính sau :Tính kháng tiền ảnh thứ nhất. Tính chất yêu cầu rằng với một giá trị băm h bất kỳ, sẽ khó tìm thấy bất kỳ thông điệp m nào sao cho h = hash (m). Khái niệm này có liên quan đến tính chất một chiều của hàm băm.Tính kháng tiền ảnh thứ hai. Với đầu vào m1, sẽ khó tìm được đầu vào m2 khác sao cho hash(m1) = hash (m2).Tính kháng va chạm. Rất khó để tìm thấy hai thông điệp khác nhau m1 và m2 sao cho hash (m1) = hash (m2). Một giá trị như vậy được gọi là va chạm của hàm băm mật mã.Tính kháng tiền ảnh thứ nhất. Tính chất nhu yếu rằng với một giá trị băm h bất kể, sẽ khó tìm thấy bất kể thông điệp m nào sao cho h = hash ( m ). Khái niệm này có tương quan đến đặc thù một chiều của hàm băm. Tính kháng tiền ảnh thứ hai. Với nguồn vào m1, sẽ khó tìm được đầu vào mét vuông khác sao cho hash ( m1 ) = hash ( mét vuông ). Tính kháng va chạm. Rất khó để tìm thấy hai thông điệp khác nhau m1 và mét vuông sao cho hash ( m1 ) = hash ( mét vuông ). Một giá trị như vậy được gọi là va chạm của hàm băm mật mã .

*
Ký hiệu D là miền xác lập và R là miền giá trị của hàm băm h ( x ). Do hàm băm biến hóa tài liệu từ độ dài bất kể về độ dài cố định và thắt chặt do đó, số lượng thành phần của D thường lớn hơn rất nhiều so với số lượng thành phần trong R. Vì vậy hàm băm h ( x ) không là đơn ánh, tức là luôn sống sót một cặp đầu vào khác nhau có cùng giá trị mã băm. Tức là với mỗi đầu vào cho trước thường sống sót một ( hoặc nhiều ) đầu vào khác sao cho mã băm của nó trùng với mã băm của chuỗi đầu vào đã cho. Tính chất này dựa trên ngịch lý ngày sinh nhật :Nếu bạn gặp bất kể người lạ ngẫu nhiên nào trên đường phố, năng lực cả hai bạn có cùng ngày sinh là rất thấp. Trên thực tiễn, giả sử rằng toàn bộ những ngày trong năm đều có năng lực sinh nhật như nhau, năng lực có một người khác cùng có ngày sinh như bạn là 1/365 tức là chỉ giao động 0,27 %. Rất thấp !Tuy nhiên, nếu bạn tập hợp 20-30 người trong một phòng, tỷ suất hai người có cùng một ngày sinh nhật tăng lên gấp bội. Trên thực tiễn, có thời cơ để 2 người bất kể san sẻ cùng một ngày sinh nhật trong trường hợp này là 50-50 !

*
Tại sao điều này xảy ra ? Đó là chính bới một quy tắc đơn thuần trong Phần Trăm. Giả sử bạn có N năng lực khác nhau xảy ra, thì bạn cần căn bậc hai của N đối tượng người tiêu dùng ngẫu nhiên để chúng có 50 % năng lực xảy ra va chạm .Vì vậy, vận dụng triết lý này cho ngày sinh nhật, bạn có 365 năng lực ngày sinh nhật khác nhau, thế cho nên bạn chỉ cần 265 ” > √ 365, tức là ~ 23 người, những người được chọn ngẫu nhiên thì 50 % thời cơ hai người sẽ có chung ngày sinh nhật .

Với trường hợp hashing ở đây, giả sử bạn có hàm băm với kích thước đầu ra là 128 bit, tức là có tổng thể $2 ^ {128}$ khả năng khác nhau. thì với nghịch lý sinh nhật, bạn có 50% cơ hội phá vỡ khả năng kháng va chạm của hàm băm với √(2^128) = 2^64 lần thử.

Do đó, bạn hoàn toàn có thể thấy rằng, việc phá vỡ đặc thù kháng va chạm của hàm băm sẽ thuận tiện hơn rất nhiều so với việc phá vỡ đặc thù kháng tiền ảnh. Không có hàm băm nào là không va chạm, tuy nhiên, nếu ta chọn được hàm h ( x ) thích hợp cung ứng đặc thù trên với chiều dài mã băm đủ lớn thì việc thống kê giám sát để tìm ra chuỗi đầu vào bị va chạm này là rất khó .Tính kháng va chạm bao hàm cả tính kháng tiền ảnh thứ hai, nhưng không gồm có đặc thù kháng tiền ảnh thứ nhất. Trên trong thực tiễn, hàm băm chỉ có năng lực kháng tiền ảnh thứ hai được coi là không bảo đảm an toàn và do đó không được khuyến nghị cho những ứng dụng trong thực tiễn .

*

Các tính chất trên đảm bảo rằng kẻ tấn công không thể thay thế hoặc sửa đổi dữ liệu đầu vào mà không làm thay đổi giá trị băm. Do đó, nếu hai chuỗi đầu vào có cùng một giá trị băm, ta có thể rất tự tin rằng chúng là giống hệt nhau. Tính kháng tiền ảnh thứ hai ngăn chặn kẻ tấn công tạo ra được một tài liệu khác có cùng giá trị băm như tài liệu gốc. Tính kháng va chạm ngăn chặn kẻ tấn công tạo ra hai tài liệu khác nhau mà có cùng một giá trị băm.

Xem thêm: Thị Trường Chứng Khoán Mỹ Mới Nhất Hôm Nay Trên Vnexpress, Tin Tức, Bài Viết Mới Nhất Về Chứng Khoán Mỹ

Một hàm băm thỏa mãn nhu cầu những tiêu chuẩn trên hoàn toàn có thể vẫn có những đặc thù không mong ước. Ví dụ, những hàm băm phổ cập lúc bấy giờ hoàn toàn có thể dễ bị những tiến công lan rộng ra độ dài ( length-extension ) : Cho trước h ( m ) và len ( m ) nhưng không cho trước m, bằng cách chọn m ’ thích hợp, một kẻ tiến công hoàn toàn có thể tính h ( m | | m ’ ), trong đó | | ký hiệu phép nối xâu ( concatenation ). Tính chất này hoàn toàn có thể được dùng để phá những chiêu thức xác thực đơn giản dựa vào hashing. Để khắc phục điều này, HMAC đã được kiến thiết xây dựng và đã xử lý được yếu tố này .Các thuật toán tính tổng kiểm tra, ví dụ điển hình như CRC32 và những thuật toán tính mã kiểm tra dự trữ theo chu kỳ luân hồi khác, được phong cách thiết kế để cung ứng những nhu yếu yếu hơn nhiều và thường không tương thích với những ứng dụng như những hàm băm mật mã. Ví dụ : CRC được sử dụng xác định tính toàn vẹn của thông điệp trong tiêu chuẩn mã hóa WEP, nhưng hoàn toàn có thể bị thuận tiện tiến công bằng những tiến công có độ phức tạp tuyến tính .

Những dạng Hash cơ bản

Có nhiều thuật toán băm mật mã ; ở đây tất cả chúng ta nhắc đến một số ít thuật toán được sử dụng liên tục .

Hàm băm MD5

MD5 được Ronald Rivest thiết kế vào năm 1991 để thay thế hàm băm MD4 trước đó và được đưa thành tiêu chuẩn vào năm 1992 trong RFC 1321. MD5 tạo ra một bản tóm tắt có kích thước 128 bit (16 byte). Tuy nhiên, đến đầu những năm 2000 thì hàm băm MD5 trở lên không an toàn trước sức mạnh tính toán của các hệ thống tính toán thế hệ mới. Với sức mạnh tính toàn và sự phát triển của công nghệ thám mã thời gian gần đây, chúng ta có thể tính toán các va chạm trong MD5 với độ phức tạp
phép toán chỉ trong vòng vài giây khiến thuật toán không phù hợp với hầu hết các trường hợp sử dụng trong thực tế.

SHA-1

SHA-1 được tăng trưởng như một phần của dự án Bất Động Sản Capstone của nhà nước Hoa Kỳ. Phiên bản tiên phong, thường được gọi là SHA-0 được xuất bản năm 1993 với tiêu đề Secure Hash Standard, FIPS PUB 180, bởi NIST ( Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ ). Nó đã bị NSA rút lại ngay sau khi xuất bản và được sửa chữa thay thế bởi phiên bản sửa đổi, được xuất bản năm 1995 trong FIPS PUB 180 – 1 và thường được đặt tên là SHA-1. SHA-1 tạo ra bản tóm tắt có kích cỡ 160 bit ( 20 byte ). Các va chạm chống lại thuật toán SHA-1 rất đầy đủ hoàn toàn có thể được tạo ra bằng cách sử dụng tiến công phá vỡ. Do đó, hàm băm này cho đến nay được coi là không đủ bảo đảm an toàn .

RIPEMD-160

RIPEMD ( viết tắt của RACE Integrity Primitives Evaluation Message Digest ) là họ hàm băm được tăng trưởng tại Leuven, Bỉ, bởi ba nhà mật mã học Hans Dobbertin, Antoon Bosselaers và Bart Preneel của nhóm điều tra và nghiên cứu COSIC thuộc ĐH Katholieke Universiteit Leuven. RIPEMD lần tiên phong được công bố vào năm 1996 dựa trên những nguyên tắc phong cách thiết kế được sử dụng trong MD4. RIPEMD-160 tạo ra một bản tóm tắt gồm 160 bit ( 20 byte ). RIPEMD có hiệu năng tựa như như SHA-1 nhưng ít được thông dụng hơn. Và cho đến nay RIPEMD-160 chưa bị phá vỡ .

Bcrypt

bcrypt là một hàm băm mật khẩu được phong cách thiết kế bởi Niels Provos và David Mazières, dựa trên mật mã Blowfish, và được trình diễn tại USENIX vào năm 1999. Bên cạnh việc tích hợp một giá trị ngẫu nghiên salt để bảo vệ chống lại những tiến công rainbow attack, bcrypt còn là một hàm có năng lực thích ứng : theo thời hạn, số lần lặp hoàn toàn có thể được tăng lên để làm cho nó chậm hơn, do đó nó vẫn có năng lực chống lại những cuộc tiến công vét cạn ngay cả khi tăng sức mạnh đo lường và thống kê có lớn đến mức nào đi chăng nữa .

Whirlpool

Whirlpool là một hàm băm mật mã được phong cách thiết kế bởi Vincent Rijmen và Paulo S. L. M. Barreto. Nó được miêu tả tiên phong vào năm 2000. Whirlpool dựa trên phiên bản sửa đổi đáng kể của Tiêu chuẩn mã hóa nâng cao ( AES ). Whirlpool tạo ra một bản tóm tắt có độ dài 512 bit ( 64 byte ) của tài liệu .

SHA-2

SHA-2 về thực ra gồm có hai thuật toán băm : SHA-256 và SHA-512. SHA-224 là một biến thể của SHA-256 với những giá trị khởi tạo và đầu ra bị cắt bỏ khác nhau. SHA-384 và SHA-512 / 224 và SHA-512 / 256 ít được biết đến là toàn bộ những biến thể của SHA-512. SHA-512 bảo đảm an toàn hơn SHA-256 và thường nhanh hơn SHA-256 trên những máy 64 bit như AMD64 .Do có nhiều phiên bản thuật toán khác nhau do đó size đầu ra của họ SHA-2 cũng khác nhau tùy theo thuật toán. Phần lan rộng ra của tên phía sau tiền tố “ SHA ” chính là độ dài của thông điệp băm đầu ra. Ví dụ với SHA-224 thì kích cỡ đầu ra là 224 bit ( 28 byte ), SHA-256 tạo ra 32 byte, SHA-384 tạo ra 48 byte và ở đầu cuối là SHA – 512 tạo ra 64 byte. Và tất cả chúng ta hoàn toàn có thể đã biết rằng Bitcoin sử dụng hàm băm SHA-256 là một phiên bản trong họ SHA-2 này .

SHA-3

SHA-3 được NIST phát hành vào ngày 5 tháng 8 năm năm ngoái. Đây có lẽ rằng là tiêu chuẩn hàm băm mới nhất cho đến lúc bấy giờ. SHA-3 là một tập con của họ nguyên thủy mật mã rộng hơn là Keccak. Thuật toán Keccak được đưa ra bởi Guido Bertoni, Joan Daemen, Michael Peeters và Gilles Van Assche. Keccak dựa trên cấu trúc bọt biển ( sponge ). Cấu trúc này cũng hoàn toàn có thể được sử dụng để kiến thiết xây dựng những nguyên thủy mã hóa khác như những hệ mật mã dòng. SHA-3 cũng có những kích cỡ đầu ra tương tự như như SHA-2 gồm có : 224, 256, 384 và 512 bit .

BLAKE2

Một phiên bản nâng cấp cải tiến của BLAKE có tên BLAKE2 đã được công bố vào ngày 21 tháng 12 năm 2012. BLAKE được tăng trưởng bởi Jean-Philippe Aumasson, Samuel Neves, Zooko Wilcox-O ’ Hearn và Christian Winnerlein với tiềm năng thay thế sửa chữa những thuật toán băm phổ cập như MD5 và SHA-1. Khi chạy trên những kiến ​ ​ trúc 64 bit x64 và ARM, BLAKE2b cho vận tốc nhanh hơn SHA-3, SHA-2, SHA-1 và MD5. Mặc dù BLAKE và BLAKE2 chưa được tiêu chuẩn hóa như SHA-3, nhưng nó đã được sử dụng trong nhiều giao thức gồm có hàm băm mật khẩu Argon2 do hiệu suất cao cao mà nó mang lại cho những dòng CPU tân tiến. Do BLAKE cũng là ứng viên cho tiêu chuẩn SHA-3, vì thế, BLAKE và BLAKE2 đều có những size đầu ra giống như SHA-3 và hoàn toàn có thể tùy chọn khi sử dụng trong thực tiễn .

Ứng dụng của Hash

Hashing nói chung và hàm băm mật mã nói riêng có rất nhiều ứng dụng khác nhau trong trong thực tiễn. Dưới đây là một số ít ứng dụng phổ cập nhất của nó :

Hashing trong định danh tệp hoặc dữ liệu

Giá trị băm cũng hoàn toàn có thể được sử dụng như một phương tiện đi lại để định danh tập tin một cách đáng an toàn và đáng tin cậy. Một số mạng lưới hệ thống quản trị mã nguồn, như Git, Mercurial hay Monotone, sử dụng giá trị sha1sum của nội dung tệp, cây thư mục, thông tin thư mục gốc, v.v. để định danh chúng .

Giá trị băm cũng được sử dụng để xác định các tệp trên các mạng chia sẻ tệp ngang hàng nhằm cung cấp đầy đủ thông tin để định vị nguồn gốc của tệp, xác minh nội dung tệp tải xuống. Giá trị ứng dụng của chúng còn được mở rộng ra khi áp dụng các cấu trúc dữ liệu bổ sung như danh sách băm hoặc cây băm (Merkle Tree).

Tuy nhiên, so với những hàm băm tiêu chuẩn, những hàm băm mật mã có khuynh hướng phức tạp và yên cầu nhiều tài nguyên giám sát hơn nhiều. Do đó, chúng có khuynh hướng được sử dụng trong những trường hợp khi người dùng cần tự bảo vệ tính bảo đảm an toàn cho thông điệp trước những năng lực bị sửa đổi, hay trá hình như những ứng dụng ở dưới đây :

Hashing trong xác minh tính toàn vẹn của thông điệp hoặc tập tin

Một ứng dụng quan trọng nhất của hashing là xác minh tính toàn vẹn của thông điệp.Chúng ta khá quen thuộc với các ứng dụng này. Khi download một phần mềm hoặc tệp tin nào đó trên một số trang web, ta được cung cấp kèm theo các mã băm MD5 hoặc SHA1. Khi đó sau khi tải về tập tin, chúng ta có thể tính và so sánh giá trị băm của tệp tải về với giá trị băm được cung cấp trên web, nếu có sự sai khác tức là tệp tin chúng ta tải về đã bị sửa đổi.

Xem thêm: Go Hand In Hand Là Gì – Nghĩa Của Từ Hand In Hand

Hashing trong tạo và xác nhận chữ ký

Hầu như tổng thể những lược đồ chữ ký số đều nhu yếu thống kê giám sát bản tóm lược của thông điệp bằng những hàm băm mật mã. Điều này được cho phép việc giám sát và tạo chữ ký được thực thi trên một khối tài liệu có size tương đối nhỏ và cố định và thắt chặt thay vì trên hàng loạt văn bản dài. Tính chất toàn vẹn thông điệp của hàm băm mật mã được sử dụng để tạo những lược đồ chữ ký số bảo đảm an toàn và hiệu suất cao .