Word Embedding – Vector hóa văn bản –

Word Embedding là một bước quan trọng trong bất kể một bài toán nào của NLP. Trong bài này, trituenhantao.io sẽ đưa ra lần lượt theo sự tăng trưởng và nâng cấp cải tiến của những thuật toán Word Embedding phổ cập lúc bấy giờ .
Đầu tiên, ta hãy đi qua nguyên do cơ bản ta cần phải Vector hóa văn bản ( Word Embedding ). Thông thường, máy tính không hề hiểu được ý nghĩa những từ. Như vậy, để giải quyết và xử lý được ngôn từ tự nhiên, ta cần có một giải pháp để màn biểu diễn văn bản dưới dạng mà máy tính hoàn toàn có thể hiểu được. Phương pháp tiêu chuẩn để màn biểu diễn văn bản đó là trình diễn những văn bản theo vector. Trong đó, những từ / cụm từ thuộc kho tài liệu ngôn từ được ánh xạ thành những vector trên hệ khoảng trống số thực .
Ta hoàn toàn có thể chia những giải pháp Vector hóa văn bản thành hai nhóm chính : Phương pháp Word Embedding cổ xưa và Neural Embedding ( Vector hóa văn bản theo giải pháp mạng nơ-ron ) .

Phương pháp Word Embedding cổ điển

Bag of Words (BoW)

Đây là cách biểu diễn
vector truyền thống phổ biến nhất được sử dụng. Mỗi từ hoặc n-gram từ sẽ được
mô tả là một vector có số chiều bằng đúng số từ trong bộ từ vựng. Tại vị trí
tương ứng với vị trí của từ đó trong túi từ, phần tử trong vector đó sẽ được
đánh dấu là 1. Những vị trí còn lại sẽ được đánh dấu là 0.

Ví dụ biểu diễn One-hot BOW của mỗi từ trong văn bản.
Phương pháp BoW thường được sử dụng trong những bài toán phân loại văn bản. Trong đó, tần suất của mỗi từ / n-gram sẽ được coi là một feature trong văn bản phân loại .
Nhược điểm của chiêu thức này là ta không hề xác lập được nghĩa thực của mỗi từ và những từ đối sánh tương quan với chúng .
Trong giải pháp BoW, từ giống nhau sẽ được đánh trọng số như nhau. Phương pháp này không xét đến tần suất Open của từ hay nhữ cảnh từ. Và trong trong thực tiễn, để cần hiểu được nghĩa của mỗi từ, ta cần xác lập từ đó trong văn cảnh hơn là xét nghĩa độc lập từ .

TF-IDF

TF- IDF (term frequency–inverse
document frequency) – tần suất- tần suất đảo nghịch từ. Đây là một phương pháp
thống kê, nhằm phản ánh độ quan trọng của mỗi từ hoặc n-gram đối với văn bản
trên toàn bộ tài liệu đầu vào. TF-IDF thể hiện trọng số của mỗi từ theo ngữ cảnh
văn bản. TF-IDF sẽ có giá trị tăng tỷ lệ thuận với số lần xuất hiện của từ
trong văn bản và số văn bản có chứa từ đó trên toàn bộ tập tài liệu. Phương
pháp này giúp cho TF-IDF có tính
phân loại cao hơn so với phương pháp trước.


Tuy nhiên, ngay cả khi chiêu thức TF-IDF dựa trên BOW bộc lộ được trọng số của những từ khác nhau trong văn bản, nhưng giải pháp này vẫn không trình diễn được nghĩa của từ .
Đây chính là điểm yếu kém của hai giải pháp này .
Ta hoàn toàn có thể trích dẫn câu của nhà ngôn ngữ học J.R. Firth : “ The complete meaning of a word is always contextual, and no study of meaning apart from context can be taken seriously. ” ( tạm dịch : “ Muốn hiểu được ý nghĩa thật sự của một từ, bạn phải dựa vào ngữ cảnh của câu nói ” )

Distributional Embedding

Là giải pháp mà ta hoàn toàn có thể xem xét được tổng quan trong hàng loạt ngữ cảnh. Mỗi từ sẽ được màn biểu diễn trên những thông tin tương hỗ ( Mutual Information ) với những từ khác trong tập dữ liệu. Thông tin tương hỗ hoàn toàn có thể được trình diễn dưới dạng tần suất Open trong ma trận đồng Open trên hàng loạt tập dữ liệu hoặc xem xét trong số lượng giới hạn tập dữ liệu lân cận hoặc xem xét trên số lượng giới hạn những từ xung quanh .
Ví dụ ma trận thuật toán Distributional Embedding với mỗi dòng là một văn bản (ngữ cảnh) dựa trên số từ xuất hiệnPhương pháp Distributional Embedding sinh ra trước chiêu thức Neural Embedding. Nhưng những giải pháp Distributional Embedding giúp ta quan sát được quan trọng của mỗi từ tốt hơn so với Neural Embedding. Bạn hoàn toàn có thể tìm hiểu thêm Goldberg and Levy .

Phương pháp Neural Embedding

Word2vec là thuật toán theo chiêu thức Dự kiến ( Prediction-based embedding ). Mô hình Dự kiến học màn biểu diễn vector từ trải qua những từ ngữ cảnh xung quanh nhằm mục đích cải tổ năng lực Dự kiến ý nghĩa những từ .
Có hai cách thiết kế xây dựng quy mô Word2vec để màn biểu diễn sự phân tán của từ trong khoảng trống vector :

  • Sử dụng ngữ cảnh để dự đoán mục tiêu (CBOW): khi vị trí của các từ ngữ cảnh không ảnh hưởng tới việc dự đoán từ (giả định ban đầu của CBOW). Trong mô hình Skip-gram, mô hình sử dụng từ ngữ hiện tại để dự đoán những từ xung quanh trong ngữ cảnh đó.
  • Sử dụng một từ để dự đoán ngữ cảnh mục tiêu (Continuous skip-gram) xem xét những từ ngữ cảnh xung quanh sẽ được đánh giá tốt hơn so với những từ trong ngữ cảnh nhưng ở vị trí xa hơn. Mặc dù thứ tự từ vẫn không được xem xét, mỗi vector của từ bối cảnh được xem xét và cân nhắc.

Thuật toán CBOW tốn ít thời gian huyến luyện mô hình hơn Skip-gram. Tuy nhiên, Skip-gram có độ chính xác cao hơn và có chứa cả những từ ít xuất hiện.

Cả CBOW và Skip-Gram đều là những quy mô Dự kiến. Trong đó, những thuật toán chỉ xem xét được ngữ cảnh xung quanh từ tiềm năng nhưng không đề cập được về ngữ cảnh toàn văn bản. Thuật toán GloVe dựa trên tương phản có lợi với cùng Dự kiến của ma trận đồng Open sử dụng trong thuật toán Distributional Embedding, nhưng sử dụng chiêu thức Neural Embedding để nghiên cứu và phân tích ma trận đồng Open thành những vector có ý nghĩa và tỷ trọng hơn .
Mặc dù thuật toán GloVe nhanh hơn Word2Vec, nhưng cả GloVe và Word2Vec đều không hiển thị để cung ứng tác dụng tốt và rõ ràng hơn thay vì cả hai nên được nhìn nhận cho một tập tài liệu nhất định .
FastText, được thiết kế xây dựng trên Word2Vec bằng cách học những màn biểu diễn vectơ cho mỗi từ và n-gram được tìm thấy trong mỗi từ. Các giá trị của những trình diễn sau đó được tính trung bình thành một vectơ ở mỗi bước huấn luyện và đào tạo. Trong khi điều này bổ trợ rất nhiều giám sát bổ trợ cho việc giảng dạy, nó được cho phép nhúng từ để mã hóa thông tin từ phụ. Các vectơ FastText đã được chứng tỏ là đúng mực hơn những vectơ Word2Vec bằng một số ít giải pháp khác nhau
Trên đây, tôi đã ra mắt cho những bạn những thuật toán Word Embedding lúc bấy giờ. Với mỗi bài toán khác nhau, ta sẽ nên sử dụng giải pháp khác nhau .

Nguồn: https://towardsdatascience.com

—–
” Word Embedding – Vector hóa văn bản, ” Trí tuệ tự tạo, Ngày xuất bản : 06/04/2019, URL : https://final-blade.com/kien-thuc/word-embeddings-cac-phuong-phap-vector-hoa-van-ban/, Ngày truy vấn : 13/01/2023 .
Bạn muốn trích dẫn bài này : —–

  • Details: *