Tên đề tài: “Tóm tắt tự động văn bản trên tập dữ liệu lớn

Tác giả: Nguyễn Tí Hon, Khóa: 2020

Ngành: Hệ thống thông tin; Mã số: 9480104. Nhóm ngành: Máy tính và công nghệ thông tin

Người hướng dẫn: PGS.TS. Đỗ Thanh Nghị - Trường Đại học Cần Thơ

  1. Tóm tắt nội dung luận án

Tóm tắt tự động văn bản là mảng nghiên cứu cốt lõi trong xử lý ngôn ngữ tự nhiên. Hai hướng tiếp cận chính trong các nghiên cứu về tóm tắt tự động văn bản là tóm tắt rút trích và tóm tắt tóm lược. Trong đó, bản tóm tắt đơn văn bản là một bản tóm tắt của một văn bản; bản tóm tắt đa văn bản là một bản tóm tắt của tập hợp các văn bản. Tóm tắt tự động văn bản là lĩnh vực nghiên cứu sôi động, thu hút nhiều sự quan tâm của cộng đồng khoa học. Dẫn tới sự xuất hiện số lượng đáng kể các tập dữ liệu thực nghiệm Tiếng Anh. Tuy nhiên, các nghiên cứu thực nghiệm trên các tập dữ liệu Tiếng Việt chỉ mới ở giai đoạn bắt đầu. Hầu hết trong số ít các nghiên cứu đó tập trung vào tóm tắt rút trích cho đa văn bản; hoặc tóm tắt tóm lược cho đơn văn bản. Bên cạnh đó, các tập dữ liệu thực nghiệm tóm tắt văn bản Tiếng Việt hiện chưa thật sự phong phú.

Trong thời đại bùng nổ thông tin, lượng dữ liệu văn bản Tiếng Việt trên Internet ngày càng nhiều. Đây là cơ hội rất tốt để nghiên cứu tóm tắt tự động văn bản, thực nghiệm trên các tập dữ liệu Tiếng Việt. Do đó, luận án thực hiện thu thập, xây dựng tập dữ liệu lớn văn bản Tiếng Việt. Nghiên cứu, đề xuất các mô hình tóm tắt tự động có hiệu quả thực thi nhanh cho tập dữ liệu lớn đồng thời đảm bảo chất lượng bản tóm tắt tương đương với các mô hình hiện đại. Góp phần làm dồi dào thêm các nghiên cứu về tóm tắt tự động văn bản Tiếng Việt, đồng thời làm tiền đề cho các nghiên cứu sau này. Các đóng góp chính của luận án bao gồm một tập dữ liệu lớn cho thực nghiệm tóm tắt tự động văn bản Tiếng Việt, bốn mô hình tóm tắt đơn văn bản hiệu suất cao về mặt thời gian và chất lượng bản tóm tắt xấp xỉ các mô hình hiện đại. Ba trong bốn mô hình được đề xuất là tóm tắt rút trích và mô hình còn lại là tóm tắt tóm lược.

Trước tiên, luận án xây dựng tập dữ liệu thực nghiệm VNText bằng cách thu thập, trích lọc bài viết từ các trang thông tin điện tử Tiếng Việt, lên đến hơn một triệu văn bản. Sau đó luận án, đánh giá kết quả tóm tắt tập VNText trên ba mô hình tóm tắt có kiến trúc sequence-to-sequence dựa trên mạng LSTM và mạng Transformers, làm số liệu baseline để so sánh với các mô hình được nghiên cứu đề xuất trong luận án.

Luận án đề xuất mô hình SKSUM bằng cách kết hợp các mô hình biểu diễn dữ liệu văn bản, tương thích với dữ liệu Tiếng Việt, với mô hình gom cụm dữ liệu làm cơ sở trích câu. SKSUM là mô hình tóm tắt văn bản rút trích đơn giản, hiệu quả thực thi cao và chất lượng tóm tắt cao theo thang đo ROUGE. Đề xuất thứ hai, mô hình PESUM, mô hình này được tăng tốc quá trình tóm tắt bằng cách huấn luyện trước mô hình gom cụm dữ liệu làm cơ sở trích câu, kết hợp với song song hoá tính toán trong các hàm tóm tắt. Tiếp theo chuỗi các nghiên cứu tóm tắt rút trích, luận án đề xuất cải tiến chất lượng bản tóm tắt của mô hình PESUM bằng cách kết hợp thêm bộ phân lớp dữ liệu và đặt tên là CPESUM.

Trong hướng tóm tắt tóm lược, luận án đề xuất mô hình THASUM, với mục tiêu tăng tốc quá trình tóm tắt tóm lược cho tập dữ liệu lớn, đồng thời vẫn đảm bảo tiêu chí về chất lượng bản tóm tắt. Mô hình THASUM được thiết kế dựa trên kiến trúc Transformer với đầy đủ encoder và decoder. Hiệu suất huấn luyện và tóm tắt của THASUM được đẩy mạnh nhờ việc giảm đi số lớp encoder, decoder so với mạng Transformer gốc. Chất lượng bản tóm tắt THASUM sinh ra được đảm bảo nhờ các siêu tham số được thiết kế phù hợp với tập dữ liệu văn bản Tiếng Việt VNText.

 

  1. Những kết quả mới của luận án

Luận án Tóm Tắt Tự Động Văn Bản Trên Tập Dữ Liệu Lớn đã thực hiện nghiên cứu lý thuyết, thu thập xử lý dữ liệu, đề xuất các mô hình tóm tắt nhanh cho tập dữ liệu văn bản lớn, công bố các kết quả nghiên cứu tại các hội thảo và trên tạp chí chuyên ngành có uy tín. Những điểm mới của luận án có thể kể đến:

Luận án xây dựng tập dữ liệu thực nghiệm văn bản lớn Tiếng Việt VNText sử dụng trong tóm tắt tự động văn bản, phân lớp dữ liệu văn bản, huấn luyện các mô hình vector ngữ nghĩa và vector ngữ cảnh cho văn bản.

Luận án đề xuất sử dụng mô hình vector ngữ nghĩa toàn cục Glove embedding để cải thiện hiệu quả biểu diễn ngữ nghĩa văn bản Tiếng Việt giúp duy trì độ chính xác cao cho các mô hình tóm tắt. Điểm này được thể hiện trong các mô hình SKSUM, PESUM và CPESUM.

Luận án đề xuất huấn luyện trước mô hình gom cụm làm cơ sở để trích câu trong tóm tắt tự động văn bản, giúp tiết kiệm chi phí gom cụm trong mỗi lần tóm tắt đồng thời cải thiện hiệu suất tóm tắt. Điểm này được thể hiện thông qua các mô hình PESUM và CPESUM.

Luận án đề xuất nâng cao hiệu suất tóm tắt rút trích trên tập dữ liệu lớn bằng cách huấn luyện trước mô hình gom cụm văn bản kết hợp với các cơ chế song song hoá toàn cục và song song hoá cục bộ trong quá trình tóm tắt. Điểm này cũng được thể hiện trong các mô hình PESUM và CPESUM.

Luận án đề xuất sử dụng các mô hình gom cụm cục bộ trên các văn bản cùng chủ đề để nâng cao chất lượng bản tóm tắt đầu ra trong các mô hình tóm tắt rút trích dựa trên huấn luyện trước mô hình gom cụm. Điểm này được thực hiện trong mô hình CPESUM.

Luận án đề xuất kết hợp phương pháp giảm số lớp encoder-decoder với tối ưu số lượng token tối đa của văn bản đầu vào dựa trên tập dữ liệu. Tiếp cận này giúp cải thiện hiệu suất huấn luyện, tóm tắt và tối thiểu yêu cầu phần cứng cho mô hình tóm tắt tóm lược dựa trên mạng Transformer. Điểm này được thực hiện thông qua mô hình THASUM.

Luận án trình bày kết quả thực nghiệm tập VNText trên các mô hình tóm tắt văn bản hiện đại như Pointer, T5, Bart để so sánh với các mô hình được đề xuất trong luận án, song song đó cung cấp một góc nhìn về kết quả tóm tắt trên tập dữ liệu lớn văn bản Tiếng Việt theo các hướng tiếp cận khác nhau.

 

  1. Các ứng dụng/khả năng ứng dụng trong thực tiễn, các vấn đề cần tiếp tục nghiên cứu

Các mô hình SKSUM, PESUM, CPESUM và THASUM có thể được sử dụng để minh họa trong giảng dạy máy học cho sinh viên đại học, cao học, làm nền tảng nghiên cứu cho các nghiên cứu sinh trong các lĩnh vực máy học.

Các mô hình vector ngữ nghĩa Word-to-vector, Glove và Fasttext được huấn luyện trên tập dữ liệu văn bản lớn Tiếng Việt VNText có thể được sử dụng để biểu diễn dữ liệu văn bản trong các nghiên cứu về văn bản như phân lớp, gom cụm hoặc tóm tắt tự động văn bản. Ngoài ra cũng có thể sử dụng trong các ứng dụng thực tiễn có liên quan.

Đầu ra của các mô hình tóm tắt có thể được sử dụng làm đầu vào cho các bài toán khai thác dữ liệu văn bản khác chẳng hạn như phân lớp dữ liệu, tạo caption tự động cho hình ảnh dựa trên văn bản, lập chỉ mục ngữ nghĩa cho văn bản.

Sử dụng kết quả tóm tắt trực tiếp trong các ứng dụng tóm tắt văn bản, trích xuất thông tin văn bản từ dữ liệu văn bản hoặc dữ liệu đa định dạng, chẳng hạn như văn bản và hình ảnh.

Đầu ra của các mô hình tóm tắt rút trích được đề xuất trong luận án phụ thuộc hoàn toàn vào câu văn có trong văn bản đầu vào, do đó cần nghiên cứu thêm các giải pháp để rút trích các thông tin tổng quát, toàn diện hơn từ văn bản chẳng hạn như kết hợp giữa trích câu và cụm từ.

Bên cạnh đó các mô hình tóm lược hiện đại chưa giải quyết triệt để vấn đề độ chính xác về mặt thông tin trong văn bản cũng như độ chính xác so với thông tin khách quan, đây là một trong các lĩnh vực nghiên cứu hấp dẫn nhiều tiềm năng.

 

INFORMATION OF THESIS

Thesis title: Automatic Text Summarization on Large-scale Dataset

- Major: Information System                                 Code: 9480104

- Full name of PhD student: Nguyen Ti Hon        Year: 2020

- Scientific supervisor: Associate Prof. Do Thanh Nghi

- Educational institution: Can Tho University

 

  1. Content of thesis summary

Text summarization is a central research field in natural language processing. Two main approaches of text summarization research are extraction-based and abstraction-based. In this, a single document summary is the summary of one document; a multi-document summary is a summary of a set of documents. Text summarization is active research, attracting many members of the computer science community. Many English datasets used to evaluate the summary model have been published. However, the study assessed on the Vietnamese dataset is just the beginning time. Almost all research focuses on extractive summaries for multi-documents or abstractive summaries for a single document. Besides that, the Vietnamese dataset for evaluating the summarization model must be more abundant.

With the rapidly growing amount of information on the Internet in the current year, the number of Vietnamese documents also increased. This time is an excellent opportunity to research Vietnamese text summarization and build a large-scale Vietnamese experimental dataset. This thesis aims to enrich the Vietnamese automatic text summarization research and create the baseline for subsequent studies. Therefore, we collect Vietnamese documents to create a new dataset for text summarization research. We study and propose high-performance and high-precision text summarization models that can handle Vietnamese large-scale datasets. The main contribution of this thesis is one Vietnamese dataset, the VNText, for text summarization and four high-performance and precise single-document text summarization models. Three of them are extractive models, and one is an abstract model.

The VNText dataset, a cornerstone of this research, was meticulously created by collecting and filtering articles from Vietnamese newspaper websites. This rigorous process resulted in a dataset of over one million documents. To ensure the quality and reliability of the dataset, we evaluated VNText using three modern sequence-to-sequence text summarization models based on LSTM and Transformer. The results of this evaluation serve as the baseline for comparing with the models proposed in this thesis.

This thesis introduces several innovative text summarization models. The SKSUM model combines modern text representation models compatible with Vietnamese documents and a basic clustering model for sentence ranking. This innovative approach results in a highly effective extractive text summarization model. The second model, the PESUM, is designed to speed up the summarizing process. It achieves this by using a trained clustering model for sentence selection and parallel execution in the summarize function. The thesis also proposes an enhancement to the PESUM, called CPESUM, which improves the summary quality by adding a classification model.

The thesis proposed the model, named THASUM, for the abstractive approach. The main objective is to speed up abstractive summaries for large-scale datasets while keeping acceptable precision. THASUM is based on the Transformer architecture with an encoder and decoder. THASUM is speeding up by using a small number of the encoder and decoder layers compared with the original Transformer. That results in significantly reduced training parameters and increased inference performance. THASUM ensures the quality of summary by training from scratch on the training dataset of VNText and the design of hyperparameters compatible with the VNText.

 

  1. The novel aspects from the thesis

Thesis Automatic Text Summarization on Large-scale Dataset has conducted theoretical research, collected and processed data, proposed fast summarization models for large-scale text datasets, and published research results at conferences and in prestigious specialized journals. The new points of the thesis can be mentioned as follows:

The thesis builds a large-scale Vietnamese text experimental dataset, VNText. This dataset can be used in the research of automatic text summarization, text data classification, training semantic vector models, and context vectors for text data.

The thesis proposes using the global semantic vector model Glove embedding to improve the efficiency of Vietnamese text semantic representation and help maintain high accuracy for the summarization models. This point is reflected in the SKSUM, PESUM, and CPESUM models.

The thesis proposes using a pre-trained clustering model as the base for extracting sentences in automatic text summarization. This would save clustering costs in each summary process and improve the model's performance. This point is mirrored in the PESUM and CPESUM models.

The thesis proposes improving the performance of extractive summarization on large-scale datasets by combining the pre-training approach with global and local parallelization mechanisms in the summarization process. This point is also introduced in the PESUM and CPESUM models.

The thesis proposes using local clustering models trained on documents of the same topic to improve the quality of output summaries in extractive summarization models based on pre-trained clustering models. This point is reproduced in the CPESUM models.

The thesis proposes combining reducing the number of encoder-decoder layers with optimizing the maximum number of tokens of the input text based on the dataset. This approach improves the training and summarization performance and minimizes the hardware requirements for the Transformer network-based text summarization models. This point is introduced in the THASUM model.

The thesis presents experimental results of the VNText dataset on modern text summarization models such as Pointer, T5, and Bart to compare with the models proposed in the thesis. At the same time, it provides a perspective on summarization results on large datasets of Vietnamese text according to different approaches.

 

  1. Application prospect and suggestions for further study

The SKSUM, PESUM, CPESUM, and THASUM models can be used to illustrate machine learning for undergraduate and graduate students. They are also valuable research material for PhD students in machine learning studies.

The semantic vector models trained on the VNText large-scale dataset, including Word-to-vector, Glove, and Fasttext, can be used in other research, such as text classification, clustering, or related practical applications.

The output of the summarization models can be used as input for other text data mining problems such as data classification, automatic captioning of text-based images, and semantic indexing of text.

Summarization results can be used directly in text summarization applications, extracting textual information from text data or rich data formats, such as text and images.

The output of the extractive summarization models proposed in the thesis depends entirely on the sentences in the input text. Therefore, solutions to extract more general and comprehensive information from the text, such as combining sentence and phrase extraction, could be studied further.

Besides, modern summarization models have not completely solved the problem of information accuracy in text and accuracy compared to objective information. This is one of the attractive research areas with much potential.

Hướng dẫn HVCH nhập Kế hoạch học tập lên Hệ thống quản lý

Số lượt truy cập

23888286
Hôm nay
Tuần này
Tháng này
Tổng số lượt truy cập
27153
115287
139281
23888286
Vinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.xVinaora Nivo Slider 3.x