Tên đề tài: “Mô hình xử lý hiệu quả dữ liệu biểu hiện gen”.
Tác giả: Huỳnh Phước Hải, Khóa: 2016
Chuyên ngành: Hệ thống thông tin; Mã số: 62480104. Nhóm ngành: Máy tính và công nghệ thông tin
Người hướng dẫn chính: PGS.TS. Đỗ Thanh Nghị - Trường Đại học Cần Thơ.
Người hướng dẫn phụ: TS. Nguyễn Văn Hòa - Trường Đại học An Giang.
Trong những năm gần đây, ung thư là nguyên nhân tử vong hàng đầu trên toàn thế giới. Phân loại dữ liệu biểu hiện gen là chìa khóa quan trọng để giải quyết các vấn đề cơ bản trong nghiên cứu ung thư. Tuy nhiên, vấn đề “large p, small n” của mô hình phân loại biểu hiện gen là một thách thức lớn trong phân tích biểu hiện gen, trong đó biểu hiện của hàng chục nghìn gen được quan sát trên số lượng ít bệnh nhân. Thách thức chính của vấn đề này là kích thước mẫu dữ liệu huấn luyện nhỏ so với kích thước véc-tơ đặc trưng rất lớn, do đó các mô hình phân lớp có độ chính xác thấp do bị “over-fitting”. Trong luận án này, chúng tôi tập trung giải quyết vấn đề này bằng những đóng góp sau đây.
Thứ nhất, mạng nơ-ron tích chập sâu (DCNN) mới được đề xuất để trích xuất các đặc trưng từ dữ liệu biểu hiện gen. Bên cạnh đó, chúng tôi còn đề xuất thuật toán SMOTE để tăng cường dữ liệu của các tính năng mới được trích xuất bởi mô hình DCNN.
Thứ hai, chúng tôi đề xuất mô hình tăng cường dữ liệu biểu hiện gen bằng mạng đối kháng sinh mẫu (GAN). GAN được triển khai để tạo dữ liệu tổng hợp từ dữ liệu gốc và được phân loại bằng các bộ phân lớp.
Cuối cùng, chúng tôi đề xuất mô hình kết hợp các xiên phân ngẫu nhiên đơn giản (RODS) dựa trên máy học véc-tơ hỗ trợ phân loại dữ liệu biểu hiện gen có số chiều rất lớn. Các giải thuật phân loại của chúng tôi (được gọi là Bag-RODS và Boost-RODS) huấn luyện nhiều cây xiên phân ngẫu nhiên đơn giản để tạo thành mô hình phân loại chính xác hơn so với các mô hình đơn.
Thực nghiệm được xây dựng trên các bộ dữ liệu biểu hiện gen DNA Microarray và RNA-Sequencing của các kho dữ liệu Kent Ridge, ArrayExpress và TCGA. Kết quả thực nghiệm chứng minh các mô hình đề xuất phân loại chính xác hơn các mô hình phân lớp hiện đại đồng thời cải thiện độ chính xác phân loại của các bộ phân lớp.
Thứ nhất, mô hình rút trích đặc trưng mới sử dụng mạng nơ-ron tích chập sâu được đề xuất để học các đặc trưng tiềm ẩn từ dữ liệu biểu hiện gen. Mô hình này cải thiện độ chính xác phân lớp trên dữ liệu biểu hiện gen của cả hai công nghệ DNA Microarray và RNA-Seq. Kết quả thực nghiệm chứng minh DCNN có hiệu quả tốt khi rút trích đặc trưng từ dữ liệu biểu hiện gen. Bên cạnh đó, chúng tôi còn đề xuất mô hình mới kết hợp các phương pháp tăng cường và rút trích đặc trưng để giải quyết cả hai thách thức của dữ liệu biểu hiện gen. Trong phương pháp này, giải thuật SMOTE được đề xuất để sinh mới dữ liệu từ các đặc trưng được rút trích bằng DCNN. Các mô hình này được kết nối với các bộ phân lớp để phân loại hiệu quả dữ liệu biểu hiện gen.
Thứ hai, luận án đề xuất mô hình tăng cường dữ liệu biểu hiện gen bằng mạng đối kháng sinh mẫu GAN để giải quyết vấn đề số mẫu ít. Mô hình đề xuất được xây dựng để sinh mới dữ liệu tổng hợp từ dữ liệu gốc để tăng cường dữ liệu huấn luyện cho các bộ phân lớp. Kết quả thực nghiệm chứng minh mô hình đề xuất cải thiện được độ chính xác của các giải thuật phân lớp gồm máy học véc-tơ hỗ trợ, k láng giềng và rừng ngẫu nhiên.
Thứ ba, luận án đề xuất mô hình tập hợp các cây xiên phân ngẫu nhiên đơn giản phân lớp hiệu quả dữ liệu biểu hiện gen bằng kết hợp các cây xiên phân ngẫu nhiên đơn giản dựa trên siêu phẳng tối ưu thu được từ huấn luyện SVM để cho tăng cường độ chính xác cao hơn so với chỉ sử dụng mô hình đơn. Luận án đã xây dựng 2 mô hình Bag-RODS và Boost-RODS phân lớp hiệu quả dữ liệu biểu hiện gen. Ngoài ra, các giải thuật này cũng cải thiện được độ chính xác phân loại khi kết hợp với các mô hình tăng cường dữ liệu bằng GAN và rút trích đặc trưng bằng DCNN.
Luận án đã đề xuất ba cách tiếp cận mới cho bài toán phân lớp dữ liệu biểu hiện gen. Các đóng góp này dùng để giải quyết vấn đề “large p, small n” của các mô hình phân lớp dữ liệu biểu hiện gen và ứng dụng để xây dựng các hệ thống chẩn đoán bệnh ung thư. Ngoài ra, luận án còn là tài liệu tham khảo hữu ích cho sinh viên các chuyên ngành Hệ thống thông tin và Khoa học máy tính ở bậc đại học và sau đại học.
Mặc dù các cách tiếp cận của mang lại nhiều kết quả tốt, tuy nhiên các mô hình vẫn cần nghiên cứu thêm để tăng cường hiệu quả phân lớp. Trong phân lớp biểu hiện gen vẫn còn một số thách thức như dữ liệu mất cân bằng, các phương pháp giải thích kết quả học sâu, lựa chọn kiến trúc phù hợp và điều chỉnh các bộ tham số.. Trong tương lai, chúng tôi sẽ thực nghiệm thêm trên các bộ dữ liệu lớn và đánh giá các mô hình trên nhiều tiêu chí khác.
In recent years, cancer is the leading cause of death worldwide. Classifying gene expression data is known to contain keys for solving the fundamental problems in cancer studies. The large p, small n classification issue of gene expression classification is a major challenge in the analysis of gene expression data, where expression levels of thousands of genes are monitored for a small number of patients. The challenge of this problem is that training data sample size is relatively small compared to features vector size, therefore, the classification models may give poor classifying performance due to over-fitting. In this dissertation, we tackle this issue with the following contributions.
Firstly, a new deep convolutional neural network (DCNN) is proposed to extract features from gene expression data. Moreover, we also propose the SMOTE algorithm to enhance gene expression data using new features extracted by the DCNN model.
Secondly, we propose a new enhancing gene expression data model with a generative adversarial network (GAN). GAN is implemented to generate synthetic data from the original training datasets, which is used in conjunction with various classifiers to predict gene expression data.
Finally, we investigate random ensemble oblique decision stumps (RODS) based on a linear support vector machine (SVM) that is suitable for classifying very-high-dimensional gene expression data. Our classification algorithms (called Bag-RODS and Boost-RODS) learn multiple oblique decision stumps in the way of bagging and boosting to form an ensemble of classifiers more accurate than a single model.
All experiments are conducted with gene expression datasets of DNA Microarray and RNA-Sequencing from the Kent Ridge Biomedical, ArrayExpress and TCGA repositories. Numerical test results show that our proposed algorithms are more accurate than the-state-of-the-art classifying models and improve the classification accuracy of classifiers.
First of all, a new feature extraction model using deep convolutional neural network is proposed to learn latent features from gene expression data. This model improves the classification accuracy of gene expression on both RNA-Seq and DNA-Microarray platforms. Experiment results show that DCNN is effective to extract features from gene expression data. On the other hand, we also propose a combined enhancing and extraction method to address both challenges of the gene expression data classification model. In this approach, the SMOTE algorithm generates new data from features extracted by DCNN. These models are used in conjunction with various classifiers that efficiently classify gene expression data.
Secondly, we propose a new generative adversarial network to enhance data that aim to address the small-samples-size issue of gene expression data. Our model is implemented to generate synthetic data from the original training datasets, which is used in conjunction with various classifiers to predict gene expression data. Numerical test results show that our proposed model improves the classification accuracy of algorithms including support vector machines, k nearest neighbors and random forests.
Last but not least, Bag-RODS and Boost-RODS are investigated that are very suitable for classifying gene expression data. They learn multiple oblique decision stumps in the way of bagging and boosting to form an ensemble of classifiers more accurate than a single model. Numerical test results show that our proposed algorithms are more accurate than the-state-of-the-art classification models, including k nearest neighbors, support vector machines, decision trees and ensembles of decision trees like random forests, bagging and AdaBoost. In addition, these models also improve the classification accuracy by combined with enhancing data model using the GAN and feature extraction model using DCNN.
The dissertation has proposed 3 the novel approaches in gene expression data classification. These contributions are used to address “large p, small n” issue of gene expression data classification model as well as use to build the cancer prediction systems. In addition, the dissertation is useful reference material for students who major in Information System and Computer Sciences and at both undergraduate and postgraduate levels.
Although our approaches hold promise, they are not silver bullets and cannot provide perfect results. There remain some challenges, including imbalanced data, interpretation of deep learning results, and selection of an appropriate architecture and hyper-parameters. Furthermore, we intend to provide more empirical tests on large benchmarks to evaluate classification models with various measures metrics.