Tên đề tài: “Máy học trong phân tích dữ liệu y khoa”
Tác giả: Võ Trí Thức, Khóa: 2022
Ngành: Hệ thống thông tin; Mã số: 62480104. Nhóm ngành: Máy tính và công nghệ thông tin
Người hướng dẫn: PGS.TS. Đỗ Thanh Nghị - Trường Đại học Cần Thơ
Máy học ngày càng đóng vai trò quan trọng trong y khoa, đặc biệt trong chẩn đoán bệnh phổi và tim mạch như dự đoán nhịp tim—hai nguyên nhân hàng đầu gây tử vong toàn cầu. Theo WHO, bệnh tim mạch chiếm 32% trên toàn cầu, trong khi viêm phổi, ung thư phổi, Covid-19 gây hàng triệu ca tử vong mỗi năm. Phát hiện sớm và chẩn đoán chính xác bệnh đóng vai trò then chốt trong điều trị và phục hồi. Tuy nhiên, giám sát nhịp tim thường yêu cầu thiết bị y tế chuyên dụng, gây trở ngại trong việc theo dõi liên tục. Chụp X-quang ngực là phương pháp sàng lọc bệnh phổi, nhưng chẩn đoán phụ thuộc vào bác sĩ, tiềm ẩn nguy cơ sai sót, ảnh hưởng đến hiệu quả điều trị. Do đó, việc nghiên cứu hỗ trợ chẩn đoán bệnh phổi và dự đoán nhịp tim là cần thiết. Mặc dù học sâu đã chứng minh tiềm năng trong phân lớp ảnh X-quang ngực, việc gán nhãn dữ liệu vẫn là thách thức lớn do yêu cầu bác sĩ chuyên môn và chi phí tốn kém. Luận án này đề xuất các giải pháp nhằm giải quyết những vấn đề trên thông qua các đóng góp cụ thể.
Thứ nhất, nghiên cứu đề xuất mô hình dự đoán nhịp tim với phương pháp học sâu, được phát triển dựa trên dữ liệu thu thập từ đồng hồ thông minh Mi Band 4. Bệnh lý tim mạch gây tử vong cao và tiến triển nhanh, do đó, theo dõi và dự đoán nhịp tim đóng vai trò quan trọng trong việc phát hiện sớm vấn đề về nhịp tim và giảm nguy cơ tử vong. Để giải quyết vấn đề này, dữ liệu được thu thập thông qua kết nối với vòng đeo tay Mi Band 4 nhằm cải thiện khả năng tiếp cận dữ liệu nhịp tim, tạo ra tập dữ liệu huấn luyện và kiểm thử với 359.594 mẫu. Mô hình dự đoán nhịp tim được phát triển từ sáu mô hình học sâu (LSTM, GRU, BiLSTM, BiGRU, CNN-LSTM và ConvLSTM).
Thứ hai, luận án giới thiệu phương pháp mới SSLnC để cải thiện hiệu quả phân lớp hình ảnh X-quang ngực (bình thường, Covid-19, phù phổi, khối u, và tràn khí màng phổi) bằng cách kết hợp học tự giám sát và thuật toán máy học. Một lượng lớn dữ liệu ảnh X-quang ngực không nhãn được sử dụng để học các đặc trưng, nhằm giải quyết vấn đề khan hiếm dữ liệu ảnh X-quang ngực có nhãn. Phương pháp học tự giám sát được huấn luyện để học đặc trưng từ dữ liệu không nhãn với ba kiến trúc mạng ResNet(34, 50 và 101), Swin Transformer (SwinT) và phiên bản gọn nhẹ LSwinT. Thay vì tinh chỉnh bộ phân lớp (fc/ head) của mô hình đã huấn luyện trước với dữ liệu không nhãn, phương pháp đề xuất kết hợp thuật toán máy học (LightGBM, SVM, CatBoost và XGBoost) thay thế tầng phân lớp trong mạng học sâu. Kết quả thực nghiệm cho thấy tiếp cận được đề xuất nâng cao hiệu quả phân lớp của mô hình cũng như giảm sự phụ thuộc vào nguồn dữ liệu có nhãn.
Thứ ba, thuật toán RF-BMT (rừng ngẫu nhiên với cây có lề lớn nhất) được đề xuất cho bài toán phân lớp đa lớp, mở rộng nghiên cứu từ phương pháp SSLnC. Ý tưởng chính của thuật toán là thay thế tập hợp cây quyết định trong rừng ngẫu nhiên bởi tập hợp cây có lề lớp nhất (BMT) dựa trên thuật toán máy học vectơ hỗ trợ. Cách tiếp cận của nghiên cứu là kết hợp học tự giám sát với thuật toán được đề xuất để cải thiện hiệu quả phân lớp. Dựa trên kết quả thực nghiệm, thuật toán RF-BMT cho thấy sự cải thiện hiệu quả so với việc huấn luyện tầng phân lớp của mô hình MoCo cũng như khi so sánh với các thuật toán phân lớp khác trên tất cả các mức dữ liệu huấn luyện có nhãn từ 5% đến 100%.
Thứ tư, nghiên cứu phân lớp ảnh X-quang ngực mở rộng theo hướng đa nhãn, phản ánh thực tế lâm sàng khi một ảnh thể hiện nhiều nhãn cùng lúc. Nghiên cứu đề xuất phương pháp nâng cao hiệu quả mô hình thông qua học tự giám sát để trích xuất các đặc trưng từ dữ liệu chưa gán nhãn. Luận án đề xuất tinh chỉnh kiến trúc từ mô hình học tự giám sát vào nhiệm vụ phân lớp đa nhãn và cải thiện được hiệu quả phân lớp trên kiến trúc mạng ResNet(34, 50, 101). Ngoài ra, kiến trúc LSwinT dựa trên Swin Transformer cũng được đề xuất để giảm độ phức tạp của mô hình và tăng hiệu quả tính toán. Kết quả cho thấy việc tinh chỉnh mô hình được huấn luyện trước trên ảnh X-quang ngực không nhãn giúp cải thiện hiệu quả tốt hơn so với mô hình được huấn luyện trước trên ImageNet.
Thứ nhất, luận án đề xuất xây dựng mô hình dự đoán nhịp tim dựa trên phương pháp học sâu. Bước đầu tiên của nghiên cứu là thu thập dữ liệu nhịp tim từ thiết bị đeo thông minh Mi Band 4, một thiết bị phổ biến và dễ dàng tiếp cận. Với tiếp cận này sẽ giúp giải quyết được một phần thách thức trong tiếp cận nguồn dữ liệu nhịp tim. Dữ liệu này sau đó được tiền xử lý và đưa vào huấn luyện với sáu mô hình học sâu, bao gồm LSTM, GRU, Bi-LSTM, Bi-GRU, CNN-LSTM, và Conv-LSTM, nhằm mục tiêu so sánh và tìm ra mô hình dự đoán nhịp tim tốt nhất. Kết quả thực nghiệm, mô hình Bi-GRU đạt hiệu quả dự đoán tốt nhất, thể hiện tiềm năng có thể triển khai ứng dụng trong thực tế để cảnh báo khi nhịp tim dự đoán vượt quá ngưỡng bình thường.
Thứ hai, một phương pháp tiếp cận mới được đề xuất để cải thiện hiệu quả phân lớp ảnh X-quang ngực gồm phổi bình thường (normal), Covid-19, phù phổi (edema), khối u (mass-nodule) và tràn khí màng phổi (pneumothorax). Trong phương pháp đề xuất, kỹ thuật học tự giám sát được kết hợp với các thuật toán máy học để phân lớp dữ liệu ảnh X-quang ngực. Thay vì tinh chỉnh bộ phân lớp của mô hình huấn luyện trước từ học tự giám sát, nghiên cứu sử dụng nó làm bộ trích xuất đặc trưng cho dữ liệu có nhãn. Các đặc trưng được trích xuất sau đó được huấn luyện trên các thuật toán phân lớp bao gồm SVM, LightGBM, XGBoost và CatBoost, được sử dụng để thay thế cho tầng phân lớp trong mạng học sâu. Kết quả thực nghiệm cho thấy phương pháp tiếp cận được đề xuất đạt được độ chính xác cao hơn so với các mô hình cơ sở.
Thứ ba, mở rộng bài toán phân lớp ảnh X-quang ngực đơn nhãn với học tự giám sát và thuật toán phân lớp, thuật toán mới RF-BMT (rừng ngẫu nhiên với cây có lề lớn nhất) được đề xuất cho bài toán phân lớp đa lớp để nâng cao hiệu quả mô hình. Thuật toán RF-BMT kết hợp SVM để thay thế tập hợp cây quyết định trong rừng ngẫu nhiên thông qua tập hợp cây có lề lớn nhất (BMT). Kết quả thực nghiệm cho thấy thuật toán này đạt độ chính xác cao hơn so với mô hình cơ sở, huấn luyện tầng phân lớp của mô hình học tự giám sát cũng như các thuật toán phân lớp khác trên toàn bộ các mức dữ liệu có nhãn, từ 5% đến 100%.
Thứ tư, nghiên cứu đề xuất phương pháp nhằm cải thiện khả năng phân lớp ảnh X-quang ngực đa nhãn thông qua kỹ thuật học tự giám sát, nhằm tận dụng nguồn dữ liệu chưa được gán nhãn để cải thiện hiệu quả phân lớp. Cụ thể, luận án tiếp cận tinh chỉnh bộ phân lớp trên mô hình học tự giám sát, được thiết kế để huấn luyện với tập dữ liệu đa nhãn. Hơn nữa, một kiến trúc nhỏ gọn cũng được đề xuất nhằm nâng cao hiệu quả tính toán, rút ngắn thời gian huấn luyện và vẫn duy trì được hiệu quả. Kết quả thực nghiệm cho thấy rằng mô hình được huấn luyện trước với ảnh X-quang ngực không nhãn, sau khi được huấn luyện bộ phân lớp, đã thể hiện hiệu quả cao hơn so với mô hình được huấn luyện trước ImageNet. Sự khác biệt này cho thấy học tự giám sát cải thiện hiệu quả phân lớp trong phân lớp ảnh X-quang ngực đa nhãn.
Các kết quả nghiên cứu trong luận án có khả năng ứng dụng trong thực tiễn. Mô hình dự đoán nhịp tim có thể được tích hợp vào các thiết bị đeo thông minh hoặc hệ thống giám sát sức khỏe từ xa nhằm cảnh báo sớm nguy cơ rối loạn nhịp tim, hỗ trợ người dùng và bác sĩ theo dõi nhịp tim liên tục. Bên cạnh đó, các mô hình phân lớp ảnh X-quang ngực có thể hỗ trợ bác sĩ chẩn đoán nhanh và hiệu quả trong bệnh viện, đặc biệt trong bối cảnh thiếu dữ liệu gán nhãn hoặc nhân lực chuyên môn hạn chế. Các phương pháp và thuật toán đề xuất cũng có thể được mở rộng cho các loại dữ liệu y khoa khác, góp phần xây dựng hệ thống hỗ trợ chẩn đoán thông minh trong y tế.
Bên cạnh những kết quả đạt được, luận án có thể được phát triển thêm thông qua các hướng nghiên cứu sau:
Thứ nhất, mở rộng ứng dụng dự đoán nhịp tim trong giám sát y tế cá nhân. Mô hình dự đoán nhịp tim có thể được mở rộng bằng cách kết hợp dữ liệu từ các thiết bị đeo thông minh khác, chẳng hạn như Apple Watch hoặc Fitbit, nhằm tăng độ chính xác và khả năng áp dụng rộng rãi. Ngoài ra, việc tích hợp nhịp tim với các chỉ số sinh học khác, như nồng độ oxy máu hoặc mức độ vận động, sẽ giúp cung cấp cái nhìn toàn diện hơn về sức khỏe tim mạch, hỗ trợ chẩn đoán và điều trị kịp thời.
Thứ hai, nghiên cứu việc áp dụng học tự giám sát trên dữ liệu không nhãn với các lĩnh vực liên quan, chẳng hạn như ảnh CT hoặc MRI, có thể mang lại những bước tiến quan trọng. Tiếp cận học tự giám sát trên dữ liệu không nhãn hỗ trợ chẩn đoán những bệnh khác, không chỉ giúp khai thác hiệu quả dữ liệu không nhãn mà còn giảm bớt sự phụ thuộc vào dữ liệu có nhãn.
Thứ ba, hướng nghiên cứu tiềm năng là xây dựng các mô hình huấn luyện dữ liệu phân lớp ảnh X-quang ngực kết hợp với các thông tin liên quan khác của bệnh nhân, chẳng hạn như thông tin cận lâm sàng và dữ liệu hình ảnh y khoa khác bổ sung. Cách tiếp cận này không chỉ giúp nâng cao khả năng chẩn đoán chính xác nhờ vào bối cảnh lâm sàng.
Thứ tư, nghiên cứu diễn giải mô hình cũng như phân vùng trong phân tích ảnh X-quang ngực. Cải thiện khả năng diễn giải giúp xác định rõ yếu tố ảnh hưởng đến quyết định của mô hình, hỗ trợ bác sĩ đánh giá kết quả chẩn đoán.
Thứ năm, nghiên cứu triển khai thực tế các mô hình dự đoán nhịp tim và phân lớp ảnh X-quang ngực trong môi trường lâm sàng.
Bên cạnh các hướng nghiên cứu đã được đề cập, luận án đã đóng góp về việc cải thiện độ chính xác của các mô hình phân lớp ảnh X-quang ngực, đồng thời thời gian các mô hình ở mức chấp nhận được. Nghiên cứu sẽ tiếp tục tập trung vào việc cải thiện cả độ chính xác và thời gian huấn luyện của các mô hình.
Thesis title: Machine learning in medical data analysis.
- Major: Information systems Code: 9480104
- Full name of PhD student: Tri-Thuc Vo Year: 2022
- Scientific supervisor: Assoc. Prof. Dr. Thanh-Nghi Do
- Educational institution: Can Tho University
Machine learning plays an increasingly vital role in healthcare, particularly in diagnosing lung and cardiovascular diseases such as heart rate prediction—two leading causes of global mortality. According to the WHO, cardiovascular diseases account for 32% of global deaths, while pneumonia, lung cancer, and Covid-19 cause millions of deaths annually. Early detection and accurate diagnosis are crucial for enhancing treatment effectiveness and improving recovery rates. However, monitoring heart rate often requires specialized medical devices, posing challenges for continuous monitoring. Chest X-ray imaging is a common screening tool for lung diseases, but diagnosis depends on physicians, posing potential inaccuracies that could affect treatment. Therefore, research supporting the diagnosis of lung diseases and heart rate prediction is crucial. While deep learning has shown promise in chest X-ray classification, data labeling remains a major challenge due to the need for expert annotation and high costs. This dissertation proposes solutions to address these challenges through specific contributions.
First, this study proposes a prediction model of heart rate using deep learning, developed based on data collected from the Mi Band 4 smartwatch. Cardiovascular diseases have a high mortality rate and rapid progression, so monitoring and predicting heart rate plays an important role in early detection of heart rhythm issues and reducing the risk of death. To address this issue, data were collected via a connection with the Mi Band 4, resulting in a training and testing dataset of 359.594 samples. The prediction model of heart rate was developed using six deep learning architectures: LSTM, GRU, BiLSTM, BiGRU, CNN-LSTM, and ConvLSTM.
Second, a novel approach SSLnC is introduced to enhance chest X-ray classification (normal, Covid-19, edema, mass-nodule, and pneumothorax) by combining self-supervised learning and machine learning algorithms. A large amount of unlabeled chest X-ray data was leveraged to learn features, addressing the challenge of limited labeled data. Self-supervised learning was trained on three ResNet architectures (34, 50, and 101), Swin Transformer (SwinT) and its lightweight variants, LSwinT. Instead of fine-tuning a classifier (fc/ head) on a pre-trained model with unlabeled data, the proposed approach combines algorithms (LightGBM, SVM, CatBoost, and XGBoost) as a replacement for a classifier in deep networks. Experimental results demonstrate that the proposed approach improves classification performance while reducing reliance on labeled data.
Third, the RF-BMT algorithm (Random Forest with Biggest Margin Tree) is proposed for multi-class classification, extending the SSLnC method. The core idea of RF-BMT is to replace the decision trees in a random forest with Biggest Margin Trees (BMT), constructed based on the Support Vector Machines. Our approach combines self-supervised learning with the proposed algorithm to enhance performance. Experimental results demonstrate that the RF-BMT algorithm significantly outperforms fine-tuning the classifier in the MoCo model, as well as other classification algorithms across all labeled data levels ranging from 5% to 100%.
Fourth, this study extends to a multi-label approach in chest X-ray images, reflecting clinical reality where an image can represent multiple labels simultaneously. A self-supervised learning was proposed to extract features from unlabeled data, and the pretrained model was fine-tuned for multi-label classification, improving performance on ResNet(34, 50, 101). Additionally, the LSwinT architecture, based on Swin Transformer, was introduced to reduce model complexity and enhance computational efficiency. The results show that fine-tuning the pretrained model on unlabeled X-ray images improves performance compared to the model pretrained on ImageNet.
Firstly, the dissertation proposes developing a heart rate prediction model based on deep learning methods. The initial step of the study involves collecting heart rate data from the Mi Band 4, a widely used and easily accessible wearable device. This approach helps address part of the challenge in obtaining heart rate data. The collected data are then preprocessed and used to train six deep learning models, including LSTM, GRU, Bi-LSTM, Bi-GRU, CNN-LSTM, and Conv-LSTM, with the aim of comparing their performance and identifying the most effective model for heart rate prediction. Experimental results show that the Bi-GRU model achieves the best performance, demonstrating its potential for real-world applications in early warning systems when predicted heart rate values exceed normal thresholds.
Secondly, a new approach is proposed to improve the classification performance of chest X-ray images, including normal, Covid-19, edema, mass-nodule, and pneumothorax cases. In the proposed method, self-supervised learning is combined with machine learning algorithms for chest X-ray image classification. Instead of fine-tuning a classifier (fc/ head) on a pre-trained model with unlabeled data, the study leveraged it as a feature extractor for labeled data. The extracted features are then trained using classification algorithms such as SVM, LightGBM, XGBoost, and CatBoost, which serve as replacements for the classification layer in deep networks. Experimental results show that the proposed approach achieves higher accuracy compared to baseline models.
Thirdly, the study extends the chest X-ray classification with self-supervised learning and classification algorithms by proposing a new algorithm, RF-BMT (Random Forest with Biggest Margin Trees), for multi-class classification to enhance model performance. The RF-BMT algorithm integrates SVM to replace the ensemble of decision trees in the random forest with an ensemble of biggest margin trees (BMT). Experimental results demonstrate that RF-BMT achieves higher accuracy compared to baseline models, fine-tuning the classifier in the MoCo model, as well as other classification algorithms across all labeled data levels ranging from 5% to 100%.
Fourthly, the study proposes a method to improve multi-label chest X-ray image classification through self-supervised learning, leveraging unlabeled data to enhance performance. Specifically, the dissertation adopts an approach that fine-tunes the classifier of a self-supervised model designed for training on multi-label datasets. Additionally, the LSwinT architecture, based on Swin Transformer, was introduced to reduce model complexity and enhance computational efficiency. The results show that fine-tuning a classifier from the pretrained model on unlabeled X-ray images improves performance compared to the pretrained model on ImageNet. This difference demonstrates that self-supervised learning enhances effectiveness in multi-label chest X-ray image classification.
The research results presented in this dissertation have strong potential for real-world applications. The heart rate prediction model can be integrated into wearable devices or health monitoring systems to provide early warnings of arrhythmia risks, supporting both users and physicians in monitoring heart rate continuously. In addition, the chest X-ray classification models can assist physicians in fast and efficient diagnosis in hospitals, especially in contexts with limited labeled data or a shortage of medical experts. The proposed methods and algorithms can also be extended to other types of medical data, contributing to the development of intelligent diagnostic support systems in healthcare.
Alongside the obtained results, the dissertation can be further developed through the following research directions:
First, study extends the application of heart rate prediction in personal health monitoring. The heart rate prediction model can be enhanced by integrating data from various wearable devices, such as Apple Watch or Fitbit, to improve accuracy and broaden applicability. Moreover, combining heart rate with other physiological indicators—such as blood oxygen level or physical activities—can provide a more comprehensive view of cardiovascular health, supporting timely diagnosis and treatment.
Second, investigating the application of self-supervised learning on unlabeled data in related domains, such as CT or MRI images, could bring significant advancements. Approaching self-supervised learning to unlabeled data supports the diagnosis of diseases, enabling more effective use of unlabeled data and reducing reliance on labeled datasets.
Third, a promising research direction is to develop chest X-ray image classification models that incorporate additional patient-related information, such as clinical test results or complementary medical imaging data. This approach could improve diagnostic accuracy by leveraging a broader clinical context.
Fourth, future research focus on model interpretability and localization in chest X-ray image analysis. Enhancing interpretability can clarify which factors influence the model’s decisions, helping physicians better assess diagnostic outcomes.
Fifth, the study will implement the heart rate prediction and chest X-ray classification models in clinical environments.
In addition to these research directions, the dissertation has contributed to improving the accuracy of chest X-ray classification models while maintaining acceptable training times. Future work will continue to focus on enhancing both the accuracy and computational efficiency of these models.