Tóm tắt bài báo 1: Enhancing daily runoff forecasting in hydropower basins with a voting ensemble model using historical data
Đỗ Đức Dũng
9/13/20254 min read


Tựa đề
Enhancing daily runoff forecasting in hydropower basins with a voting ensemble model using historical data
Tác giả
Ngoc Anh Le, Phong Nguyen Thanh, Nhat Truong Pham, Le Quoc Huy, Son T. Mai, Duc Dung Do, Huy Anh Nguyen & Duong Tran Anh
Tóm tắt
Nghiên cứu nhằm nâng cao độ chính xác dự báo dòng chảy hàng ngày tại lưu vực có thủy điện, phục vụ quản lý nước và hệ thống cảnh báo lũ (FEWS). Tác giả đánh giá 5 mô hình học máy riêng lẻ (MLP, SVR, RF, XGB, CBR), sau đó phát triển mô hình tổ hợp Voting Ensemble (VE) để cải thiện kết quả dự báo.
VE giúp giảm sai số RMSE: 1–6% (cả năm), 2–14% (mùa khô), và tới 7% (mùa lũ).
Phân tích SHAP được áp dụng để giải thích các đặc trưng đầu vào ảnh hưởng đến dự báo.
VE chứng minh hiệu quả trong lưu vực chịu ảnh hưởng thủy điện, hỗ trợ mô hình hóa lũ và FEWS hạ du.
1. Giới thiệu
Dự báo dòng chảy quan trọng cho kiểm soát lũ, hạn hán và quản lý tài nguyên nước.
Có 3 hướng tiếp cận chính: mô hình quá trình, mô hình dữ liệu, và mô hình lai.
Các nghiên cứu trước thường ở lưu vực không bị ảnh hưởng thủy điện.
Vấn đề nghiên cứu: đánh giá hiệu quả mô hình ML và cải thiện dự báo tại lưu vực có hồ chứa thủy điện.
Khu vực nghiên cứu: sông Đồng Nai, Việt Nam (trạm Tà Lài). Dữ liệu 1987–2022.
Mục tiêu: so sánh 5 mô hình ML và phát triển VE để tăng độ chính xác.
2. Khu vực nghiên cứu và dữ liệu
Lưu vực sông Đồng Nai, khí hậu gió mùa, diện tích 8.850 km².
Có 6 nhà máy thủy điện lớn: Đa Nhim (1964), Đại Ninh (2008), Đồng Nai 2 (2015), Đồng Nai 3 (2012), Đồng Nai 4 (2010), Đồng Nai 5 (2015).
Lượng mưa trung bình năm >1900 mm, chia thành mùa khô (1–6) và mùa mưa (7–12).
Dữ liệu: mưa ngày tại 5 trạm (Đà Lạt, Bù Đăng, Phước Hòa, Tà Lài, Trị An) và dòng chảy ngày tại Tà Lài.
Tổng dữ liệu: 36 năm (1987–2022), chia 80% huấn luyện và 20% kiểm tra.
3. Phương pháp
Tiền xử lý: loại nhiễu bằng K-NN.
Đặc trưng đầu vào: mưa tại 5 trạm, dòng chảy quá khứ, theo kịch bản trễ 1, 2, 3 ngày.
Mô hình riêng lẻ:
MLP (mạng nơ-ron),
SVR (hồi quy véc-tơ hỗ trợ),
RF (rừng ngẫu nhiên),
XGB (gradient boosting),
CBR (CatBoost).
VE: tổ hợp trung bình trọng số từ 5 mô hình trên.
Đánh giá: RMSE, NSE, PBIAS, RSR.
4. Kết quả và thảo luận
Độ trễ dữ liệu:
Trễ 1 ngày tốt nhất cho mùa khô.
Trễ 3 ngày tốt nhất cho mùa lũ.
Trễ 2 ngày tốt hơn toàn năm.
Hiệu quả mô hình:
VE vượt trội so với từng mô hình riêng lẻ.
Cải thiện RMSE so với MLP, SVR, RF, XGB, CBR.
SVR dự báo đỉnh lũ tốt nhưng kém khái quát.
RF, XGB, CBR khái quát tốt nhưng thường đánh giá thấp đỉnh lũ.
Phân tích SHAP: các trạm mưa ảnh hưởng nhiều nhất: Tà Lài (R1), Bù Đăng (R4), Đà Lạt (R2).
So sánh với các nghiên cứu trước (SWAT): VE chính xác hơn rõ rệt.
4.3 Hạn chế và hướng nghiên cứu
Chỉ sử dụng một số kỹ thuật ML; chưa xét đến dữ liệu khí tượng khác (nhiệt độ, độ ẩm, gió...).
Chưa xét đến thay đổi chính sách quản lý vận hành hồ chứa.
Tương lai cần mở rộng dữ liệu và tích hợp yếu tố vận hành thủy điện.
5. Kết luận
Mô hình VE cải thiện đáng kể độ chính xác dự báo dòng chảy tại lưu vực thủy điện Đồng Nai.
Nâng cao hiệu quả cảnh báo lũ sớm, hữu ích ngay cả khi dữ liệu hạn chế.
Kết quả gợi ý hướng phát triển các mô hình tổ hợp kết hợp ML để tăng độ tin cậy dự báo thủy văn.