8 June, 2026
Xem Job trong hệ thống HPC
Trong Điện toán Hiệu năng cao (HPC), việc “Xem Job” (các công việc, tác vụ tính toán đang chạy) được thực hiện thông qua các trình quản lý cụm (Workload Manager). Trạng thái của các job được kiểm tra qua dòng lệnh dựa trên hệ thống cụm mà máy chủ HPC đang sử dụng.
Các bước thao tác chi tiết để xem job bao gồm:
1. Hệ thống sử dụng SLURM (Phổ biến nhất):
- Xem toàn bộ job trong hàng đợi: Dùng lệnh
squeue. - Xem chi tiết job cụ thể: Dùng lệnh
scontrol show job <job_id> - Kiểm tra tài nguyên nút: Dùng lệnh
sinfohoặcscontrol show node
2. Hệ thống sử dụng SGE (Sun Grid Engine):
- Xem danh sách job đang chờ hoặc chạy: Dùng lệnh
qstat. - Xem các job của riêng bạn: Dùng lệnh
qstat -u <username> - Xem lỗi hoặc lý do job bị treo: Dùng lệnh
qstat -j <job_id>
3. Theo dõi tiến độ tính toán:
- Tiến độ thường được ghi trực tiếp vào tệp đầu ra (thường có đuôi
.ohoặc.log). - Bạn có thể xem tệp này theo thời gian thực bằng lệnh:
tail -f <job_name>.o<job_id>.