Xem Job trong hệ thống HPC

Trong Điện toán Hiệu năng cao (HPC), việc “Xem Job” (các công việc, tác vụ tính toán đang chạy) được thực hiện thông qua các trình quản lý cụm (Workload Manager). Trạng thái của các job được kiểm tra qua dòng lệnh dựa trên hệ thống cụm mà máy chủ HPC đang sử dụng.
Các bước thao tác chi tiết để xem job bao gồm:
1. Hệ thống sử dụng SLURM (Phổ biến nhất): 
  • Xem toàn bộ job trong hàng đợi: Dùng lệnh squeue.
  • Xem chi tiết job cụ thể: Dùng lệnh scontrol show job <job_id>
  • Kiểm tra tài nguyên nút: Dùng lệnh sinfo hoặc scontrol show node 
2. Hệ thống sử dụng SGE (Sun Grid Engine):
  • Xem danh sách job đang chờ hoặc chạy: Dùng lệnh qstat.
  • Xem các job của riêng bạn: Dùng lệnh qstat -u <username>
  • Xem lỗi hoặc lý do job bị treo: Dùng lệnh qstat -j <job_id> 
3. Theo dõi tiến độ tính toán: 
  • Tiến độ thường được ghi trực tiếp vào tệp đầu ra (thường có đuôi .o hoặc .log).
  • Bạn có thể xem tệp này theo thời gian thực bằng lệnh: tail -f <job_name>.o<job_id>.

Add a Comment

Your email address will not be published. Required fields are marked *