Hướng dẫn Stage Owner Mangement
1. Điều kiện tiên quyết
- Tài khoản Gitlab
- Danh sách dự án được tham gia
2. Đối tượng đọc
- Stage Owner
- Customer Success Engineer
- Customer Success Specialist
3. Vai trò và trách nhiệm
- Stage Owner có nhiệm vụ đảm bảo hệ thống hoạt động ổn định.
- Phát hiện và xử lý sớm những sự cố liên quan đến hệ thống server.
- Làm việc trực tiếp và hỗ trợ CS những vấn đề liên quan đến khách hàng và hệ thống.
- Theo dõi và xử lý các ticket trong phạm vi project được phân công Hướng dẫn nhận ticket.
- Review các Merge Request.
- Deploy vào thứ 6 hàng tuần.
- Deploy Production.
4. Hướng dẫn tạo quản lý & theo dõi hệ thông
4.1. Theo dõi hệ thống trên Bizfly
- Theo dõi Ram, CPU, SSD..v.v trên trình "Theo dõi" thời gian thực của Bizfly.

4.2. Theo dõi hệ thống qua Mattermost
- Có 2 channels là Urgent Bizfly Infrastrtucture healtchecks và Bizfly Infrastructure healtchecks. Sẽ thông báo khi hệ thống server có tình trạng hoạt động vượt quá % cho phép.

4.3. Theo dõi link CDN vẫn hoạt động tốt
- Những link CDN như trên Digitalocean và Cloudflare có ảnh hướng đến FE và BE của Gcalls. Nên cần kiểm tra dịch vụ CDN của những đơn vị này vẫn hoạt động ổn định.
- https://../static.gcalls.vn/default/text.js
- https://g../statics.sgp1.digitaloceanspaces.com/Json/GcallsIntegration.json
- https://g../statics.sgp1.digitaloceanspaces.com/roles/professional/level8.json
4.4. Theo dõi lịch sử và trạng thái của các request từng services thời gian thực
Theo dỗi những thông tin request, http status, thời gian hoàn thành các request, lỗi thực thi nếu có:
- PM2
pm2 log- Docker
docker logs -f --tail 1000 filter-service
- PM2 Processes
pm2 monit
4.5. Theo dõi lịch sử và trạng thái của các request từng services qua file Log
- File log của các service sẽ nằm trong những đường dẫn sau:
- PM2
/root/.pm2/logs/- Docker
var/lib/docker/volumes/devops-prod_webphone-service-log/_data
4.6. Kiểm tra log Mongo database
- Cách thông tin log về database như connection, error, query log, tốc độ query mongo...
- Docker
docker logs -f --tail 1000 mongo0
4.7. Kiểm tra các lỗi hệ thống qua file systemLog
- Các lỗi hệ thống máy chủ bao gồm authorization mechanisms, system daemons, system messages, and the all-encompassing system log itself, syslog...
/var/log/syslog

4. Kết Luận
Tài liệu này hướng dẫn kỹ sư mới cách theo dõi hệ thống khi làm stage owner, nếu có góp ý xin vui lòng điền vào form bên dưới