pytorch 소스 빌드 시 주의사항
회사에서 사용 중인 H100*8ea 머신에서 pytorch로 llama3 80b 모델을 양자화하고 파인튜닝하는 내부 PoC 진행 중에 이쪽 세계에서 꽤 유명한(?) 오류를 지속적으로 만나게 됐다. unhandled cuda error (run with NCCL_DEBUG=INFO for details), NCCL version 2.xx.x 진짜 불친절하게도 NCCL_DEBUG=INFO 를 주고 로그 레벨을 더 내리고