實測結果截圖:
RTX-3090-24G 執行 LEADERG AppForAI - Jupyter-Image-Object-Detection-YOLOv4-CPP 訓練結果:
TitanRTX-24G 執行 LEADERG AppForAI - Jupyter-Image-Object-Detection-YOLOv4-CPP 訓練結果:
RTX-3090-24G 執行 LEADERG AppForAI - Jupyter-Image-Object-Detection-YOLOv4-Multiple-Object-Tracking-CPP 推論結果:
TitanRTX-24G 執行 LEADERG AppForAI - Jupyter-Image-Object-Detection-YOLOv4-Multiple-Object-Tracking-CPP 推論結果:
測試使用軟體版本如下:
顯示卡驅動程式: 456.38
CUDA: 11.0
cuDNN: 8.0.4
LEADERG AppForAI - 人工智慧開發工具: 2040
測試結果:
1. 以 LEADERG AppForAI - Jupyter-Image-Object-Detection-YOLOv4-CPP 實測: RTX-3090-24G 訓練速度比 Titan RTX 快約 40% 。
2. 以 LEADERG AppForAI - Jupyter-Image-Object-Detection-YOLOv4-Multiple-Object-Tracking-CPP 實測: RTX-3090-24G 推論速度比 Titan RTX 快約 10% 。
3. RTX-3090-24G 的 CUDA core 是 Titan RTX 的兩倍,訓練速度提升40%較為顯著,推論速度提昇10%不顯著。
4. YOLOv4 darknet 用 CUDA 11.0 編譯時,目前只能用 CUDNN_HALF = 1模式編譯,也就是說,只能跑 FP16 。 FP16 的速度較快,但是精度較差,不適合用於精細的瑕疵檢測。如果應用對於精度要求較高,需要用 CUDNN_HALF = 0 模式,跑 FP32。FP32 須等 YOLOv4 darknet 作者更新程式才有辦法使用,或是改用 PyTorch 版的 YOLOv4 。