GPUDirect SQL on NFS-over-RDMAã‚’è©¦ã™

ã‚¿ã‚¤ãƒˆãƒ«ã§ã»ã¼ã»ã¼å‡ºã‚ªãƒã§ã™ãŒã€å…ˆæ—¥ã€NVIDIAã‹ã‚‰CUDA Toolkit 11.4ã¨å…±ã«ãƒªãƒªãƒ¼ã‚¹ã•ã‚ŒãŸæ–°æ©Ÿèƒ½GPUDirect Storage 1.0のドキュメントã‚’èªã‚“ã§ã„ã‚‹ã¨ã€é¢ç™½ã„è¨˜è¿°ã‚’è¦‹ã¤ã‘ãŸã€‚

æ›°ãã€MOFEDãƒ‰ãƒ©ã‚¤ãƒ5.3ä»¥é™ã¨ã€Mellanox Connect-X4/5ã®çµ„ã¿åˆã‚ã›ã§ã€NFS-over-RDMAã¨GPUDirect Storageã‚’çµ„ã¿åˆã‚ã›ã€ãƒªãƒ¢ãƒ¼ãƒˆã®NFSåŒºç”»ã‹ã‚‰ãƒãƒ¼ã‚«ãƒ«ã®GPUã¸ã¨ç›´æŽ¥ã®ãƒ‡ãƒ¼ã‚¿è»¢é€ã‚’è¡Œã†äº‹ãŒã§ãã‚‹ã‚ˆã†ã«ãªã‚‹ã€ã¨ã€‚

14.10. NFS Support with GPUDirect Storage
This section provides information about NFS support with GDS.
14.10.2. Install GPUDirect Storage Support for the NFS Client
Here is some information about installing GDS support for the NFS client.
To install a NFS client with GDS support complete the following steps:
Note: The client must have a Mellanox connect-X4/5 NIC with MLNX_OFED 5.3 or later installed.
:

çµæ§‹ãªäº‹ã§ã‚ã‚‹ã€‚
PG-Strom v3.0ä»¥å‰ã§ã¯ã€ãƒãƒ¼ã‚«ãƒ«ã®NVME-SSDã¾ãŸã¯ãƒªãƒ¢ãƒ¼ãƒˆã®NVME-oFåŒºç”»ï¼ˆå®Ÿé¨“çš„ï¼‰ã‚’ Ext4 ãƒ•ã‚¡ã‚¤ãƒ«ã‚·ã‚¹ãƒ†ãƒ ã§åˆæœŸåŒ–ã—ãŸãƒ‘ã‚¿ãƒ¼ãƒ³ã«é™ã£ã¦ GPUDirect SQL ãŒå¯¾å¿œã—ã¦ã„ãŸãŸã‚ã€

æ®µéšŽçš„ã«ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã‚’æ‹¡å¼µã™ã‚‹ã®ã«å›°é›£ã‚’ä¼´ã£ãŸã€‚
å…±æœ‰ãƒ•ã‚¡ã‚¤ãƒ«ã‚·ã‚¹ãƒ†ãƒ ã§ã¯ãªã„ã®ã§ã€è¤‡æ•°å°ã®ãƒŽãƒ¼ãƒ‰ã‹ã‚‰æ›¸ãè¾¼ã¿ãŒã§ããªã‹ã£ãŸã€‚

ã¨ã„ã†èª²é¡ŒãŒã‚ã£ãŸã€‚NFSè‡ªä½“ã¯ã‚‚ã®ã™ã”ãé«˜é€Ÿãªãƒ•ã‚¡ã‚¤ãƒ«ã‚·ã‚¹ãƒ†ãƒ ã€ã¨ã„ã†ãƒ¯ã‚±ã§ã¯ãªã„ãŒã€DB/GPUã‚µãƒ¼ãƒã‹ã‚‰ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã‚’åˆ†é›¢ã—ã€ã‹ã¤è¤‡æ•°ã®ãƒŽãƒ¼ãƒ‰ã‹ã‚‰æ›¸ãè¾¼ã¿ãŒã§ãã‚‹ã®ã§ã‚ã‚Œã°ã€ä¾‹ãˆã°ã€IoT/M2Mç³»ã®ãƒ¯ãƒ¼ã‚¯ãƒãƒ¼ãƒ‰ã§ãƒã‚°ãƒ‡ãƒ¼ã‚¿ã‚’åŽé›†ã—ã€ã“ã‚Œã‚’NFSã‚µãƒ¼ãƒä¸Šã«ç½®ã„ã¦ãŠãã•ãˆã™ã‚Œã°ã€DB/GPUã‚µãƒ¼ãƒã‹ã‚‰ã“ã‚Œã‚’å‚ç…§ã—ã¦GPUDirect SQLã®å‡¦ç†ã‚¹ãƒ”ãƒ¼ãƒ‰ã§ã‚‚ã£ã¦ã‚³ãƒ¬ã‚’åˆ†æžã™ã‚‹äº‹ãŒã§ãã‚‹ã€‚

çµè«–ï¼šçµæ§‹ã‚¤ã‚±ã¦ã‚‹

ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—æ‰‹é †ãªã©ã¯é•·ããªã‚‹ã®ã§å¾Œå›žã—ã«ã™ã‚‹ã¨ã—ã¦ã€ã²ã¨ã¾ãšSSBM (Star Schema Benchmark) ã®çµæžœã‚’ä¸€è¨€ã§ã¾ã¨ã‚ã‚‹ã¨ã€Œçµæ§‹ã‚¤ã‚±ã¦ã‚‹ã€ã¨ã„ã†å°è±¡ã€‚

æ¸¬å®šç’°å¢ƒã¯ä»¥ä¸‹ã®å›³ã®é€šã‚Šã§ã€ä»Šå›žã¯1Uã‚µãƒ¼ãƒã®SYS-1019GP-TTã«NFSã‚µãƒ¼ãƒã«ãªã£ã¦ã‚‚ã‚‰ã£ãŸã€‚ã“ã®äººã«ã¯ã€ã‚¨ãƒ³ã‚¯ãƒãƒ¼ã‚¸ãƒ£çµŒç”±ã§NVME-SSDï¼ˆIntel DC P4510[1.0TB; U.2]ï¼‰ã‚’4å°æŽ¥ç¶šã—ã€ã¾ãŸ Mellanox Connect-X5 ã¨ã„ã†100Gb-NIC ã‚’æŽ¥ç¶šã—ã¦ã„ã‚‹ã€‚
GPU/DBã‚µãƒ¼ãƒã«ã¯4Uã®SYS-4029GP-TRTã‚’ä½¿ã„ã€ã“ã®äººã«ã¯ã€åŒã˜PCI-Eã‚¹ã‚¤ãƒƒãƒã®é…ä¸‹ã«GPUã¨Connect-X5ã‚’æŽ¥ç¶šã—ãŸãƒšã‚¢ã¨ã€ã‚‚ã†ä¸€ã¤GPUã¨NVME-SSDï¼ˆåŒ DC P4510ï¼‰ã‚’4å°æŽ¥ç¶šã—ãŸãƒšã‚¢ã‚’ä½œã£ãŸã€‚ã“ã‚Œã¯ãƒãƒ¼ã‚«ãƒ«NVME-SSDã¨ã®æ€§èƒ½æ¯”è¼ƒç”¨ã§ã‚ã‚‹ã€‚

NFSã‚µãƒ¼ãƒã¯ã€SSD x4å°ã‚’md-raid0ã§ã‚¹ãƒˆãƒ©ã‚¤ãƒ”ãƒ³ã‚°ã—ãŸåŒºç”»ã‚’NFSã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã«ã‚¨ã‚¯ã‚¹ãƒãƒ¼ãƒˆã—ã€NFSã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã¯ç›´çµã®100Gbãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯*1ã‚’ä»‹ã—ã¦ã€ã“ã‚Œã‚’NFS-over-RDMAãƒ¢ãƒ¼ãƒ‰ã§ãƒžã‚¦ãƒ³ãƒˆã€‚

GPU/DBã‚µãƒ¼ãƒå´ã§ã¯ä»¥ä¸‹ã®ã‚ˆã†ãªã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸æ§‹æˆã¨ãªã£ã¦ã„ã‚‹ã€‚
/opt/nvme0ã«ã¯ã€ãƒãƒ¼ã‚«ãƒ«ã®NVME-SSD x4å°ã‚’md-raid0ã§ã‚¹ãƒˆãƒ©ã‚¤ãƒ”ãƒ³ã‚°ã—ãŸåŒºç”»ã‚’ãƒžã‚¦ãƒ³ãƒˆã€/opt/nvme1ã«ã¯ã€1Uã‚µãƒ¼ãƒï¼ˆ192.168.80.106ï¼‰ã®NFSåŒºç”»ãŒè¦‹ãˆã¦ã„ã‚‹ã€‚

[kaigai@kujira ~]$ df -h
Filesystem                   Size  Used Avail Use% Mounted on
devtmpfs                      94G     0   94G   0% /dev
tmpfs                         94G  257M   94G   1% /dev/shm
tmpfs                         94G   19M   94G   1% /run
tmpfs                         94G     0   94G   0% /sys/fs/cgroup
/dev/mapper/vg_disk-root     246G   15G  218G   7% /
/dev/nvme0n1p1               1.8T   35G  1.7T   2% /opt
/dev/md0p1                   3.6T  1.4T  2.1T  41% /opt/nvme0
/dev/sda2                    976M  189M  721M  21% /boot
/dev/mapper/vg_disk-home     393G   24G  349G   7% /home
/dev/sda1                    599M  6.9M  592M   2% /boot/efi
tmpfs                         19G     0   19G   0% /run/user/1000
192.168.80.106:/mnt/nfsroot  2.0T  1.2T  697G  64% /opt/nvme1

ã§ã€ãã‚Œãžã‚Œã®åŒºç”»ã«ä¿æŒã•ã‚Œã¦ã„ã‚‹lineorderãƒ†ãƒ¼ãƒ–ãƒ«ã¸ã®å‚ç…§ã‚’å«ã‚€SSBMã‚¯ã‚¨ãƒªã®å®Ÿè¡Œé€Ÿåº¦ã¯ä»¥ä¸‹ã®é€šã‚Šã€‚
åˆ†ã‹ã‚Šã‚„ã™ã„ã‚ˆã†ã«ã€ï¼ˆç·DBã‚µã‚¤ã‚ºï¼‰Ã·ï¼ˆã‚¯ã‚¨ãƒªå¿œç”æ™‚é–“ï¼‰ã§å°Žå‡ºã—ãŸã€Žã‚¯ã‚¨ãƒªå‡¦ç†ã‚¹ãƒ«ãƒ¼ãƒ—ãƒƒãƒˆã€ã§è¡¨è¨˜ã—ã¦ã„ã‚‹ã€‚

è¦‹ã¦ã®é€šã‚Šã€ãƒãƒ¼ã‚«ãƒ«ã®NVME-SSDã«æ¯”ã¹ã‚‹ã¨NFS-over-RDMAã¯ï¼‘å‰²ç¨‹åº¦é…ã„ã¨*2è¨€ãˆã‚‹ãŒã€ã“ã‚Œã¯ã€ï¼‘å‰²ç¨‹åº¦é…ã„ã ã‘ã§ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã®æ‹¡å¼µæ€§ã‚„ãƒªãƒ¢ãƒ¼ãƒˆã‚¢ã‚¯ã‚»ã‚¹ã¨ã„ã£ãŸç‰¹æ€§ã‚’å¾—ã‚‰ã‚Œã‚‹ã¨ã„ã†äº‹ã‚’æ„å‘³ã™ã‚‹ã€‚

ã‚¯ã‚¨ãƒªå®Ÿè¡Œä¸ã®ã‚¹ãƒˆãƒ¬ãƒ¼ã‚¸ã‹ã‚‰ã®èªã¿å‡ºã—é€Ÿåº¦ã‚’è¦‹ã¦ã¿ã¦ã‚‚ã€ã‚¯ã‚¨ãƒªå®Ÿè¡Œä¸ã®100Gbã®ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã§8.0GB/så¼·ã‚’å‡ºã›ã¦ã„ã‚‹ã®ã§ã€ã¾ãšã¾ãšã®ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã¨è¨€ãˆã‚‹ã€‚
ãªãŠã€ãƒãƒ¼ã‚«ãƒ«ã®NVME-SSDã®å ´åˆã€å¾ŒåŠã§çªç„¶èªã¿å‡ºã—é€Ÿåº¦ãŒå¢—ã—ã§10.0GB/sç¨‹åº¦ã¾ã§å¢—é€Ÿã—ã¦ã„ã‚‹ãŒã€ã“ã‚Œã«ã¤ã„ã¦ã¯ç¾æ™‚ç‚¹ã§è¬Žã§ã‚ã‚‹â€¦ã€‚

çµè«–

PG-Stromã®GPUDirect SQLã¨NFS-over-RDMAã®ä½µç”¨ã€ä½Žã‚³ã‚¹ãƒˆã®ãƒã‚°é›†ç©ï¼†åˆ†æžåŸºç›¤ã¨ã—ã¦ã¯çµæ§‹ã‚¢ãƒªã‹ã‚‚ã‚ˆã€‚
ãƒã‚°ãƒ‡ãƒ¼ã‚¿ã‚’ Apache Arrow å½¢å¼ã§æ›¸ãè¾¼ã‚“ã§ãŠã‘ã°ã€ãƒ‡ãƒ¼ã‚¿ã‚’ã‚¤ãƒ³ãƒãƒ¼ãƒˆã™ã‚‹å¿…è¦ã™ã‚‰ãªããªã‚Šã¾ã™ã€‚

NFS-over-RDMAã®ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—æ‰‹é †

NFS-over-RDMAã®ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—æ‰‹é †ã¯ã€ä»¥ä¸‹ã®ãƒ–ãƒã‚°ã‚’å‚è€ƒã«ã—ãŸâ€¦ã¨ã„ã†ã‹ã€ã»ã¨ã‚“ã©ãã®ã¾ã¾ã€‚
https://community.mellanox.com/s/article/howto-configure-nfs-over-rdma--roce-x

ã‚½ãƒ•ãƒˆã‚¦ã‚§ã‚¢ã®æ§‹æˆã¯ã–ã£ãã‚Šä»¥ä¸‹ã®é€šã‚Š

CentOS 8.3 (kernel-4.18.0-240.22.1.el8_3.x86_64)
CUDA Toolkit 11.4 (NVIDIA Driver R470.42.01)
MOFED 5.3-1.0.0.1 (RHEL8.3; x86_64)
PostgreSQL v13.3 (PG-Strom v3.0-3)

MOFEDOãƒ‰ãƒ©ã‚¤ãƒã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

ã¾ãšã€Mellanoxのサイトã‹ã‚‰MOFEDãƒ‰ãƒ©ã‚¤ãƒã®æœ€æ–°ç‰ˆã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã™ã‚‹ã€‚

[Version]->[OS Distribution]->[OS Distribution Version]->[Architecture]ã¨é¸æŠžã—ã¦ã„ãã¨ã€ãƒã‚¤ãƒŠãƒªãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã‚’å«ã‚€ tgz ã®ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã¨ã€ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã® tgz ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ã®ä¸¡æ–¹ãŒè¡¨ç¤ºã•ã‚Œã‚‹ã®ã§ã€ä¸¡æ–¹ã¨ã‚‚ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã€‚å®Ÿã¯ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚‚å¾Œã§ä½¿ã„ã¾ã™ã€‚

tgzãƒ•ã‚¡ã‚¤ãƒ«ã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã™ã‚‹ã¨ã€ã¾ãš GPUDirect Storage ã®ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆé€šã‚Šã«ãƒ‰ãƒ©ã‚¤ãƒã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã‚’è¡Œã†ã€‚
é€”ä¸ã€ä¸è¶³ã™ã‚‹ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸ãŒã‚ã‚‹å ´åˆã«ã¯ã€ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã‚¹ã‚¯ãƒªãƒ—ãƒˆãŒã‚µã‚¸ã‚§ã‚¹ãƒˆé€šã‚Šã«`dnf install ...`ã™ã‚Œã°ã‚ˆã„ã®ã§ã€ãã®é€šã‚Šã«é€²ã‚ã‚Œã°MOFEDãƒ‰ãƒ©ã‚¤ãƒã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã¯è¡Œãˆã‚‹ã¯ãšã€‚

$ sudo ./mlnxofedinstall --with-nvmf --with-nfsrdma --enable-gds --add-kernel-support
Note: This program will create MLNX_OFED_LINUX TGZ for rhel8.3 under /tmp/MLNX_OFED_LINUX-5.3-1.0.0.1-4.18.0-240.22.1.el8_3.x86_64 directory.
See log file /tmp/MLNX_OFED_LINUX-5.3-1.0.0.1-4.18.0-240.22.1.el8_3.x86_64/mlnx_iso.225746_logs/mlnx_ofed_iso.225746.log

Checking if all needed packages are installed...
Building MLNX_OFED_LINUX RPMS . Please wait...
    :
  <snip>
    :
$ sudo dracut -f
$ sudo shutdown -r now

ã“ã‚Œã‚’ã€NFSã‚µãƒ¼ãƒå´ã€NFSã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆå´ã®ä¸¡æ–¹ã§è¡Œã„ã€ã‚·ã‚¹ãƒ†ãƒ ã‚’å†èµ·å‹•ã€‚

NFSã‚µãƒ¼ãƒã®è¨å®š

1Uã‚µãƒ¼ãƒã®SYS-1019GP-TTå´ã§ã¯ã€ãƒãƒ¼ã‚«ãƒ«ã®NVME-SSDã‚’4æœ¬æŸããŸmd-raid0åŒºç”»ã‚’`/mnt/nfsroot`ã«ãƒžã‚¦ãƒ³ãƒˆã—ã¦ã„ã‚‹ã€‚
ã“ã‚Œã‚’ä»¥ä¸‹ã®æ‰‹é †ã§NFS-over-RDMAåŒºç”»ã¨ã—ã¦ã‚¨ã‚¯ã‚¹ãƒãƒ¼ãƒˆã™ã‚‹ã€‚

1. IPã‚¢ãƒ‰ãƒ¬ã‚¹ä»–ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯è¨å®š

ä»Šå›žã¯å®‰ç›´ã«192.168.80.0/24ã‚’ç›´çµç”¨ã®ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã¨ã—ã¦ä½¿ç”¨ã€‚
é™çš„ã«192.168.80.106/24ã‚’Connect-X5ãƒ‡ãƒã‚¤ã‚¹ã«è¨å®šã—ã€MTU=9000ã§NICã‚’æœ‰åŠ¹åŒ–ã—ã¾ã—ãŸã€‚

2. /etc/exportsã‚’è¨˜è¿°ã€‚ç‰¹ã«ã‚»ã‚ãƒ¥ãƒªãƒ†ã‚£ã¨ã‹ä½•ã‚‚è€ƒãˆã¦ãªã„è¨å®šã§ã™ã€‚

# cat /etc/exports
/mnt/nfsroot *(rw,async,insecure,no_root_squash)

3. RDMA Transport Kernel Moduleã‚’ãƒãƒ¼ãƒ‰ã€‚ã“ã‚Œã¯MOFEDãƒ‰ãƒ©ã‚¤ãƒã«ã‚ˆã£ã¦æä¾›ã•ã‚Œã‚‹ãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã€‚

# modprobe svcrdma
# modinfo svcrdma
filename:       /lib/modules/4.18.0-240.22.1.el8_3.x86_64/extra/mlnx-nfsrdma/svcrdma.ko
version:        2.0.1
license:        Dual BSD/GPL
description:    svcrdma dummy kernel module
author:         Alaa Hleihel
rhelversion:    8.3
srcversion:     F7C50654667EBC6F832D608
depends:        mlx_compat
name:           svcrdma
vermagic:       4.18.0-240.22.1.el8_3.x86_64 SMP mod_unload modversions

4. NFSã‚µãƒ¼ãƒã‚’èµ·å‹•

# systemctl start nfs-server

5. RDMAè»¢é€ç”¨ã®ãƒãƒ¼ãƒˆç•ªå·ã‚’è¨å®šã€‚ä¸€å¿œã€ä»»æ„ã®ãƒãƒ¼ãƒˆç•ªå·ã‚’ä½¿ç”¨ã§ãã‚‹ãŒã€20049ã¨ã„ã†ã®ãŒwell-known defaultã¨ã®ã“ã¨ã€‚

# echo rdma 20049 > /proc/fs/nfsd/portlist
# cat /proc/fs/nfsd/portlist
rdma 20049
rdma 20049
tcp 2049
tcp 2049

NFSã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã®è¨å®š

1. IPã‚¢ãƒ‰ãƒ¬ã‚¹ä»–ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯è¨å®š

ã‚µãƒ¼ãƒãƒ¼å´ã¨åŒæ§˜ã€é™çš„ã«192.168.80.108/24ã‚’Connect-X5ãƒ‡ãƒã‚¤ã‚¹ã«è¨å®šã—ã€MTU=9000ã§NICã‚’æœ‰åŠ¹åŒ–ã—ã¾ã—ãŸã€‚
ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã®æœ‰åŠ¹åŒ–ãŒçµ‚ã‚ã£ãŸã‚‰ã€pingãªã©ã§å°Žé€šç¢ºèªã€‚

$ ping 192.168.80.106
PING 192.168.80.106 (192.168.80.106) 56(84) bytes of data.
64 bytes from 192.168.80.106: icmp_seq=1 ttl=64 time=0.178 ms
64 bytes from 192.168.80.106: icmp_seq=2 ttl=64 time=0.197 ms
^C

2. ã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆå´ã®RDMA Transport Kernel Moduleã‚’ãƒãƒ¼ãƒ‰ã€‚ã“ã‚Œã‚‚MOFEDãƒ‰ãƒ©ã‚¤ãƒã«å«ã¾ã‚Œã‚‹ãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã€‚

# modprobe rpcrdma
# modinfo rpcrdma
filename:       /lib/modules/4.18.0-240.22.1.el8_3.x86_64/extra/mlnx-nfsrdma/rpcrdma.ko
alias:          xprtrdma
alias:          svcrdma
license:        Dual BSD/GPL
description:    RPC/RDMA Transport
author:         Open Grid Computing and Network Appliance, Inc.
rhelversion:    8.3
srcversion:     EFB4ED2B09C65AA7DA8D887
depends:        ib_core,sunrpc,mlx_compat,rdma_cm
name:           rpcrdma
vermagic:       4.18.0-240.22.1.el8_3.x86_64 SMP mod_unload modversions

3. å‰ç¯€ã§ã‚¨ã‚¯ã‚¹ãƒãƒ¼ãƒˆã—ãŸNFSåŒºç”»ã‚’ãƒžã‚¦ãƒ³ãƒˆ

# mount -o rdma,port=20049 192.168.80.106:/mnt/nfsroot /opt/nvme1
# df -h
Filesystem                   Size  Used Avail Use% Mounted on
devtmpfs                      94G     0   94G   0% /dev
tmpfs                         94G  257M   94G   1% /dev/shm
tmpfs                         94G   19M   94G   1% /run
tmpfs                         94G     0   94G   0% /sys/fs/cgroup
/dev/mapper/vg_disk-root     246G   15G  218G   7% /
/dev/nvme0n1p1               1.8T   35G  1.7T   2% /opt
/dev/md0p1                   3.6T  1.4T  2.1T  41% /opt/nvme0
/dev/sda2                    976M  189M  721M  21% /boot
/dev/mapper/vg_disk-home     393G   24G  349G   7% /home
/dev/sda1                    599M  6.9M  592M   2% /boot/efi
tmpfs                         19G     0   19G   0% /run/user/1000
192.168.80.106:/mnt/nfsroot  2.0T  1.2T  697G  64% /opt/nvme1

ã“ã‚Œã§æº–å‚™å®Œäº†ã€‚
å°Žé€šç¢ºèªã‚’å…¼ãã¦ã€å·¨å¤§ãªãƒ•ã‚¡ã‚¤ãƒ«ã®è»¢é€ã‚’è¡Œã£ã¦ã¿ã‚‹ã€‚

# dd if=/opt/nvme1/100GB of=/dev/null iflag=direct bs=32M
3106+1 records in
3106+1 records out
104230305696 bytes (104 GB, 97 GiB) copied, 11.8926 s, 8.8 GB/s

ã“ã‚Œã¯é€Ÿã„ï¼ 8.8GB/s ã‚‚å‡ºã¦ã„ã‚‹ã€‚

ä¸€æ–¹ã€NFS-over-RDMAã‚’ä½¿ã‚ãªã„ãƒ‘ã‚¿ãƒ¼ãƒ³ã ã¨ã€‚

# mount 192.168.80.106:/mnt/nfsroot /mnt/
# dd if=/mnt/100GB of=/dev/null iflag=direct bs=32M
3106+1 records in
3106+1 records out
104230305696 bytes (104 GB, 97 GiB) copied, 32.6171 s, 3.2 GB/s

å¾¡æ„ã€‚

GPUDirect Storageã§NFSåŒºç”»â‡’GPUã¸ã®ç›´æŽ¥Readã‚’è¡Œã†

ç¶šã„ã¦æœ¬ç•ªã€‚GPUDirect Storageã‚’ä½¿ã£ã¦ã€ãƒªãƒ¢ãƒ¼ãƒˆã®NFSåŒºç”»ã‹ã‚‰GPUã¸ã®ç›´æŽ¥Readã‚’è¡Œã†ã€‚

ä»Šç¾åœ¨ã€NFSåŒºç”»ã‹ã‚‰GPUDirect Storageã«ã‚ˆã‚‹ç›´æŽ¥èªã¿å‡ºã—ãŒå¯èƒ½ãªçŠ¶æ…‹ã«ãªã£ã¦ã„ã‚‹ã‹ã©ã†ã‹ã€CUDA 11.4ã«æ·»ä»˜ã®gdscheckã¨ã„ã†ã‚³ãƒžãƒ³ãƒ‰ã§ç¢ºèªã™ã‚‹äº‹ãŒã§ãã‚‹ã€‚ã€‚ã€‚ã€‚ãŒã€ã‚ã‚‰ã‚‰ã€‚Unsupportedã¨è¡¨ç¤ºã•ã‚Œã¦ã„ã‚‹ã€‚

# /usr/local/cuda/gds/tools/gdscheck -p
 GDS release version: 1.0.0.82
 nvidia_fs version:  2.7 libcufile version: 2.4
 ============
 ENVIRONMENT:
 ============
 =====================
 DRIVER CONFIGURATION:
 =====================
 NVMe               : Supported
 NVMeOF             : Supported
 SCSI               : Unsupported
 ScaleFlux CSD      : Unsupported
 NVMesh             : Unsupported
 DDN EXAScaler      : Unsupported
 IBM Spectrum Scale : Unsupported
 NFS                : Unsupported
 WekaFS             : Unsupported
 Userspace RDMA     : Unsupported
 --Mellanox PeerDirect : Enabled
 --rdma library        : Not Loaded (libcufile_rdma.so)
 --rdma devices        : Not configured
 --rdma_device_status  : Up: 0 Down: 0
        :

ã“ã‚Œã¯2æ™‚é–“ãã‚‰ã„ã‹ã‘ã¦èª¿ã¹ãŸã¨ã“ã‚ã€ã©ã†ã‚„ã‚‰ã€MOFEDãƒ‰ãƒ©ã‚¤ãƒã§ãƒã‚¤ãƒŠãƒªé…å¸ƒã•ã‚Œã¦ã„ã‚‹rpcrdmaãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã§GPUDirect Storageå¯¾å¿œã®ã‚³ãƒ¼ãƒ‰ãŒæœ‰åŠ¹åŒ–ã•ã‚Œãªã„ã¾ã¾ãƒ“ãƒ«ãƒ‰ã€é…å¸ƒã•ã‚Œã¦ã—ã¾ã£ã¦ã„ã‚‹ã¨ã„ã†äº‹ã®ã‚ˆã†ã§ã‚ã‚‹ã€‚

MOFEDãƒ‰ãƒ©ã‚¤ãƒã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚’è¦‹ã¦ã¿ã‚‹ã¨ã€ã‚‚ã—CONFIG_GPU_DIRECT_STORAGE=yã¤ãã§ãƒ“ãƒ«ãƒ‰ã•ã‚Œã¦ã„ã‚‹ã®ã§ã‚ã‚Œã°ã€/proc/kallsymsã«nvfs_opsã¨ã„ã†é–¢æ•°ãƒã‚¤ãƒ³ã‚¿è¡¨ãŒå‡ºç¾ã—ã¦ã—ã‹ã‚‹ã¹ãã§ã‚ã‚‹ã®ã ãŒã€ãã‚ŒãŒå‡ºç¾ã—ã¦ã„ãªã„ã€‚

# grep nvfs_ops /proc/kallsyms
ffffffffc0c256c0 b nvfs_ops     [nvme_rdma]
ffffffffc00dc718 b nvfs_ops     [nvme]

ã¨ã„ã†äº‹ã§ã€å½“è©²ãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã‚’é‡Žè‰¯ãƒ“ãƒ«ãƒ‰ã—ã¦ã¿ã‚‹äº‹ã«ã™ã‚‹ã€‚
ï¼ˆãªãŠã€NVIDIAã®é–‹ç™ºãƒãƒ¼ãƒ ã«ã¯ã‚¨ã‚¹ã‚«ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³æ¸ˆã¿ã€‚Mellanoxã¸ã‚‚å±•é–‹ã—ã¦ãã‚Œã‚‹ã§ã—ã‚‡ã†ã€‚ï¼‰

ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã® tgz ã«ã¯ SRPM ãŒå«ã¾ã‚Œã¦ã„ã‚‹ã®ã§ã€rpcrdmaãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã‚’å«ã‚€mlnx-nfsrdmaã®SRPMã‚’å±•é–‹ã—ã€ã“ã‚Œã«CONFIG_GPU_DIRECT_STORAGE=yã‚’ä»˜åŠ ã—ã¦ãƒ“ãƒ«ãƒ‰ã™ã‚‹ã€‚

ã“ã‚Œã‚’insmodã—ã¦ã¿ã‚‹ã¨ã€rpcrdmaãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã«ã‚‚nvfs_opsã‚·ãƒ³ãƒœãƒ«ãŒã‚¨ã‚¯ã‚¹ãƒãƒ¼ãƒˆã•ã‚Œã¦ã„ã‚‹ã®ãŒã‚ã‹ã‚‹ã€‚

$ wget http://www.mellanox.com/downloads/ofed/MLNX_OFED-5.3-1.0.0.1/MLNX_OFED_SRC-5.3-1.0.0.1.tgz
$ tar zxvf MLNX_OFED_SRC-5.3-1.0.0.1.tgz
$ cd MLNX_OFED_SRC-5.3-1.0.0.1
$ rpm2cpio SRPMS/mlnx-nfsrdma-5.3-OFED.5.3.0.3.8.1.src.rpm | cpio -idu
$ tar zxvf mlnx-nfsrdma-5.3.tgz
$ cd mlnx-nfsrdma-5.3
$ make CONFIG_GPU_DIRECT_STORAGE=y
$ sudo insmod rpcrdma.ko
$ sudo grep nvfs_ops /proc/kallsyms
ffffffffc319ddc8 b nvfs_ops     [rpcrdma]
ffffffffc0c256c0 b nvfs_ops     [nvme_rdma]
ffffffffc00dc718 b nvfs_ops     [nvme]

ã“ã®çŠ¶æ…‹ã§ã€å†åº¦gdscheckã‚³ãƒžãƒ³ãƒ‰ã‚’å®Ÿè¡Œã—ã¦ã¿ã‚‹ã¨ã€‚

$ /usr/local/cuda/gds/tools/gdscheck -p
 GDS release version: 1.0.0.82
 nvidia_fs version:  2.7 libcufile version: 2.4
 ============
 ENVIRONMENT:
 ============
 =====================
 DRIVER CONFIGURATION:
 =====================
 NVMe               : Supported
 NVMeOF             : Supported
 SCSI               : Unsupported
 ScaleFlux CSD      : Unsupported
 NVMesh             : Unsupported
 DDN EXAScaler      : Unsupported
 IBM Spectrum Scale : Unsupported
 NFS                : Supported
 WekaFS             : Unsupported
 Userspace RDMA     : Unsupported
 --Mellanox PeerDirect : Enabled
 --rdma library        : Not Loaded (libcufile_rdma.so)
 --rdma devices        : Not configured
 --rdma_device_status  : Up: 0 Down: 0
        :

ã‚¤ãƒ¤ãƒƒãƒ›ã‚¥ã‚¥ã‚¥ã‚¥ï¼ï¼ï¼

$ /usr/local/cuda/gds/tools/gdsio -x 0 -f /mnt/100GB -d 1 -s 96G -i 16M -w 6
IoType: READ XferType: GPUD Threads: 6 DataSetSize: 63143936/100663296(KiB) IOSize: 16384(KiB) Throughput: 7.642794 GiB/sec, Avg_Latency: 12874.833807 usecs ops: 3854 total_time 7.879154 secs

ã‚¤ãƒ¤ãƒƒãƒ›ã‚¥ã‚¥ã‚¥ã‚¥ï¼ï¼ï¼

ã‚µãƒ¼ãƒæ©Ÿæã¯æœ‰ã‚Šåˆã‚ã›ãªã®ã§ã€ã‚‚ã—ã‹ã™ã‚‹ã¨Skylake-SPå†…è”µã®PCI-Eã‚³ãƒ³ãƒˆãƒãƒ¼ãƒ©ã§è©°ã¾ã£ã¦ã„ã‚‹ã‹ã‚‚ï¼ˆå¸¯åŸŸçš„ã«ã¯ãã‚“ãªæ„Ÿã˜ãŒã—ãªã„ã§ã‚‚ãªã„ï¼‰ã—ã‚Œãªã„ãŒã€NFSã¨ã„ã†è¨€è‘‰ã‹ã‚‰å—ã‘ã‚‹å°è±¡ã¨ã¯ãšã„ã¶ã‚“é•ã£ãŸãƒ¬ãƒ™ãƒ«ã®ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã‚’å‡ºã—ã¦ã„ã‚‹ã‚ˆã†ã«è¦‹ãˆã‚‹ã€‚

ã•ã¦ã€ãã‚Œã§ã¯ã€æœ€ã‚‚é‡è¦ãª PG-Strom ã§GPUDirect SQLã‚’ç”¨ã„ãŸå ´åˆã®ãƒ‘ãƒ•ã‚©ãƒ¼ãƒžãƒ³ã‚¹ã‚’è¨ˆæ¸¬ã—ã¦ã¿ã‚‹äº‹ã«ã™ã‚‹ã€‚
ï¼ˆâ‡’å…ˆé ã«æˆ»ã‚‹ï¼‰

ä¸Šè¨˜ã€rpcrdmaãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ãŒGPUDirect Storageå¯¾å¿œã§ãƒ“ãƒ«ãƒ‰ã•ã‚Œã¦ã„ãªã‹ã£ãŸå•é¡Œã§ã™ãŒã€æœ¬ã‚¨ãƒ³ãƒˆãƒªã‚’æ›¸ã„ãŸæ™‚ç‚¹ã®MOFEDãƒ‰ãƒ©ã‚¤ãƒï¼ˆ5.3-1.0.0.1ï¼‰ã§ã¯ãªãã€æœ€æ–°ã® 5.4-1.0.3.0 ã‚’ä½¿ç”¨ã™ã‚Œã° GPUDirect Storage é–¢é€£ã®æ©Ÿèƒ½ã‚’æœ‰åŠ¹ã«ã—ã¦ãƒ“ãƒ«ãƒ‰ã•ã‚Œã‚‹ã‚ˆã†ã§ã™ã€‚

[root@magro ~]# modinfo rpcrdma
filename:       /lib/modules/4.18.0-305.12.1.el8_4.x86_64/extra/mlnx-nfsrdma/rpcrdma.ko
alias:          xprtrdma
alias:          svcrdma
license:        Dual BSD/GPL
description:    RPC/RDMA Transport
author:         Open Grid Computing and Network Appliance, Inc.
rhelversion:    8.4
srcversion:     6144CA5B71903B01293DD5F
depends:        ib_core,sunrpc,mlx_compat,rdma_cm
name:           rpcrdma
vermagic:       4.18.0-305.12.1.el8_4.x86_64 SMP mod_unload modversions
[root@magro ~]# modprobe rpcrdma
[root@magro ~]# grep nvfs_ops /proc/kallsyms
ffffffffc0f20dc8 b nvfs_ops     [rpcrdma]
ffffffffc0970700 b nvfs_ops     [nvme_rdma]
ffffffffc02ce718 b nvfs_ops     [nvme]

[root@magro ~]# /usr/local/cuda/gds/tools/gdscheck -p
 GDS release version: 1.0.1.3
 nvidia_fs version:  2.7 libcufile version: 2.4
 ============
 ENVIRONMENT:
 ============
 =====================
 DRIVER CONFIGURATION:
 =====================
 NVMe               : Supported
 NVMeOF             : Supported
 SCSI               : Unsupported
 ScaleFlux CSD      : Unsupported
 NVMesh             : Unsupported
 DDN EXAScaler      : Unsupported
 IBM Spectrum Scale : Unsupported
 NFS                : Supported
 WekaFS             : Unsupported
 Userspace RDMA     : Unsupported
 --Mellanox PeerDirect : Enabled
 --rdma library        : Not Loaded (libcufile_rdma.so)
 --rdma devices        : Not configured
 --rdma_device_status  : Up: 0 Down: 0
 =====================
 CUFILE CONFIGURATION:
 =====================
 properties.use_compat_mode : true
 properties.gds_rdma_write_support : true
 properties.use_poll_mode : false
 properties.poll_mode_max_size_kb : 4
 properties.max_batch_io_timeout_msecs : 5
 properties.max_direct_io_size_kb : 16384
 properties.max_device_cache_size_kb : 131072
 properties.max_device_pinned_mem_size_kb : 33554432
 properties.posix_pool_slab_size_kb : 4 1024 16384
 properties.posix_pool_slab_count : 128 64 32
 properties.rdma_peer_affinity_policy : RoundRobin
 properties.rdma_dynamic_routing : 0
 fs.generic.posix_unaligned_writes : false
 fs.lustre.posix_gds_min_kb: 0
 fs.weka.rdma_write_support: false
 profile.nvtx : false
 profile.cufile_stats : 0
 miscellaneous.api_check_aggressive : false
 =========
 GPU INFO:
 =========
 GPU index 0 Tesla V100-PCIE-16GB bar:1 bar size (MiB):16384 supports GDS
 ==============
 PLATFORM INFO:
 ==============
 IOMMU: disabled
 Platform verification succeeded

*1:100Gbã®N/Wã‚¹ã‚¤ãƒƒãƒã¦çµæ§‹é«˜ã„ã‚“ã§ã™ã€‚æ¶™ã€‚

*2:Q3_1ã§é€†è»¢ã—ã¦ã„ã‚‹åŽŸå› ã«ã¤ã„ã¦ã¯èª¿æŸ»ä¸

KaiGaiã®ä¿ºãƒ¡ãƒ¢

GPUDirect SQL on NFS-over-RDMAã‚’è©¦ã™

çµè«–ï¼šçµæ§‹ã‚¤ã‚±ã¦ã‚‹

çµè«–

NFS-over-RDMAã®ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—æ‰‹é †

MOFEDOãƒ‰ãƒ©ã‚¤ãƒã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

NFSã‚µãƒ¼ãƒã®è¨å®š

NFSã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã®è¨å®š

GPUDirect Storageã§NFSåŒºç”»â‡’GPUã¸ã®ç›´æŽ¥Readã‚’è¡Œã†

8/21è¿½è¨˜ï¼š5.4-1.0.3.0 ãƒ‰ãƒ©ã‚¤ãƒã§ã¯ç›´ã£ã¦ãŸ

çµè«–ï¼šçµæ§‹ã‚¤ã‚±ã¦ã‚‹

çµè«–

NFS-over-RDMAã®ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—æ‰‹é †

MOFEDOãƒ‰ãƒ©ã‚¤ãƒã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

NFSã‚µãƒ¼ãƒã®è¨­å®š

NFSã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã®è¨­å®š

GPUDirect Storageã§NFSåŒºç”»â‡’GPUã¸ã®ç›´æŽ¥Readã‚’è¡Œã†

8/21è¿½è¨˜ï¼š5.4-1.0.3.0 ãƒ‰ãƒ©ã‚¤ãƒã§ã¯ç›´ã£ã¦ãŸ

çµè«–ï¼šçµæ§‹ã‚¤ã‚±ã¦ã‚‹

çµè«–

NFS-over-RDMAã®ã‚»ãƒƒãƒˆã‚¢ãƒƒãƒ—æ‰‹é †

MOFEDOãƒ‰ãƒ©ã‚¤ãƒã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

NFSã‚µãƒ¼ãƒã®è¨å®š

NFSã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã®è¨å®š

GPUDirect Storageã§NFSåŒºç”»â‡’GPUã¸ã®ç›´æŽ¥Readã‚’è¡Œã†

8/21è¿½è¨˜ï¼š5.4-1.0.3.0 ãƒ‰ãƒ©ã‚¤ãƒã§ã¯ç›´ã£ã¦ãŸ