Search Results - RepositoryStats

2 results found Sort:

229

2.2k

gpl-3.0

📚200+ Tensor/CUDA Cores Kernels, ⚡️flash-attn-mma, ⚡️hgemm with WMMA, MMA and CuTe (98%~100% TFLOPS of cuBLAS/FA2 🎉🎉).

cuda gemm gemv hgemm

Created 2022-12-17

496 commits to main branch, last one a day ago

mit

Several optimization methods of half-precision general matrix vector multiplication (HGEMV) using CUDA core.

gpu cuda gemm gemv hgemm hgemv cublas nvidia cuda-core tensor-core matrix-multiply

Created 2023-10-09

1 commits to master branch, last one 4 months ago