Search Results - RepositoryStats

74

366

mit

5

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

gpu cuda gemm hgemm cublas nvidia tensor-core matrix-multiply

Created 2023-06-22

1 commits to master branch, last one 6 months ago

5

57

mit

5

Several optimization methods of half-precision general matrix vector multiplication (HGEMV) using CUDA core.

gpu cuda gemm gemv hgemm hgemv cublas nvidia cuda-core tensor-core matrix-multiply

Created 2023-10-09

1 commits to master branch, last one 6 months ago

3

35

bsd-3-clause

1

Performance of the C++ interface of flash attention and flash attention v2 in large language model (LLM) inference scenarios.

gpu llm mha cuda nvidia cutlass inference tensor-core flash-attention flash-attention-2 large-language-model multi-head-attention

Created 2023-08-16

1 commits to master branch, last one 19 days ago