Search Results - RepositoryStats

CTranslate2 OpenNMT

338

3.7k

mit

59

Fast inference engine for Transformer models

Created 2019-09-23

2,191 commits to master branch, last one 21 days ago

CUDA-Learn-Notes DefTruth

297

2.9k

gpl-3.0

22

📚200+ Tensor/CUDA Cores Kernels, ⚡️flash-attn-mma, ⚡️hgemm with WMMA, MMA and CuTe (98%~100% TFLOPS of cuBLAS/FA2 🎉🎉).

cuda gemm gemv cudnn hgemm cutlass flash-mla cuda-kernels cuda-toolkit flash-attention cuda-programming

Created 2022-12-17

505 commits to main branch, last one 2 days ago

how-to-optimize-gemm flame

356

1.8k

unknown

43

This repository has no description...

blis gemm gotoblas code-optimization matrix-multiplication

Created 2016-08-09

138 commits to master branch, last one 2 years ago

CLBlast CNugteren

204

1.1k

apache-2.0

57

Tuned OpenCL BLAS

gpu blas gemm clblas opencl blas-libraries matrix-multiplication

Created 2015-05-30

1,483 commits to master branch, last one 4 months ago

blislab flame

107

506

unknown

15

BLISlab: A Sandbox for Optimizing GEMM

blis gemm code-optimization matrix-multiplication

Created 2016-04-20

176 commits to master branch, last one 5 years ago

cuda_hgemm Bruce-Lee-LY

74

366

mit

5

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

gpu cuda gemm hgemm cublas nvidia tensor-core matrix-multiply

Created 2023-06-22

1 commits to master branch, last one 6 months ago

matmul.c salykova

21

341

mit

10

Multi-Threaded FP32 Matrix Multiplication on x86 CPUs

c cpu gemm sgemm openmp matrix-multiplication fast-matrix-multiplication

Created 2024-07-01

90 commits to main branch, last one 26 days ago

Optimizing-SGEMM-on-NVIDIA-Turing-GPUs yzhaiustc

49

327

gpl-3.0

6

Optimizing SGEMM kernel functions on NVIDIA GPUs to a close-to-cuBLAS performance.

cuda gemm nvidia optimization

Created 2021-04-25

20 commits to main branch, last one 2 months ago

laser mratsim

14

285

apache-2.0

13

The HPC toolbox: fused matrix multiplication, convolution, data-parallel strided tensor primitives, OpenMP facilities, SIMD, JIT Assembler, CPU detection, state-of-the-art vectorized BLAS for floats a...

jit blas gemm simd openmp tensor parallel assembler convolution deep-learning compiler-optimization matrix-multiplication runtime-cpu-detection high-performance-computing

Created 2018-10-13

401 commits to master branch, last one about a year ago

Tensile ROCm

158

233

mit

55

Stretching GPU performance for GEMMs and tensor contractions.

amd dnn gpu hip blas gemm opencl python radeon tensors assembly auto-tuning gpu-computing neural-networks gpu-acceleration machine-learning tensor-contraction matrix-multiplication

Created 2015-11-05

5,574 commits to develop branch, last one 5 days ago

awesome-cuda-triton-hpc coderonion

27

221

unknown

5

🔥🔥🔥 A collection of some awesome public CUDA, cuBLAS, cuDNN, CUTLASS, TensorRT, TensorRT-LLM, Triton, TVM, MLIR and High Performance Computing (HPC) projects.

Created 2023-02-23

31 commits to main branch, last one 2 days ago

dbcsr cp2k

48

140

gpl-2.0

19

DBCSR: Distributed Block Compressed Sparse Row matrix library

hpc mpi blas cp2k cuda gemm sparse-matrix linear-algebra matrix-multiplication openmp-parallelization

Created 2018-06-05

3,497 commits to develop branch, last one 4 days ago

Optimizing-DGEMM-on-Intel-CPUs-with-AVX512F yzhaiustc

26

135

gpl-3.0

4

Stepwise optimizations of DGEMM on CPU, reaching performance faster than Intel MKL eventually, even under multithreading.

mkl blas gemm simd avx512 openmp

Created 2020-09-08

43 commits to master branch, last one 3 years ago

slibs yui0

11

120

unknown

13

Single file libraries for C/C++

Created 2017-03-08

178 commits to master branch, last one 7 months ago

hipBLASLt ROCm

111

81

mit

15

hipBLASLt is a library that provides general matrix-matrix operations with a flexible API and extends functionalities beyond a traditional BLAS library

amd hip blas gemm rocm assembly gpu-computing machine-learning matrix-multiplication

Created 2022-09-16

1,822 commits to develop branch, last one a day ago

cuda_hgemv Bruce-Lee-LY

5

57

mit

5

Several optimization methods of half-precision general matrix vector multiplication (HGEMV) using CUDA core.