Search Results - RepositoryStats

cuda-samples NVIDIA

2.0k

7.3k

other

119

Samples for CUDA Developers which demonstrates features in CUDA Toolkit

cuda cuda-opengl cuda-kernels cuda-driver-api

Created 2018-03-27

320 commits to master branch, last one about a month ago

lmdeploy InternLM

535

6.2k

apache-2.0

50

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

llm llama llama2 llama3 internlm codellama deepspeed turbomind cuda-kernels llm-inference fastertransformer

Created 2023-06-15

1,245 commits to main branch, last one 21 hours ago

Rust-CUDA Rust-GPU

179

4.3k

apache-2.0

57

Ecosystem of libraries and tools for writing and executing fast GPU code fully in Rust.

gpu cuda rust gpgpu rust-lang cuda-kernels gpu-programming cuda-programming

Created 2021-10-17

266 commits to main branch, last one 4 days ago

CUDA-Learn-Notes xlite-dev

382

3.5k

gpl-3.0

25

📚Modern CUDA Learn Notes: 200+ Tensor/CUDA Cores Kernels🎉, HGEMM, FA2 via MMA and CuTe, 98~100% TFLOPS of cuBLAS/FA2.

cuda gemm gemv cudnn hgemm cutlass flash-mla cuda-kernels cuda-toolkit flash-attention cuda-programming

Created 2022-12-17

540 commits to main branch, last one 22 hours ago

dfdx coreylowman

106

1.8k

other

32

Deep learning in Rust, with shape checked tensors and neural networks

gpu cuda rust cudnn tensor autodiff autograd rust-lang cuda-kernels cuda-support cuda-toolkit deep-learning gpu-computing neural-network backpropagation gpu-acceleration machine-learning autodifferentiation deep-neural-networks

Created 2021-10-12

890 commits to main branch, last one about a year ago

cccl NVIDIA

209

1.6k

other

34

CUDA Core Compute Libraries

cpp gpu hpc cuda nvidia cuda-cpp modern-cpp nvidia-gpu cuda-kernels cuda-library gpu-computing cpp-programming gpu-programming cuda-programming gpu-acceleration parallel-algorithm parallel-computing parallel-programming accelerated-computing

Created 2020-09-17

10,989 commits to main branch, last one 11 hours ago

cudarc coreylowman

97

821

apache-2.0

10

Safe rust wrapper around CUDA toolkit

gpu cuda nccl rust cudnn nvrtc cublas curand cuda-kernels cuda-toolkit cuda-programming gpu-acceleration

Created 2022-09-16

417 commits to main branch, last one 9 hours ago

nvbench NVIDIA

74

620

apache-2.0

17

CUDA Kernel Benchmarking Library

gpu cuda nvidia benchmark performance cuda-kernels kernel-benchmark

Created 2021-03-03

515 commits to main branch, last one 3 days ago

hemi harrism

54

347

bsd-3-clause

28

Simple utilities to enable code reuse and portability between CUDA C/C++ and standard C/C++.

gpu cuda hemi c-plus-plus cuda-device cuda-kernels

Created 2012-10-03

155 commits to master branch, last one 9 years ago

kernel_tuner KernelTuner

53

327

apache-2.0

8

Kernel Tuner

c gpu cuda opencl python testing cplusplus autotuning auto-tuning cuda-kernels kernel-tuner optimization gpu-computing opencl-kernels machine-learning software-development

Created 2016-03-28

2,131 commits to master branch, last one 13 days ago

stanford-cs193g-sp2010 jaredhoberock

83

217

unknown

11

This is an archive of materials produced for an introductory class on CUDA programming at Stanford University in 2010

cuda cuda-kernels gpu-programming cuda-programming

Created 2015-03-14

112 commits to master branch, last one 2 years ago

CUDATutorials HMUNACHI

5

183

mit

4

Zero to Hero GPU and CUDA for Maths & ML tutorials with examples.

cuda maths cuda-kernels cuda-programming machine-learning

Created 2024-05-20

16 commits to main branch, last one 7 days ago

Amplifier.NET deepakkumar1984

21

178

mit

13

Amplifier allows .NET developers to easily run complex applications with intensive mathematical computation on Intel CPU/GPU, NVIDIA, AMD without writing any additional C kernel code. Write your funct...

simd gpgpu opencl compiler gpgpu-sim cuda-kernels opencl-kernels gpgpu-computing

Created 2019-06-05

82 commits to master branch, last one 13 days ago

cuda-design-patterns PatWie

6

150

unknown

2

Some CUDA design patterns and a bit of template magic for CUDA

gpu cuda bazel cpp11 cuda-utils cuda-device cuda-kernels cuda-development template-metaprogramming

Created 2018-11-16

41 commits to master branch, last one about a year ago

cuda-kat eyalroz

8

111

bsd-3-clause

7

CUDA kernel author's tools

gpu cuda cpp11 printf patterns constexpr algorithms modern-cpp cuda-kernels cuda-library elegant-coding gpu-programming utility-library cuda-programming printf-functions utility-functions

Created 2019-02-18

201 commits to master branch, last one 4 years ago

Accera microsoft

19

110

mit

12

Open source cross-platform compiler for compute-intensive loops used in AI algorithms, from Microsoft Research

compiler research loop-fusion rocm-kernel cuda-kernels cpu-scheduling cross-compiler cross-platform loop-unrolling python-library loop-scheduling gpu-acceleration tuning-parameters optimization-framework machine-learning-algorithms

Created 2021-09-24

120 commits to main branch, last one 2 years ago

flashattention2-custom-mask alexzhang13

11

109

apache-2.0

4

Triton implementation of FlashAttention2 that adds Custom Masks.

triton attention triton-lang cuda-kernels deep-learning flash-attention flash-attention-2 attention-mechanism

Created 2024-07-20

18 commits to main branch, last one 8 months ago

FastGEMV wangsiping97

6

106

mit

6

High-speed GEMV kernels, at most 2.7x speedup compared to pytorch baseline.

cuda cuda-kernels optimization machine-learning

Created 2023-05-26

52 commits to main branch, last one about a year ago

TileFusion microsoft

5

81

mit

3

TileFusion is an experimental C++ macro kernel template library that elevates the abstraction level in CUDA C for tile processing.

cpp cuda-kernels

Created 2024-10-10

82 commits to master branch, last one a day ago

cuda_scheduling_examiner_mirror yalue

18

81

other

11

A tool for examining GPU scheduling behavior.

gpu cuda benchmark mandelbrot cuda-kernels gpu-scheduling

Created 2017-03-29

247 commits to master branch, last one 8 months ago

cuda-image-preprocess emptysoal

5

66

mit

2

Speed up image preprocess with cuda when handle image or tensorrt inference

cnn cuda tensorrt cuda-demo cuda-kernels deep-learning cuda-programming image-processing

Created 2023-05-29

52 commits to main branch, last one 26 days ago

CUDA-Guide mikeroyal

7

64

unknown

3

CUDA Guide

gpu cuda gpgpu awesome resources cuda-driver cuda-opengl awesome-list cuda-kernels cuda-library cuda-support cuda-toolkit deep-learning awesome-readme gpgpu-computing cuda-development cuda-programming machine-learning graphics-programming

Created 2020-09-25

18 commits to master branch, last one about a year ago

Radar-ElectroOptical-Simulation bgin

20

58

mit

8

(REOS) Radar and Electro-Optical Simulation Framework written in C++.

avx avx2 radar avx512 amd-gpu fortran90 modelling simulation cuda-kernels vectorization control-theory atmosphere-model gpu-acceleration infrared-sensors simd-instructions radiative-transfer radar-signal-processing high-performance-computing

Created 2019-09-27

5,391 commits to master branch, last one 21 hours ago