Search Results - RepositoryStats

36

605

mit

5

A complete end-to-end pipeline for LLM interpretability with sparse autoencoders (SAEs) using Llama 3.2, written in pure PyTorch and fully reproducible.

llama3 pytorch open-research feature-steering feature-extraction sparse-autoencoder llm-interpretability

This repository has been archived (exclude archived)

Created 2024-11-21

3 commits to main branch, last one 4 months ago

repeng vgel

45

562

mit

5

A library for making RepE control vectors

sae saes transformers language-model machine-learning sparse-autoencoder sparse-autoencoders representation-engineering

Created 2024-01-21

28 commits to main branch, last one 2 months ago

Awesome-Interpretability-in-Large-Language-Models ruizheliUOA

20

329

cc0-1.0

6

This repository collects all relevant resources about interpretability in LLMs

sparse-autoencoder dictionary-learning mechanistic-interpretability interpretability-and-explainability

Created 2024-06-30

56 commits to main branch, last one 5 months ago

ravel explanare

6

42

mit

1

Evaluate interpretability methods on localizing and disentangling concepts in LLMs.

probing intervention interpretability sparse-autoencoder causal-intervention disentangled-representations

Created 2024-02-17

13 commits to main branch, last one 5 months ago

sansa glami

5

41

apache-2.0

8

SANSA - sparse EASE for millions of items

sparse-matrix recommender-system sparse-autoencoder approximate-inverse collaborative-filtering

Created 2023-07-11

71 commits to main branch, last one 2 months ago