Search Results - RepositoryStats

4 results found Sort:

507

mit

A library for making RepE control vectors

sae saes transformers language-model machine-learning sparse-autoencoder sparse-autoencoders representation-engineering

Created 2024-01-21

27 commits to main branch, last one 12 days ago

unknown

For OpenMOSS Mechanistic Interpretability Team's Sparse Autoencoder (SAE) research.

interpretability sparse-dictionary sparse-autoencoders mechanistic-interpretability

Created 2024-03-19

410 commits to main branch, last one a day ago

apache-2.0

Monet: Mixture of Monosemantic Experts for Transformers

interpretability mixture-of-experts sparse-autoencoders large-language-models

Created 2024-12-06

2 commits to main branch, last one 20 days ago

mit

Code for the paper: Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery. ECCV 2024.

eccv2024 concept-extraction sparse-autoencoders concept-bottleneck-models

Created 2024-07-13

9 commits to main branch, last one about a month ago