Search Results - RepositoryStats

1 result found Sort:

mit

Evaluate interpretability methods on localizing and disentangling concepts in LLMs.

probing intervention interpretability sparse-autoencoder causal-intervention disentangled-representations

Created 2024-02-17

13 commits to main branch, last one 5 months ago