Search Results - RepositoryStats

53

601

gpl-3.0

8

An easy-to-use Python framework to generate adversarial jailbreak prompts.

jailbreak llm-security jailbreak-framework large-language-model llm-safety-benchmark discrete-optimization

Created 2024-01-31

94 commits to master branch, last one 4 days ago

8

41

other

2

Official repository for the paper "ALERT: A Comprehensive Benchmark for Assessing Large Language Models’ Safety through Red Teaming"

ai llm nlp benchmark llm-safety red-teaming bias-detection llm-evaluation safety-monitoring transformers-models llm-safety-benchmark nlp-machine-learning artificial-intelligence

Created 2024-04-06

24 commits to master branch, last one 6 months ago

2

28

unknown

1

Restore safety in fine-tuned language models through task arithmetic

llm llms safety alignment llm-safety llms-benchmarking alignment-algorithm llm-safety-benchmark

Created 2024-02-17

83 commits to main branch, last one about a year ago

0

28

mit

1

[ICLR 2025] Official implementation for "SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations"

video-guardrail video-generation llm-safety-benchmark

Created 2024-12-08

11 commits to main branch, last one about a month ago