Search Results - RepositoryStats

parlant emcie-co

181

2.0k

apache-2.0

23

Control GenAI interactions with power, precision, and consistency using Conversation Modeling paradigms

llm genai gemini llama3 openai python ai-agents ai-alignment customer-service customer-success

Created 2024-02-15

2,790 commits to develop branch, last one 2 days ago

awesome-trustworthy-deep-learning MinghuiChen43

35

364

mit

12

A curated list of trustworthy deep learning papers. Daily updating...

Created 2020-07-19

664 commits to master branch, last one 3 days ago

PromptInject agencyenterprise

36

357

mit

11

PromptInject is a framework that assembles prompts in a modular fashion to provide a quantitative analysis of the robustness of LLMs to adversarial prompt attacks. 🏆 Best Paper Awards @ NeurIPS ML Sa...

agi gpt-3 ai-safety ml-safety ai-alignment agi-alignment language-models chain-of-thought machine-learning prompt-engineering adversarial-attacks large-language-models

Created 2022-10-25

2 commits to main branch, last one 2 years ago

pretraining-with-human-feedback tomekkorbak

14

180

mit

5

Code accompanying the paper Pretraining Language Models with Human Preferences

gpt rlhf ai-safety pretraining ai-alignment language-models decision-transformers reinforcement-learning

Created 2023-02-20

5 commits to master branch, last one about a year ago

awesome-ai-safety Giskard-AI

16

175

apache-2.0

3

📚 A curated list of papers & technical articles on AI Quality & Safety

Created 2023-04-19

28 commits to main branch, last one about a year ago

make-safe-ai lets-make-safe-ai

7

168

unknown

2

How to Make Safe AI? Let's Discuss! 💡|💬|🙌|📚

ai agi ai-safety ai-alignment artificial-intelligence artificial-general-intelligence

Created 2023-02-27

11 commits to main branch, last one 2 years ago

AAAI2025_MIA-Tuner tsinghua-fib-lab

7

142

unknown

8

[AAAI'25 Oral] "MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector".

ai-alignment large-language-models pretraining-data-detection membership-inference-attack

Created 2023-12-20

2 commits to main branch, last one 26 days ago

adversarial-reinforcement-learning EzgiKorkmaz

6

110

unknown

6

Reading list for adversarial perspective and robustness in deep reinforcement learning.

ai-safety safe-rlhf ai-alignment robot-safety responsible-ai adversarial-policies machine-learning-safety robust-machine-learning deep-reinforcement-learning safe-reinforcement-learning adversarial-machine-learning explainable-machine-learning reinforcement-learning-safety robust-reinforcement-learning reinforcement-learning-alignment artificial-intelligence-alignment multiagent-reinforcement-learning adversarial-reinforcement-learning robust-deep-reinforcement-learning

Created 2023-09-08

16 commits to main branch, last one 2 days ago

AwesomeResponsibleAI AthenaCore

13

71

mit

4

A curated list of awesome academic research, books, code of ethics, data sets, institutes, maturity models, newsletters, principles, podcasts, reports, tools, regulations and standards related to Resp...

ai xai ai-safety ethical-ai fairness-ai ai-alignment ai-standards awesome-list ai-governance ai-regulation explainable-ai responsible-ai trustworthy-ai interpretable-ai

Created 2021-09-05

372 commits to main branch, last one 4 days ago