RLHFlow

university

RLHFlow

Activity Feed

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Recent Activity

weqweasdas updated a dataset about 12 hours ago

RLHFlow/numia_prompt_dpo_test

weqweasdas published a dataset about 12 hours ago

RLHFlow/numia_prompt_dpo_test

Chenlu123 updated a dataset about 13 hours ago

RLHFlow/numia_prompt_dpo9

View all activity

Collections 9

models 21

datasets 75

RLHFlow/numia_prompt_dpo_test

Viewer • Updated about 12 hours ago • 1.02k

RLHFlow/numia_prompt_dpo9

Viewer • Updated about 13 hours ago • 20k

RLHFlow/numia_prompt_dpo8

Viewer • Updated about 13 hours ago • 20k

RLHFlow/numia_prompt_dpo7

Viewer • Updated about 13 hours ago • 20k

RLHFlow/numia_prompt_dpo6

Viewer • Updated about 13 hours ago • 20k

RLHFlow/numia_prompt_dpo5

Viewer • Updated about 13 hours ago • 20k

RLHFlow/numia_prompt_dpo4

Viewer • Updated about 13 hours ago • 20k

RLHFlow/numia_prompt_dpo3

Viewer • Updated about 13 hours ago • 20k

RLHFlow/numia_prompt_dpo2

Viewer • Updated about 13 hours ago • 20k

RLHFlow/numia_prompt_dpo1

Viewer • Updated about 13 hours ago • 20k

RLHFlow

AI & ML interests

Recent Activity

Collections 9

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

RLHFlow/LLM-Preferences-HelpSteer2

RLHFlow/Mistral-PRM-Data

RLHFlow/Mistral-GSM8K-Test

RLHFlow/Mistral-MATH500-Test

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

models 21

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

RLHFlow/Llama3.1-8B-ORM-Deepseek-Data

RLHFlow/Llama3.1-8B-ORM-Mistral-Data

RLHFlow/Llama3-v2-iterative-DPO-iter3

RLHFlow/Llama3-v2-iterative-DPO-iter2

RLHFlow/Llama3-v2-iterative-DPO-iter1

RLHFlow/LLaMA3-SFT-v2

datasets 75

RLHFlow/numia_prompt_dpo_test

RLHFlow/numia_prompt_dpo9

RLHFlow/numia_prompt_dpo8

RLHFlow/numia_prompt_dpo7

RLHFlow/numia_prompt_dpo6

RLHFlow/numia_prompt_dpo5

RLHFlow/numia_prompt_dpo4

RLHFlow/numia_prompt_dpo3

RLHFlow/numia_prompt_dpo2

RLHFlow/numia_prompt_dpo1

AI & ML interests

Recent Activity

Team members 8

Collections 9

models 21 Sort: Recently updated

datasets 75 Sort: Recently updated

models 21

datasets 75