RLHF: 基于人类偏好的强化学习 RLHF: 基于人类偏好的强化学习 RLHF是"Reinforcement Learning from Human Feedback"的缩写,中文意思是"基于人类反馈的强化学习"。这是一种结合了强化学习和人类反馈的机器学习方法,旨在训练智能体(agent)在特定任务上表现得更好。以下是RLHF的一些关键特点: 强化学习:智能体通过与环 2025-03-15 NLP 0 Ray
transformer transformer Transformer NLP(自然语言处理)发展史 自然语言处理(Natural Language Processing,NLP)是一门借助计算机技术研究人类语言的科学。 大致可以分为两个阶段: NNLM神经网络模型 NNLM 模型的思路与统计语言模型保持一致,它通过输入词语前面的 N−1 个词语 2024-12-01 NLP 0 Ray
hugging face 抱抱脸 hugging face 抱抱脸 什么是hugging face?🤔 如何使用?🔧 hugging face模型下载 首先安装相关库 pip install -U huggingface_hub 然后编写一个python文件,如下 # 设置环境变量 import os os.environ["HF_ENDPOINT"] = 2024-11-28 NLP 2 Ray
LoRA微调 LoRA微调 现在的大模型动辄几十、上百亿参数,如果我们想要对模型进行微调,放到本地一般而言很少有足够的显存。 大模型微调的几种方法: 低秩微调LoRA LoRA(Low-Rank Adaptation)简介:高效的深度学习模型微调方法 在深度学习领域,尤其是大规模预训练模型(如BERT、GPT系列等)的微调过程 2024-11-11 NLP 1 Ray