大模型微调样本构造trick - 代码天地

大模型微调样本构造trick

企业开发 2023-07-23 00:27:53 阅读次数: 0

面试官：大模型微调如何组织训练样本？

你：大模型训练一问一答，一指令一输出，问题和指令可以作为prompt输入，答案作为输出，计算loss的部分要屏蔽掉pad token。

面试官：多轮对话如何组织训练样本呢？

你：假设多轮为Q1A1/Q2A2/Q3A3，那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条训练样本。

面试官：这样的话一个session变成了三条数据，并且上文有依次重复的情况，这样会不会有啥问题？

你：数据中大部分都是pad token，训练数据利用效率低下。另外会有数据重复膨胀的问题，训练数据重复膨胀为 session数量*平均轮次数，且上文有重复部分，训练效率也会低下。

面试官：你也意识到了，有什么改进的方法吗？

你：有没有办法能一次性构造一个session作为训练样本呢？（思索）

面试官：提示你下，限制在decoder-only系列的模型上，利用模型特性，改进样本组织形式。

对于这个问题，我们思考下decoder-only模型有啥特点，第一点很关键的是其attention形式是casual的，casual简单理解就是三角阵，单个token只能看到其上文的信息。

如图所示：

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/131686901

大模型微调样本构造的trick

大模型微调样本构造trick

大模型RLHF的trick

解读大模型的微调

大模型微调概览

[AI医学] 领域指令微调样本生成框架OpenGPT与医疗健康大模型NHS-LLM

[AI医学] ChatDoctor:借助医学知识库生成微调样本构建医疗领域大模型

NLP大模型微调答疑

NLP大模型微调原理

大模型微调方法综述

大模型微调技术汇总

微调大模型工具-LoRA

大模型高效微调技术

大语言模型微调和PEFT高效微调

CPM-Bee大模型微调

LLaVA：将视觉微调引入大模型

【LLM】Prompt tuning大模型微调实战

独家 | 何时微调大语言模型？

从新的角度看待大模型微调

【ChatGLM】大模型之 ChatGLM 微调

大模型lora微调-chatglm2

大模型优化：RAG还是微调？

微调后，大模型忘性更严重了

大模型高效微调-PEFT框架介绍

大模型fine-tune 微调

大模型LLM的微调技术：LoRA

领域大模型-训练Trick&落地思考

LLM大模型训练Trick系列之拒绝采样

LoRA:大模型的低秩自适应微调模型

【LLM大模型】模型和指令微调方法

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)