13 预训练 —— 微调和多模态模型¶
说明
本文档仅涉及部分内容,仅可用于复习重点知识
13.1 私人助手定制¶
13.1.2 微调大语言模型¶
在通用的预训练模型基础上用特定的数据进行微调,以完成特定的下游任务,是目前应用预训练大模型的主要方式。这种预训练 —— 微调模式不但可以将预训练模型学到的知识进行迁移,而是可以进一步学到专业的知识,以完成特定的下游任务。不仅如此微调还是有监督的学习,一般会使用高质量的数据集,因此训练速度很快,一般只需几轮训练就能完成
微调方式分类:
- 全微调(Full Fine-Tuning):基础模型的所有参数都参与微调,适用于有全新的足够大的数据。微调时需要对原生模型的知识进行重构以适应新的环境,比如从英文语境转到中文语境
- 部分微调(Partial Fine-Tuning):冻结基础模型部分层的参数,调整非冻结参数
- 高效参数微调(Parameter Efficient Fine-Tuning,PEFT):这是目前最常用的微调方式,它通过微调少量参数来达到接近全量微调的效果。常见的 PEFT 技术有 LoRA、Adapter Tuning、 Prefix Tuning、 Prompt Tuning
- 提示词微调(Prompt Tuning):通过精心制作的提示词模板和对应的输出实现模型的微调,而不对基础模型的任何参数进行更新,只更新 embedding 参数
- RLHF(Reinforcement Learning from Human Feedback):使用强化学习的方式直接优化带有人类反馈的语言模型,实现与人类价值观的对齐
13.2 多模态大语言模型¶
多模态大型语言模型(Multi Modal Large Language Model, MLLM)是当前人工智能发展的重要方向
一个典型的 MLLM 可以抽象为 3 个模块
- 预训练的模态编码器
- 预训练的大型语言模型(LLM)
- 连接它们的模态接口
MLLM 是通往 AGI 的必由之路
13.2.1 AI 绘画¶
AI 绘画鼻祖:AARON
20 世纪 70 年代,艺术家哈罗德 · 科恩发明了 AARON。AARON 能通过机械臂进行作画。控制机械臂的是一套计算机程序算法,是一种基于规则的算法
生成式对抗网络(Generative Adversarial Networks,GAN)通过生成器和判别器的对抗过程来生成图像。其基本原理如下:
- 生成器:目的是让生成器的图能够骗过判别器,让它认为这张图就是原始数据库中的真实图片而非模型生成的。输出结果越趋近于 1 就能说明生成模型效果越好
- 判别器:目的是有效地辨别出生成器生成的图片。输出结果越趋近于 0 就能说明生成模型效果越好
- 生成器和判别器不断进行对抗,当输出的结果 无限趋近于 0.5(纳什均衡时,模型训练完成)
Deep Dream 是谷歌于 2015 年推出的图像生成工具,该模型通过不断优化输入的图像来实现目标图像的生成
AARON 到 Deep Dream,无论是基于规则还是基于深度学习的 AI 绘画,都还是单模态的,都没实现文字 → 图片的效果。直到 2021 年 OpenAI 推出 DALL-E 才真正实现文字 → 图片的多模态生成方式。只要用户输入提示词,DALL-E 就能生成文字对应的图片
CLIP(视觉语言预训练模型):文本信息通过文本编码器进行编码,图像信息通过图像编码器进行编码,二者的编码信息存入多模态的隐空间中。所谓的隐空间就是数据的一种表示和存储方式,即将现实世界的实体(如本文中的图像、文本)编码为计算机算法可运算的数据格式。文本编码器和图像编码器的参数经过模型训练获得最优值,以实现文本与图像的匹配
13.2.2 扩散模型¶
扩散模型(Diffusion Models)能够让 AI 生成以假乱真的图片、视频和音乐。它们的名字来源于自然界的扩散现象,就像水里的墨水慢慢散开一样。扩散模型通过逆转扩散过程来生成新数据,也就是说,它通过在数据中添加随机噪声,然后再逆转这个过程,从而从噪声数据中恢复原始数据分布,这样就能创造出新的数据
- 前向(扩散)过程:原始图像 G0 经过不断的加入高斯噪声生成模糊图像(即打马赛克),经过 n 步,最终生成一副不再扩散的稳定图像 Gn
- 反向(去噪)过程:从图像 Mn=Gn 出发,通过带参数的模型 U-Net 一步步实现去噪过程恢复图像的原始状态,经过 n 步,最终获得去噪后的图像 M0 。这个模型 U-Net 就是扩散模型
- 模型优化:通过训练模型 U-Net 的参数,满足前向噪声和反向预测噪声的分布残差 E 最小化,就获得了所需建立的扩散模型
- 图像特征:扩散模型假设最终那副稳定的图像就是该图的特征值。AI 将这个特征图与文字的词向量关联,AI 绘画的生成过程就是从文字的词向量映射到图像的特征向量,再从特征向量出发进行反复去噪,恢复出原始的图像,由于去噪的过程带有随机性,因此能生成不同的图像,但高级特征不会变,人还是人,只是外貌发生了改变