实验

作者:mingcheng99
发表时间:
+-

基于 DGA 的中文语言模型张力调控实验报告(更新版)

一、实验背景与动机

在自然语言生成任务中,Transformer 模型通过注意力机制建模 token 之间的依赖关系。然而,这种机制在生成过程中往往缺乏“认知调控”能力,难以解释模型在面对复杂问题时的内部状态变化。

为此,我们引入一种新的注意力干预机制——动态几何注意力(Dynamic Geometric Attention, DGA),用于主动扰动模型的注意力结构,并通过“张力”指标量化这种扰动对模型内部表示的影响。

二、DGA 定义与原理

DGA 是一种在生成前阶段对 Transformer 模型的 query 表示进行几何扰动的机制。其核心思想是:

  • 计算每个 query 与所有 key 的平均偏移向量(Δq);

  • 将该偏移向量按比例 λ 添加回原始 query:

  • 从而改变注意力分布,引发模型内部的“认知张力”。

这种方法不依赖模型结构修改,适用于任何支持输出 hidden states 的 Transformer 模型。

三、相关论文与理论基础

本实验中的 DGA 概念受到以下研究启发:

  1. Dynamic Group Attention

    • 论文标题:

    • 作者:Kai Liu et al., IJCAI 2022

  2. Dynamic Graph Attention

    • 论文标题:

    • 作者:Sibei Yang et al., ICCV 2019

本实验中的 DGA 更偏向于一种“几何扰动”机制,灵感来源于上述机制,但更直接作用于 query 表示空间。

四、实验设置

  • 模型:IDEA-CCNL/Wenzhong-GPT2-110M(中文 GPT2-small)

  • 环境:本地 CPU,PyTorch + Hugging Face Transformers

  • Prompt 示例:什么是算法?

  • DGA 参数 λ:控制注意力扰动强度,范围从 0.1 到 5.0

  • 张力计算方式:基于 query 与所有 key 的欧几里得距离均值

五、实验结果

📊 张力随 λ 变化表格

📈 张力曲线趋势分析

  • 张力随着 λ 增大呈现非线性加速上升趋势;

  • 未观察到张力饱和或反转,说明模型对 DGA 扰动具有高度响应性;

  • λ = 5.0 时张力已达初始值的 4 倍以上,注意力结构被极大扰动。