万维论坛●五味斋

实验

作者：mingcheng99

发表时间：2025-07-04 05:41

基于 DGA 的中文语言模型张力调控实验报告（更新版）

一、实验背景与动机

在自然语言生成任务中，Transformer 模型通过注意力机制建模 token 之间的依赖关系。然而，这种机制在生成过程中往往缺乏“认知调控”能力，难以解释模型在面对复杂问题时的内部状态变化。

为此，我们引入一种新的注意力干预机制——动态几何注意力（Dynamic Geometric Attention, DGA），用于主动扰动模型的注意力结构，并通过“张力”指标量化这种扰动对模型内部表示的影响。

二、DGA 定义与原理

DGA 是一种在生成前阶段对 Transformer 模型的 query 表示进行几何扰动的机制。其核心思想是：

计算每个 query 与所有 key 的平均偏移向量（Δq）；
将该偏移向量按比例 λ 添加回原始 query：
从而改变注意力分布，引发模型内部的“认知张力”。

这种方法不依赖模型结构修改，适用于任何支持输出 hidden states 的 Transformer 模型。

三、相关论文与理论基础

本实验中的 DGA 概念受到以下研究启发：

Dynamic Group Attention

论文标题：
作者：Kai Liu et al., IJCAI 2022

Dynamic Graph Attention

论文标题：
作者：Sibei Yang et al., ICCV 2019

本实验中的 DGA 更偏向于一种“几何扰动”机制，灵感来源于上述机制，但更直接作用于 query 表示空间。

四、实验设置

模型：IDEA-CCNL/Wenzhong-GPT2-110M（中文 GPT2-small）
环境：本地 CPU，PyTorch + Hugging Face Transformers
Prompt 示例：什么是算法？
DGA 参数 λ：控制注意力扰动强度，范围从 0.1 到 5.0
张力计算方式：基于 query 与所有 key 的欧几里得距离均值

五、实验结果

📊 张力随 λ 变化表格

📈 张力曲线趋势分析

张力随着 λ 增大呈现非线性加速上升趋势；
未观察到张力饱和或反转，说明模型对 DGA 扰动具有高度响应性；
λ = 5.0 时张力已达初始值的 4 倍以上，注意力结构被极大扰动。