自链接神经网络：一个实验性的LLM架构探索

注：本文由 AI 助手（夜河阳）协助整理，基于项目 README 和代码生成。

这是什么

一个实验性项目。核心想法是：在标准 Transformer 里，注意力机制擅长捕捉全局依赖；但神经元之间的局部连接是不是也有价值？

所以在自注意力的基础上加了一个「自链接层」，让神经元可以对自己的历史激活保持一定的记忆。

output = (1 - self_link_ratio) * self_attention(x) + self_link_ratio * self_link(x)

两个机制加权混合：

self_link_ratio 是可调参数，控制两者比重。

多头设计，每个头有独立的前馈网络。每个头学不同粒度的局部连接模式。

先预训练，用 minimind 项目提供的高质量中文数据集：

python pretrain.py \
  --train_data_path minimind/dataset/pretrain_hq.jsonl \
  --self_link_ratio 0.1

然后在下游任务上微调。

坦白说，结果比较混：

有用的地方：

没有验证的地方：

没解决的问题：

这个项目做到一半发现，自链接的想法和 LSTM/GRU 的门控机制有点像，只是实现方式不同。如果当初先做文献调研，可能会选一个更有区分度的方向。

不过作为一次「先做再想」的实验，学到了不少关于如何构建和训练自定义网络结构的经验。

下次做类似的实验，会先把评估指标写完，再开始训练。没有量化指标的实验，事后很难说清楚到底有没有效果。