[Base]DIFFERENTIAL TRANSFORMER

1. BaseInfo

TitleDIFFERENTIAL TRANSFORMER
Adresshttps://arxiv.org/pdf/2410.05258
Journal/Time202410
Author微软研究院和清华大学提出
Codehttps://aka.ms/Diff-Transformer
Read241111

2. Creative Q&A

  1. 减少对无关上下文的关注;
  2. 通过计算两个Softmax注意力权重的差值来抵消噪音;

3. Concrete

将查询和键向量分为两组,并计算两个独立的 softmax 注意力图。
LLaMA 的结构,把中间的 Attention 变为 Diff-Attention
在这里插入图片描述
在这里插入图片描述
主要区别在于修改了注意力的softmax过程,并且采用了pre-RMSNorm、SwiGLU等改进。

3.3. Eval

在 LLM 上进行对比的。 StableLM-3B-4E1T。

3.4. Ablation

4. Reference

【85、Differential Transformer 论文原理逐段讲解】 https://www.bilibili.com/video/BV1Jq1PYPEYG/?share_source=copy_web&vd_source=de14afcd5ebe6d387a25fcaeaeafa1c7

5. Additional

主要是在大语言模型上的应用。差分的想法挺有意思的。得看看代码。

``` {—————————————— 智能选股系统 V8.2 OPTIMIZED ——————————————} // 动态参数优化引擎 PARAM_OPTIMIZE := HYBRID_META_OPTIMIZER( EPOCH=2000, POP_SIZE=1200, ONLINE_LEARNING_RATE=0.002, REWARD_FUNCTION=ADAPTIVE_SHARPE( BASE_RETURN=CLOSE_RETURN, RISK_FACTORS=[VOLATILITY, SKEWNESS, MAX_DRAWDOWN], LAMBDA=[0.5, 0.3, 0.2])); // 增强型阿尔法因子 ALPHA_FACTOR := XGBOOST_HYBRID_V4( FEATURES=[ENHANCED_VOL_RATIO, RSI_ACCELERATE_V3(14), BLOCKVOL_FLOWRATE_REALTIME, ETF_IMBALANCE_ADJ_V2, INST_HOLD_DELTA_LIVE, SECTOR_MOM_INTERACT], DYNAMIC_WEIGHTING=PARAM_OPTIMIZE.output_weights, LOOKBACK_WINDOW=ADAPTIVE_WINDOW_V3(MARKET_VOLATILITY, 0.85)); // 量子强化北向资金模型 NORTH_FLOW := QUANTUM_DRL_PRO_V2( ENV_STATE=[HKHOLD,DEEP_VOL,INDEX_FUTURE,FOREX_VOLATILITY, SENTIMENT_LAYER,INST_ORDER_FLOW,ETF_FLOW_DERIV], ACTION_SPACE=[BUY,HOLD,SELL,SHORT,DOUBLE_SHORT], REWARD=1.6*CLOSE_RETURN - 0.4*VOLATILITY + 0.4*SENTIMENT_DELTA + 0.25*FLOW_MOMENTUM - 0.15*TRANSACTION_COST); // 波动率状态机 VOL_REGIME := REGIME_SWITCH_V4( VOL_BAND, GARCH_VOL, JUMP_DIFFUSION, TRANSITION_PROB=STRESS_INDEX_V3( VIX, CNY_VOL, COMMODITY_SHOCK), JUMP_RISK_PREMIUM=0.25); // 行业轮动引擎 INDUSTRY_SCORE := 0.40*DYNAMIC_NLP_SENTIMENT( SOURCES=[NEWS,TWITTER,REDDIT,INST_RESEARCH], TIME_DECAY=EXP(-0.05*DELAY)) + 0.30*SECTOR_MOMENTUM( WINDOW=ADAPTIVE_FOURIER(14), VOL_ADJUSTED=True) + 0.20*INDUSTRY_FLOW_MOMENTUM( LEAD_LAG_RATIO=1.2, LIQUIDITY_MULT=VOLATILITY_SMOOTH) + 0.10*POLICY_SENSITIVITY** (1.8 - 0.3*MARKET_PHASE); // 信号融合系统 FINAL_SIGNAL := FUZZY_LOGIC_VOTE( CONDITIONS=[ Q_SIGNAL >= DYNAMIC_THRESHOLD_V3(MARKET_PHASE), EMA(VOL,5) > 1.6*MA(VOL,20)*DYNAMIC_BETA_MULTI, CLOSE > QUANTILE(CLOSE, 0.82, 50), LIQUIDITY_SCORE > 0.95, INST_FLOW_DURATION >= 2.8, INTRADAY_ANOMALY_SCORE > 0.88, FUND_CONFIRM(3D,MIN_STRENGTH=0.75) ], VOTE_WEIGHTS=[0.25,0.18,0.15,0.12,0.10,0.12,0.08], ACTIVATION_THRESHOLD=0.82); // 风险控制模块 RISK_CONTROL := DYNAMIC_RISK_ENGINE( MAX_DRAWDOWN=0.15, VOLATILITY_CAP=0.3, LIQUIDITY_FLOOR=0.0005, BLACKSWAN_FILTER=STRESS_INDEX>0.9);```你的身份是高级编程技术专家,精通各类编程语言,能对编程过程中的各类问题进行分析和解答。我的问题是【我编辑通达信选股代码,你如何深度理解此代码能否选到资金持续流入,股票市场情绪启动,盘中异动启动主升浪的股票,及日线盘中预警选股和盘后选股。用2018-2024年全A股周期回测验证此代码选股逻辑的准确性和胜率,评估月胜率达到多少?评估有效信号准确率达到多少?同时此代码还有什么可提升的空间,提出可行性的优化建议和方案,优化选股逻辑和所有参数计算关系和信号触发条件。请帮我检查并全正确代码,生成优化后完整代码。
03-30
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值