
Deep learning
文章平均质量分 74
Jurio.21
自爱,沉稳,而后爱人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【论文笔记】Transformer^2: 自适应大型语言模型
自适应大型语言模型(LLMs)旨在解决传统微调方法的挑战,这些方法通常计算密集且难以处理多样化的任务。本文介绍了Transformer²(Transformer-Squared),一种新颖的自适应框架,通过在推理时选择性地调整权重矩阵的单个奇异分量来实时适应未见过的任务。Transformer²在参数数量较少且效率更高的情况下,持续优于LoRA等常用方法。此外,Transformer²在不同LLM架构和模态(包括视觉语言任务)中表现出色,代表了自适应LLMs的重大进步。原创 2025-02-17 17:53:43 · 750 阅读 · 0 评论 -
【论文笔记】Are Self-Attentions Effective for Time Series Forecasting? (NeurIPS 2024)
时间序列预测在多领域极为关键,Transformer 虽推进了该领域发展,但有效性尚存争议,有研究表明简单线性模型有时表现更优。本文聚焦于自注意力机制在时间序列预测中的作用,提出仅用交叉注意力的 CATS 架构。它摒弃自注意力,利用交叉注意力并设置未来视野依赖参数为查询及增强参数共享,提升了长期预测精度,还减少了参数和内存使用。多数据集实验显示,CATS 模型均方误差最低且参数更少。原创 2025-02-10 17:59:58 · 1529 阅读 · 0 评论 -
【论文笔记】Brant: Foundation Model for Intracranial Neural Signal (NeurIPS 2023, poster)
本文提出了Brant,一个用于脑内记录数据(sEEG)的基础模型,**通过预训练学习强大的神经信号表征,提供了一个大规模的现成模型**。Brant在多项下游任务上表现出色,展示了其广泛的泛化能力。模型设计结合时间和频率域的信息,能够捕捉长时间依赖性和空间相关性。实验表明,模型规模增大会提升性能。预训练策略和低资源标签分析验证了其有效性。源代码和预训练权重已公开(**但实际上需要联系作者获取模型code和权重**,使用你的机构邮件联系:[[email protected]]原创 2024-11-30 15:33:19 · 1225 阅读 · 0 评论 -
【论文笔记】BIOT: Biosignal Transformer for Cross-data Learning in the Wild (NeurIPS 2023, poster)
本文提出了一种灵活的生物信号编码器架构——BIOsignal Transformer(BIOT),**实现了跨数据集的预训练和下游任务微调,能够应对生物信号格式的多样性和特有挑战,如通道不匹配、样本长度变化和缺失值等问题**。BIOT通过将不同的生物信号“token化”成统一的“句子”结构来解决这些问题,每个通道分别标记为固定长度的片段,片段重组形成长“句子”。每个片段添加了通道嵌入和相对位置嵌入,以保持时空特征。原创 2024-11-27 18:57:06 · 2003 阅读 · 0 评论 -
【论文笔记】BrainBERT: Self-supervised representation learning for... (ICLR 2023, poster)
本文提出了一个可重复使用的Transformer模型——**BrainBERT**,用于处理颅内场电位记录(sEEG),将现代表征学习方法引入神经科学。类似于自然语言处理(NLP)和语音识别(ASR),**BrainBERT通过在大规模未标注神经数据上进行无监督预训练**,实现了对复杂概念的高精度解码,并减少了所需数据量。**BrainBERT能够推广至新被试和不同任务,展示了其鲁棒的表征学习能力**。此外,该模型还用于探索脑区的计算特性,表明未来可以通过表征学习从神经数据中解码更多概念,从而深入理解大脑。原创 2024-11-26 21:35:14 · 1004 阅读 · 0 评论 -
【论文笔记】DeWave: Discrete Encoding of EEG Waves for EEG to Text Translation (NeurIPS 2023, spotlight)
本文介绍了一个名为DeWave的大脑动态转换为自然语言的新框架。DeWave通过将离散编码序列整合到开放词汇的脑电图(EEG)到文本翻译任务中,解决了现有方法依赖眼动追踪或事件标记来分割脑动态的问题。**DeWave使用量化变分编码器来推导离散编码,并将其与预训练的语言模型对齐**。这种离散编码表示有两个优势:**1)它通过引入文本-EEG对比对齐训练,实现了无需标记的原始波形翻译**;**2)它通过不变离散编码减轻了EEG的个体差异引起的干扰**。原创 2024-11-25 20:25:41 · 1607 阅读 · 0 评论 -
使用 PyTorch 库来检查 CUDA 是否可用以及 GPU 数量等信息
使用 PyTorch 库来:检查 CUDA 是否可用,GPU 数量,以及 GPU 的详细信息原创 2024-11-24 09:00:00 · 2080 阅读 · 0 评论 -
nohup 挂载程序在后台运行
**`nohup` 命令在 Linux 系统中用于运行某个命令或程序,使其在用户注销或关闭终端后继续运行**。这个命令的名称来自 "no hang up" 的缩写,意味着 "不挂断"。当你使用 `nohup` 命令时,标准输出和标准错误通常会被重定向到 `nohup.out` 文件中,除非你指定了其他的输出文件。原创 2024-11-24 09:00:00 · 499 阅读 · 0 评论 -
import torch 报错 ModuleNotFoundError: No module named ‘typing_extensions’
解决 import torch 报错 ModuleNotFoundError: No module named 'typing_extensions’原创 2024-11-23 09:00:00 · 827 阅读 · 0 评论 -
【论文笔记】NeuroLM: a universal multi-task foundation model... (ICLR 2025 Under review)
本文介绍了NeuroLM——用于EEG信号处理的首个通用多任务基础模型。**NeuroLM通过将EEG信号整合到大型语言模型(LLMs)框架中,利用先进的文本对齐神经tokenizer的embeddings、大规模多通道自回归预训练和联合多任务调整来应对基于EEG的脑机接口和医疗保健任务的众多任务**。通过在六个不同的EEG数据集上的广泛实验,展示了模型在多任务学习和推理中的优越性能。原创 2024-11-23 09:00:00 · 2426 阅读 · 0 评论 -
【论文笔记】Du-IN: Discrete units-guided mask modeling for decoding speech... (NeurIPS 2024)
本文提出了一种新的脑机接口技术,使用立体脑电图(sEEG)来解码语音,这是一种侵入性较小的方法。研究者们收集了一个中文单词阅读的sEEG数据集,并开发了Du-IN模型,该模型通过**区域级别的上下文嵌入**来提高语音解码的性能。Du-IN模型在单词分类任务上超越了所有基线模型,**基于区域级别标记的时间建模和自监督的离散码本引导掩码建模等设计对性能有显著贡献**。这种方法基于神经科学发现,利用特定脑区的区域级别表示,适合于侵入性脑建模,并在脑机接口领域展现出神经启发式AI方法的潜力。原创 2024-11-22 17:04:31 · 1243 阅读 · 0 评论 -
快速安装GPU版PyTorch(清华源)
使用清华源快速安装GPU版PyTorch原创 2024-11-22 09:00:00 · 3019 阅读 · 2 评论 -
【Python】几种常用的方法来安装和管理python库依赖
在 Python 开发中,有几种常用的方法来安装和管理库依赖,包括 `requirements.txt`、`environment.yml` 和 `setup.py`。每种方法都有其特定的用途和场景:原创 2024-11-22 09:00:00 · 1209 阅读 · 0 评论 -
Conda 管理项目环境
Conda 是一个开源的包管理系统和环境管理系统,它主要用于安装和管理软件包和创建、管理不同版本的环境。以下是一些基本的命令和步骤,用于使用 Conda 管理项目环境:原创 2024-11-21 22:32:09 · 648 阅读 · 0 评论 -
【论文笔记】Large Brain Model (LaBraM, ICLR 2024)
Large Brain Model for Learning Generic Representations with Tremendous EEG Data in BCI 介绍了一种新型的大型脑电图(EEG)模型,名为Large Brain Model(LaBraM),旨在克服传统基于EEG的深度学习模型在脑机接口(BCI)应用中的局限性,如模型规模有限、感知能力和泛化性不足。**LaBraM通过无监督预训练来获得对EEG信号的通用感知能力,然后可以针对不同的下游任务进行微调。**原创 2024-11-21 21:09:45 · 3716 阅读 · 1 评论 -
【论文笔记】Speech language models lack important brain-relevant semantics (arXiv 2024)
这项研究探讨了基于文本和基于语音的语言模型在预测大脑活动方面的不同效果。研究发现,当从模型中移除文本、语音和视觉等低层次特征后,基于文本的模型在早期感觉区域的预测能力下降,但在晚期语言区域仍保持较强的预测能力。而基于语音的模型即使在移除这些特征后,也能在早期听觉区域保持强大的预测能力,但在晚期语言区域的预测能力则完全丧失。这表明基于语音的模型可能提供了关于早期听觉区域处理的额外信息,但在模拟晚期语言区域的处理时需谨慎使用。原创 2024-11-20 23:40:33 · 1070 阅读 · 0 评论 -
通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地
通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地原创 2024-11-20 20:04:47 · 1013 阅读 · 0 评论 -
【Python绘图】两种绘制混淆矩阵的方式 (ConfusionMatrixDisplay(), imshow()) 以及两种好看的colorbar
在机器学习领域,混淆矩阵是一个评估分类模型性能的重要工具。它不仅展示了模型预测的准确性,还揭示了模型在不同类别上的表现。本文介绍两种在Python中绘制混淆矩阵的方法:ConfusionMatrixDisplay() 和 imshow(),以及两种好看的colorbar:coolwarm_r,GnBu, 以增强可视化效果。原创 2024-11-18 20:13:01 · 3241 阅读 · 0 评论 -
huggingface-cli : 无法将“huggingface-cli”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
huggingface-cli 是 Hugging Face 官方提供的命令行工具,它可以帮助用户方便地与 Hugging Face Hub 交互。通过这个工具,用户可以执行多种操作,包括模型和数据集的上传和下载等。原创 2024-11-16 14:31:41 · 1561 阅读 · 3 评论 -
解决安装GPU版PyTorch报错:cuda 11.7.* , which does not exist (perhaps a missing channel)
为了安装特定版本的 CUDA,需要确保已经添加了提供该版本的通道。解决安装GPU版PyTorch报错:cuda 11.7.* , which does not exist (perhaps a missing channel)原创 2024-09-18 14:21:37 · 1471 阅读 · 0 评论 -
Linux服务器配合Xshell+Tensorboard实现深度学习训练过程可视化
在深度学习领域,监控模型的训练过程是非常重要的。TensorBoard 是 TensorFlow 提供的一个可视化工具,可以帮助我们直观地理解模型的训练和验证过程。本文将介绍如何在 Linux 服务器上使用 Xshell 远程连接服务器,并配合 TensorBoard 实现深度学习训练过程的可视化。原创 2024-09-15 15:03:37 · 809 阅读 · 0 评论 -
【论文笔记】AutoLFADS (Nature Methods, 2022)
通过深度神经群体动力学模型实现最先进的性能需要对每个数据集进行广泛的超参数调整。 **AutoLFADS 是一个模型调整框架,可以根据来自各种大脑区域和任务的数据自动生成高性能的自动编码模型,而无需行为或任务信息**。作者在几个恒河猴数据集上证明了其广泛的适用性。原创 2024-09-11 11:21:22 · 1653 阅读 · 0 评论 -
【论文笔记】DeepPhase: Periodic Autoencoders for Learning Motion Phase Manifolds (SIGGRAPH, 2022)
作者提出了一种称为周期性自动编码器(Periodic Autoencoder)的新型神经网络架构,它可以以无监督的方式从大型非结构化运动数据集中学习周期性特征。具体而言,角色的动作被降维分解为多个潜在特征(Latent Embedding),不同特征捕获不同身体部位随时间变化的非线性周期性。同时从Latent Embedding提取的多维相空间可以有效地对不同动作进行聚类并生成相比原始运动空间更好的流形。最后,模型学到的周期性latent可以显着帮助改善许多任务中的神经运动合成,甚至包括舞蹈动作生原创 2024-08-28 19:27:00 · 1472 阅读 · 2 评论 -
Latent Factor Analysis via Dynamical Systems:LFADS (Nature methods 2018)
Latent Factor Analysis via Dynamical Systems:LFADS (Nature methods 2018)论文阅读笔记原创 2024-07-26 18:02:24 · 1237 阅读 · 0 评论 -
STNDT: Modeling Neural Population Activity (NeurIPS 2022)
SpatioTemporal Neural Data Transformer (STNDT) 基于NDT的架构,显式地建模群体中单个神经元跨时间和空间的响应,以揭示其潜在的放电率。原创 2024-07-21 15:34:09 · 921 阅读 · 0 评论