自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 CVPR2024 | Dropout之后又一改善图像超分泛化性能的正则方案SimpleAlign,已开源!

伴随退化建模的进步,多重退化的训练模型已成为最近 Blind SR 工作的标准。值得注意的是,大约 90% 的图像包含低频信号,而人类的感知对图像的高频细节自然敏感。如上图3所示,Dropout 训练的模型覆盖了较小的频带范围,限制了其恢复能力在此范围之外。(SISR)带来了性能上的巨大飞跃。因此,通过在具有相同内容但不同退化的图像之间对齐这些统计数据,我们的。实验结果表明,我们的方法可以作为与模型无关的正则化,并且。我们在论文中展示了理论和实验分析,此外,我们。然后,我们遵循风格迁移的传统,

2025-04-22 12:02:05 144

原创 首个全量化Vision Transformer的方法FQ-ViT,AI大模型落地不远了!

随着近两年来对视觉Transformer模型(ViT)的深入研究,ViT的表达能力不断提升,并已经在大部分视觉基础任务 (分类,检测,分割等) 上实现了大幅度的性能突破。然而,很多实际应用场景对模型实时推理的能力要求较高,但大部分轻量化ViT仍无法在多个部署场景 (GPU,CPU,ONNX,移动端等)达到与轻量级CNN(如MobileNet) 相媲美的速度。在8位的情况下,这种差异不会产生太大的差异。下面的这两张图表明,与CNN相比,视觉转换器中存在严重的通道间变化,这导致了分层量化的不可接受的量化误差。

2025-04-22 11:50:26 683

原创 时间序列分析的异常检测综述

我们已经了解了什么是时间序列,它的组成部分是什么,它与其他类型的数据有何不同,如何在时间序列中检测异常,以及进行这些操作的最常见技术。我们已经看到了如何验证数据的平稳性,如何对时间序列进行差分,如何估计和验证ARIMA模型,如何使用ARIMA模型来描述、预测和检测时间序列中的异常,以及如何解释异常检测结果。例如,如果我们想要分析数据的季节性,即数据作为时间的函数的周期性变化,我们需要至少一个完整的观测周期,涵盖所有可能的季节。最后,这些技术帮助我们识别数据中的隐藏问题或机会,这可能是由数据中的异常引起的。

2025-04-21 15:24:48 773

原创 CVPR2024 | DragDiffusion:利用扩散模型进行基于点的交互式图像编辑

DRAGBENCH中的图像分为以下10类:动物,艺术作品,建筑物(城市视图),建筑物(乡村视图),人(头部),人(上身),人(全身),室内设计,景观,其他对象。DragGAN通过编辑latent的feature,达到编辑图像的效果,DragGAN通过将latent中对应的特征块特征相近,通过优化迭代达到拖拽的效果,由于GAN是直接生成的,latent和重建图片是一一对应的,但是扩散模型是迭代的,是隐式的,这个方法似乎无法直接用于扩散模型。8)为了增加山峰的概率,最简单的方法就是微调,于是加入了微调流程。

2025-04-21 15:04:04 462

原创 ICLR2024|​MolGen: 化学反馈引导的预训练分子生成

然而,当引入化学反馈后,化学性质得分显著提升,这表明通过化学反馈机制,模型能够将其生成过程与化学上的实际偏好相对齐,从而有效地评估并调整其生成的分子,确保这些分子具备应用中所需的化学特性。基于SMILES的预训练模型可能会将注意力分配给缺乏内在化学意义的符号或数字,相比之下,MolGen在识别和理解具有化学意义的子结构方面表现出更高的有效性。总体而言,预训练语言模型,尤其是MolGen,在维持生成分子多样性的同时,成功捕获了训练集中分子的化学特性和结构特征,展现了其在精确模拟分子化学空间方面的优势。

2025-04-21 12:01:56 1525

原创 什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?

然而,需要注意的是,这种细粒度图像生成也是扩散模型的主要优势之一,因此,使用它们是一种矛盾。一种最近提出的方法,利用GANs的感知能力、扩散模型的细节保持能力和transformer的语义能力,将三者合并在一起。与其他方法相比,它们不仅节省了内存,还产生了多样化的、高度详细的图像,保留了数据的语义结构。transformer的泛化能力和扩散模型的细节保持能力的结合提供了两个世界的优点,并提供了一种生成细粒度的高度详细图像的能力,同时保留图像中的语义结构。生成的图像在语义和视觉上与作为参考的图像相似。

2025-04-19 11:47:34 780

原创 万字长文 | Sora技术解析报告

最后,研究者指出了 Sora 这项新技术存在的风险问题和局限性。随着 ChatGPT 、GPT4-V 和 Sora 等复杂模型的快速发展,这些模型的能力得到了显著提高。这些发展为提高工作效率和推动技术进步做出了重大贡献。然而,这些进步也引发了人们对这些技术可能被滥用的担忧,包括假新闻的产生、隐私泄露和道德困境。因此,大模型的可信度问题引起了学术界和工业界的广泛关注,成为当下研究讨论的焦点。虽然 Sora 的成就凸显了人工智能的重大进步,但挑战依然存在。

2025-04-19 11:35:23 707

原创 KDD 2024 | UniST:清华推出首个通用城市时空预测模型,代码数据均已公开

传统的AI方法需要大量的训练数据和领域知识,一般只能针对特定的数据集对模型进行训练,多个时空场景就需要训练多个模型,这在城市数据不足的情况下显得尤为困难。然而,时空数据在不同时空场景下,例如不同城市、不同领域,由于数据收集者和收集方式的不同,其数据形状以及时空分辨率存在明显的差异。研究团队利用超过 20 个时空数据集,包括超过 1.3 亿个时空样本点,统一了多个城市、多领域、不同空间划分和时间分辨率等丰富的城市时空数据,构建并训练了 UniST 这样一个「one-for-all」的时空通用模型。

2025-04-19 10:54:19 694

原创 自我分治解决复合问题: 详解Self Divide-and-Conquer

本文主要介绍了20240224大模型进展早报以及继续关注RAG的一个工作,也重新温习了使用大模型对自身生成内容置信度估计的方案,与之前介绍内容不同的是,除了使用verblized based方案之外,还可以利用token的预测概率,如均值等,这些都是很好玩的思路。此外,self-DC这这套方案,前置要求大模型的置信准确性,也融合了问题扩展等思路,但也存在一些问题,例如,简单问题和难问题之间存在着很大的差距,)**,如下所示,通过提示大模型,针对某个问题进行分解,可以得到一些细分问题,从而提升性能。

2025-04-18 12:01:01 1709

原创 这样检测是不是更准! | 深度Stereo结构网络用于目标检测(附源码)

,通过检测可微体积表示-3D几何体积上检测3D目标,显著缩小了这一差距,有效地编码了3D正则空间的3D几何结构。提供了一个简单而有效的基于单阶段立体的3D检测 pipeline,它以端到端学习的方式联合估计深度和检测3D目标。研究者提出了一种基于立体的端到端3D目标检测 pipeline(如下图图1)——Deep Stereo Geometry Network (DSGN),它依赖于空间转换从二维特征到有效的三维结构,称为三维几何体积(3DGV)。它是由在3D场景中形成预测表示的方式引起的。

2025-04-18 11:49:47 845

原创 大模型的对齐技术综述以及前沿讨论:个性化对齐和多模态对齐

与小模型不同,大模型展示了两个独特特征:规模化法则,阐明了模型规模增长与性能改进之间的一致关系,以及新兴能力,显示当模型规模超过某一阈值时,意外地出现了在小模型中未观察到的新能力,如上下文内学习、指令跟随和跨多种任务和领域的逐步推理,革新了AI的角色。良好对齐的模型能够生成与这些确定的目标一致的内容。此外,观察到两个风险特征,一是某些风险可能不仅仅是保持不变,而且随着模型规模的增加而恶化,二是未见的风险可能出现或显著放大的现有风险随着更大的模型而出现,使得之前建立的特定风险方法难以处理迅速出现的潜在问题。

2025-04-18 11:28:41 1880

原创 「深度学习在轨迹数据管理与挖掘的应用」最新综述及其展望

尽管越来越多的研究采用深度学习方法进行各种轨迹计算任务,现有的综述往往关注于有限范围内的特定视角,没有一项综述全面总结深度学习应用于轨迹数据的演化和进展。在过去的二十年中,许多技术被提出用于处理、管理、分析和挖掘轨迹数据[31]-[33],导致了轨迹计算的全面框架和理论的发展。我们的综述解决了挑战,促进了讨论,并建议了新的方向。更令人惊奇的是,深度学习技术的应用范围已经超越了传统的数据类型,如图像、音频和文本序列,扩展到空间和时间域中的更一般或不规则数据[36]。第6节概述了未来研究的有前景的途径。

2025-04-17 11:21:06 868

原创 CVPR 2024 | 让模型关注你想要的任何属性!CPAL:弱监督语义分割新网络

它利用的是相对简单的标签——可能只是一些图像级别的标签、简单的涂鸦或是大致的边界框。例如,某些特定环境下可能存在特定类别的对象(如猫),但若不对这些对象的细节特征进行精确分析,就可能导致激活相似的类别部分——例如,将实际上躺在窗台上的小狗错误地识别为猫。我们的方法,CPAL,能够灵活捕捉不同属性(比如猫)的特征,这一点与依赖单一原型(图a)或常规上下文原型(图b)的方法形成鲜明对比。两个标准数据集上的实验不仅验证了CPAL的有效性,还展示了它在提升模型性能方面的显著优势,推动了该领域的进步至新的高度。

2025-04-17 11:08:10 578

原创 神经网络算法 - 一文搞懂模型微调Fine-tuning

方法一:仅修改最后一层(全连接层)的本质、微调的原理、微调的应用。三个方面,带您一文搞懂。方法二:修改最后几层。方法三:微调整个模型。

2025-04-17 10:56:53 627

原创 TransGNN:Transformer和GNN能互相帮助吗?

准确性提升:在多个数据集上,TransGNN在推荐准确性方面均取得了显著的提升。相比于基线模型,TransGNN能够更准确地预测用户的兴趣偏好,从而提供更符合用户需求的推荐结果。长期依赖捕获:通过利用Transformer的自注意力机制,TransGNN能够捕获用户-项目交互序列中的长期依赖关系。这使得TransGNN在推荐长序列项目时更具优势,能够提供更连贯、更相关的推荐结果。

2025-04-16 11:15:14 680 1

原创 综述 | 解析生成技术在时空数据挖掘中的应用

为了清晰说明几种应用的生成技术,即时空表示学习、时空预测、时空推荐和时空聚类,研究者基于生成技术,为现有研究开发了如图6所示的综合分类法,涵盖了四种不同的技术类别:大型语言模型(LLMs)、自监督学习(SSL)、扩散模型(Diffusion)和序列到序列(Seq2Seq)模型。通过探索这些领域中进行的研究的广度和深度,研究人员可以获得关于应对广泛时空分析任务所采用的多样化方法和创新方法论的宝贵见解,最终推动整个领域的进步。随着GPS技术和移动设备的显著进步,时空数据的数量经历了实质性的增长。

2025-04-16 09:58:20 860

原创 刷脸背后,卷积神经网络的数学原理原来是这样的

所以我们马上就会发现,传统的策略是没有用的——我们需要一种新的聪明的方法,来尽可能多的利用数据,但同时还要减少必需的计算量和参数。例如,如果我们使用 1 像素的填充,我们将图像的尺寸增大到了 8x8,这样,3x3 的滤波器的输出将会成为 6x6。由于我们的图像的尺寸在每次卷积的时候都会收缩,在图像完全消失之前,我们只能做有限次的卷积。(3D 矩阵可以被称作张量)满足下面的方程,其中:n 是图像的大小,f 是滤波器的大小,n_c 是图像中的通道数,p 是所用的填充,s 是所用的步长,n_f 是滤波器的数量。

2025-04-16 09:30:10 812

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除