
imagednn
文章平均质量分 84
小李飞刀李寻欢
视频号:小明哥直播间
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
opencv实现给图像加上logo图像
要用Python和OpenCV给图片加上logo,可以按照以下步骤实现:读取logo和image图片。调整logo的大小以适应image。将logo放置在image的指定位置。将logo和image合并。以下是实现代码:import cv2# 读取logo和image图片logo = cv2.imread('logo.png', cv2.IMREAD_UNCHANGED) # 读取带透明通道的logo# 检查图片是否成功读取print("图片读取失败,请检查文件路径是否正确。原创 2024-12-13 13:49:26 · 1298 阅读 · 0 评论 -
背景替换大模型图像处理gradio部署服务
inferencedata = {input_url],"label": {"text": "原图","style": {},},],功能: 该函数接收两张图像(人像和背景),使用模型对输入的人像进行抠图,然后将抠图结果与背景图像进行合成,生成新的图像。步骤检查输入: 确保输入图像不为空。图像编码: 将输入图像编码为URL。构建请求数据: 构建包含任务类型、输入图像URL等信息的JSON数据。调用模型服务: 使用函数调用模型服务进行抠图。读取结果。原创 2024-11-15 16:15:49 · 1149 阅读 · 0 评论 -
抠图服务大模型处理gradio部署服务
解读: 将多个图像变换操作组合在一起。: 将图像调整为 1024x1024 像素。: 将图像转换为 PyTorch 张量。: 对图像进行归一化处理,使用 ImageNet 的均值和标准差。解读fn(image): 这是一个用于图像分割的函数。: 加载图像并将其转换为 PIL 图像对象。: 将图像转换为 RGB 格式。: 获取图像的尺寸。: 保存原始图像的副本。: 对图像进行预处理,并将其转换为模型输入格式。: 禁用梯度计算,以节省内存并加速推理。: 使用模型进行预测,并将结果转换为 CPU 上的张量。原创 2024-11-15 16:07:35 · 836 阅读 · 0 评论 -
ValueError: Images of type float must be between -1 and 1.
如果你希望 `gradio` 库支持超出 `-1` 到 `1` 范围的浮点图像数组,你可以修改 `gradio` 库的代码。这个错误表明你正在尝试将一个浮点类型的图像数组转换为 `PIL` 图像,但该图像数组的值不在 `-1` 到 `1` 的范围内。`gradio` 库要求浮点类型的图像数组的值必须在 `-1` 到 `1` 之间。首先,确保你的图像数组的值在 `-1` 到 `1` 之间。这段代码将图像数组的值缩放到 `0` 到 `255` 之间,并将其类型转换为 `uint8`。原创 2024-10-25 16:20:35 · 1061 阅读 · 0 评论 -
视频处理基础之gradio框架实现
例如,如果`ffmpeg`或`ffprobe`命令失败,或者视频文件的格式不符合预期,函数会返回原始视频路径或抛出异常。- 用法:传入视频文件的路径作为字符串,函数会检查视频的容器格式和编解码器是否符合浏览器的播放标准(如`.mp4`容器使用`h264`编解码器,`.webm`容器使用`vp9`编解码器等)。这些函数是用于处理视频文件的Python代码片段,它们依赖于`ffmpeg`和`ffprobe`工具,这些工具是`FFmpeg`项目的一部分,用于处理视频和音频数据。- 用途:获取视频文件的时长。原创 2024-09-05 14:28:12 · 1595 阅读 · 0 评论 -
BLIP 中q-former使用方法
q-former使用方法:将视觉与文本信息进行融合原创 2024-08-14 16:53:02 · 1230 阅读 · 0 评论 -
Swin-T-22k具体使用方法
视觉大模型向量提取原创 2024-08-14 16:09:23 · 936 阅读 · 0 评论 -
No module named ‘pytorch_lightning.utilities.distributed‘
安装stable-diffusion中的依赖包解决原创 2023-07-04 17:09:39 · 13770 阅读 · 4 评论 -
优秀图片生成参数-stable-diffusion-webui
stable-diffusion-webui优秀生图来了。原创 2023-05-18 19:57:08 · 893 阅读 · 0 评论 -
stable- diffusion新版本V2效果有提升吗?
stable- diffusion V2 就丝滑好用了吗?原创 2023-04-21 19:50:38 · 1645 阅读 · 0 评论 -
stable-diffusion真的好用吗?
CV大模型GPT,stable- diffusion原创 2023-04-11 11:29:49 · 1843 阅读 · 0 评论 -
Sequential model should have a single output tensor. For multi-output layers,use the functional API.
这个错误的原因在于不知道啥叫序列化模型,keras的模型都是序列化堆叠的模型,如果你觉得不好用,你可以直接用tf的函数构建,不要嫌弃keras,人家本来就是高级API,你想知道更多,你用低级的API呗非要用LSTM中的状态也可以,先了解下参数,啥都不了解就不要轻易下结论,不被人笑死??input_data = tf.keras.layers.Input(shape=(12,3))hidden_1, state_h, state_c = tf.keras.layers.LSTM(units=16,原创 2020-05-30 13:21:11 · 2336 阅读 · 0 评论 -
MAP-Mean Average Precision 平均精度均值
在分类任务中,不知道是不是多标签分类,看完本文就知道了。除了常见的评价指标外,还有一个能装逼的指标,因为知道的人少了一些。这是来自github搜索到的版本,感觉很高大上啊。每一个类别的AP,最后得到MAP,太好看了。当前py file的绝对路径为os.path.abspath(__file__)切换工作文件夹到pathos.chdir(path)当前工作路径os.getcwd()由于MAP是由PR值求得的,因此必然有PR值,公式为:来源于网络,没有仔细考究原创 2020-05-22 19:44:43 · 1697 阅读 · 0 评论 -
关于ResNet50的解读
说起ResNet必然要提起He大佬,这真是神一样的存在,这不,不久前又有新的突破RegNet,真是厉害啊。ResNet开篇之作在此,后面又出了各种变形啥的,ResNeXt,inception-ResNet等等吧,代码在此。总体:这个网络结构主要是解决加深网络而不能减小loss的问题,如图下:网络越深越好吗?不是,加一层acc或者其他指标就好了??并不是,既然网络加深了,又难以训...原创 2020-05-04 02:57:34 · 14348 阅读 · 0 评论 -
关于GP Global Pooling
hi,dearhave seen many Global Pooling?why is the gap ,gmp, gsp? Will talk in detailGAP,here is Global average pooling,Not mentioned in NeXtVLAD Global average precision全局平均池化,这是在图像处理中的最后面的层,为了降维...原创 2020-04-08 17:45:23 · 848 阅读 · 0 评论 -
基于内容和时间记忆的视频质量评价VSFA
代码在此,paper在此。总体:采用预训练ResNet50提取的帧特征,对于时间记忆的影响(时间滞后效应:人们总是记得质量差的前面的帧,即使后面出现了好的帧,也难以改变人们的评价),采用GRU和时间池化层。框图如下:默认是32帧一个batch,每帧得到的都是2048D特征,GP是全局池化,后面接FC全连接层降维,GRU输出每个帧的评分,及时间维度的池化层,最后是一个全局平均池化GA...原创 2020-04-09 14:41:10 · 1702 阅读 · 1 评论 -
TSM视频理解解读
几个月前我做了TSM的测试工作,由于的确比较笨,用pretrained model测试单个视频我都费了好多天。paper在此,pytorch代码在此。总体:TSM达到三维卷积的效果,但是只有2维卷积的复杂度。Temporal Shift Module就是沿着时间维度移动部分通道,因而方便帧之间的信息交换。第二个图是双向的TSM,将过去和未来的帧与现在的帧交融。多余的截断,缺少的...原创 2020-04-06 22:49:17 · 5481 阅读 · 6 评论 -
分类模型的最后一层输出是什么?
说起这个问题,那就不可避免要提到激活函数,常见的有sigmoid和softmax,损失函数则是交叉熵。通过help(roc_auc_score)得到官方的某个解释:roc_auc_score(y_true, y_score, average='macro', sample_weight=None, max_fpr=None, multi_class='raise', labels=Non...原创 2020-04-06 18:19:28 · 3679 阅读 · 0 评论 -
TSN视频识别详解
原作者给出的torch版本的代码,看起来有点不习惯,但比caffe版本好多了。paper在此但光流提取及视频列表生成还是到原来的TSN repo.总体:稀疏时间采样策略及视频级监督。Two-stream及卷积模型在拟合大尺度时间上有些力不从心,这主要因为它们的接近时间上下文背景有限,比如仅仅在单帧或几段clips上操作。复杂的运动时间跨度大,简单的网络结构可能失败,而TSN是视频级...原创 2020-04-06 16:42:28 · 4049 阅读 · 1 评论 -
分类任务的metrics——模型评测标准
在分类任务中,想要知道模型的好坏,是不是能够实际应用,那么必须有评价的标准,本文将详细说来。如果不提到混淆矩阵,那么下面的概念就不好理解。我自己先默写了下,结果发现错了(错的全颠倒),错误示例如下:上图错误的原因是不知道True/Positive这种概念是针对谁来说,小明哥这里给出:True/False是针对(预测结果)这个预测是不是正确来说的,如果预测正确,那么为True,预测错...原创 2020-04-04 23:05:12 · 2458 阅读 · 0 评论 -
百度飞浆NeXtVLAD之推断inference
上一篇是基础的数据输入,然而继续查看模型的输入数据会遇到各种数据结构,比如迭代器yield本文将继续寻根究底,看看是如何输入audio及rgb 特征,然后得到NeXtVLAD聚类后的特征。我看了下模型的输出,似乎只能输出类别,而我想得到某一层的输出结果。这个咋整呢??屁大点事结果我麻烦了百度的很多人帮我解决,真是辛苦了,从此再也不说飞浆的坏话了,哈哈。我觉得杀鸡就得用牛刀,快!自己...原创 2020-04-03 00:07:20 · 1902 阅读 · 0 评论 -
NeXtVLAD 飞酱预训练模型测试
hi,dear 大佬:找遍了全网,只有飞酱提供了预训练的模型,请使用_final版本的,下面我将用inceptionV3提取图像特征然后经过该模型得到concat之前聚类之后的特征,该特征我将用做embedding,别问我有啥意义,我哪知道,inceptionV3不也是这么玩的吗??【意义很清楚,就是将泛特征经过聚类得到新的特征,剔除了冗余的特征及微小的弱特征】另外我也会将音频vgg后...原创 2020-04-03 00:38:56 · 622 阅读 · 0 评论 -
视频封面图特征提取问题
在视频推荐中,视频的封面图是用户首先看到的内容,非常直观、显著。用户是否点击该视频很大程度上也与封面有关,这种封面一般是指嵌入到图文中的视频封面,或者第一眼能看到的封面,一般这个封面也是视频中的关键帧,暂不考虑那些刻意抽取的一帧作为封面的情况。 在爱奇艺软色情视频识别中也有用到封面图,而且是单独用作特征(采用的是Xception特征提取,后面接的是Attenti...原创 2020-03-25 17:42:13 · 1747 阅读 · 0 评论 -
NeXtVLAD视频分类pb模型修改
之前搞落地问题,肯定会遇到pb模型,模型结点啥玩意的都能烦死。根据上一篇思路,这里单独开一篇,将模型的头部分输入砍掉,也不用将pca采用tf写,这样方便容易理解。使得输入的就是固定的input_shape,有一点顾虑,就是tf的resize可能与cv2的不同,那么直接采用tf的resize不是就避免了(ResizeBilinear),我看第一步就是扩展一个维度,从这里输入也可以。输出就...原创 2020-03-16 19:28:47 · 2145 阅读 · 0 评论 -
NeXtVLAD中特征提取修改及对比结果
鉴于lin大佬所写的代码只能单个图做特征,不能批处理,所以寡人修改了下。这里进行结果对比,看看是否一致。【注意是关键帧的特征】我发现lin没有resize都直接输入模型了???这个模型中必有resize的过程,只有固定一个吧。下面看看模型的输入。【后来发现为啥没有用批处理了,如果批处理,那么其input_shape必然是固定不变的,下面详细看看模型是如何reshape的,因为是pb模型...原创 2020-03-16 21:28:05 · 1216 阅读 · 1 评论 -
视频关键帧inceptionV3&Xception特征提取
很多时候都是重复造轮子,反复无常,这源于没有结构性的记录,东西放的地方不对,文件命名不规范,以后凡是能够复用的务必写readme文件,以防忘记。本文要解决的是两个问题,这里先来特征提取【有实际的代码比优秀的构想更重要,啥都别吹,写代码。天天吹牛逼,关键时候屁都没有,岂不是被人笑死】1-特征提取【直接拿我inceptionV3的脚本文件copy来改改】先从github上下载模型,放到...原创 2020-03-16 11:48:55 · 2331 阅读 · 0 评论 -
Xception网络结构
直接用的keras官方给的模型。设定shape为默认的299,这里回答下之前博文的无知之处,预训练的模型都是输出的global_average_pooling,关于这个pooling很好理解,就是全局的池化,HWC维度直接到C维度2048D2000多万参数,巨无霸模型。Layer (type) Output Shape Param #...原创 2020-03-15 23:51:12 · 893 阅读 · 0 评论 -
NeXt VLAD多模态视频分类
NetVLAD最初是用于位置识别中聚合空间表达,发现比常规的时间模型(LSTM/GRU)用于聚合视觉和听觉特征任务更有效、更快。Net VLAD主要的一个缺点是特征维度高,基于这种特征的大的分类模型需要几百百万的参数。例如,一个Net VLAD网络有128个聚类,特征2048维,那么作为向量就是262144维。后面的全连接层是2048维度的输出,那么将有537M的参数。这种低效的参数将使得模型很难...翻译 2020-03-14 16:04:11 · 5280 阅读 · 3 评论 -
阿里优酷视频分类方法???咋理解啊?
阿里大佬讲了下面的ppt,这都过去大半个月了我还是一头雾水、一脸懵逼、一无所获, 菜鸟的世界真是灰色.图片来源:阿里巴巴文娱技术公众号问题:1 NeXtVLAD是预训练的网络吗?如果是,如何获取啊?如果是linrongcheng大佬的模型,那么上图的后续步骤在lin大佬源码里面有体现吗??2 FC+Gating咋设置啊?MoE多专家分类是啥?这俩有参考吗???[大致浏...原创 2020-03-13 12:17:20 · 2045 阅读 · 5 评论 -
yt8m如何做帧特征?
最近一直困扰的就是特征问题,视频特征——>帧特征——>特征聚合/融合前天看了对面大佬的ppt,也是用的linrongcheng大佬的想法来做的特征,包括视频帧/音频/文字,大佬说其实还是视频特征最重要,影响很大,而音频反而区分度不大,文字特征似乎没有见lin大佬提及,且不管,先按照lin大佬的做一下特征提取。【据我所知lin大佬的想法与TSM应该差不多是同一时期,且后者可能还是...原创 2020-03-13 01:27:12 · 848 阅读 · 0 评论 -
tensorflow中的正确率是怎么来的??
哈喽,大家好,今天周一,距离年会还有5天,距离回家还有10天,距离返程还有17天。。。。。。。。在tf模型中一般都有acc的计算,无非就是最后一层softmax,然后取argmax,然后判等即可,说起来容易,现场写代码估计大多数都会懵逼,真的是“纸上得来终觉浅,绝知此事要躬行”一般是如下:1-对logits取softmax2-取argmax3-与ground_truth判等...原创 2020-01-13 11:59:21 · 2063 阅读 · 0 评论 -
视频高层特征分类实际测试
接上一篇:https://blog.csdn.net/SPESEG/article/details/103875916用的抖音的视频数据,测试找来的我司视频,看看效果如何。策略:随机抽帧20~40帧,堆叠所有帧,按照index选帧,然后整体进入inceptionV3模型,再进入分类模型,没啥技术含量。概率作为相似程度,可以这么理解。但我估计效果并不会很好。考虑到时间,如果能有什么快...原创 2020-01-13 14:43:17 · 599 阅读 · 0 评论 -
MNIST数据相似度query
嗨,我是人间人爱花见花开的百变大魔王探花小明哥GBM。这个其实在另一篇博文中已经提及,这里再尝试run几次看看。搜索的数据得到的结果的标签应该是相同的,在数据库中的标签数据大于topk的情况下。query data id 355, label 1result: {1574, 1579, 1611, 1614, 1615, 178, 179, 180, 182, 184, 185,...原创 2020-01-13 09:19:04 · 862 阅读 · 0 评论 -
query保存的索引——batch与否是否影响?
这个思维与这篇博文类似,都是菜鸟思维。在KNN保存index之前是否一定要进行一次尝试搜索,此搜索的作用是什么?这个搜索是单个数据与batch数据有区别吗??下面以MNIST数据作为例子来看:1-是否需要一次搜索??尝试不搜索保存下index试试,对比前后结果是否一致。先进行了PCA保存为20D,没有尝试搜索,直接保存index。加载index并进行单个数据的query,已知数...原创 2020-01-12 22:34:16 · 591 阅读 · 0 评论 -
视频随机特征聚类
接上一篇,这是第二个2将我司部分视频按照随机index进行抽帧,然后得到inceptionV3 2048avg features2.1降低维度,采用上一篇的方法PCA或者试试其他方法LDA??【其实LDA线性判别分析是我在听很多大佬报告时经常听到的,说明经常去听报告还是有好处的,一为认识大佬,混个脸熟;二为交流学问,增长见识;三为混吃混喝,但基本上路费都吃不回来,尴尬;四为相亲,哈哈,...原创 2020-01-10 18:12:55 · 738 阅读 · 0 评论 -
视频动作相似性或仅仅是图像的相似性?
哈喽,大家好,我是人见人爱,花见花开的小明哥。视频内容的理解并不容易,语义在人看来是很容易做到的,而网络没有人脑那么大的容量,肯定比不上人。之前提取的视频特征其实说实话是图像特征,我之前也有提到,并没有动作的识别或理解。请充值查看完整版!!但用户其实也并不是太在意是否真的是有某个...原创 2020-01-10 10:23:25 · 5287 阅读 · 0 评论 -
人脸验证1:1——用现有库做
哈喽,我是菜鸟小明哥。今天遇到个问题,其实这个问题存在已久了,就是简单的人脸验证,1:1识别,我觉得这是个基本问题,应用场景广泛,如果这个都没有做过,岂不是很笨,很尴尬。所以今天还是用现有的库做一下。1-人脸检测这个可能是必备的,dlib及MTCNN都有库,直接调用即可实现,简直不要太好用。2-人脸编码这个问题与NLP处理是相似的过程,文本转成向量,这里是人脸变成向量,当然人脸...原创 2020-01-09 15:35:48 · 622 阅读 · 0 评论 -
视频特征再分类??试试看
哈喽,接上一篇:https://blog.csdn.net/SPESEG/article/details/103871268如果说,上面的效果不好,那也没办法,我先试试二分类。对,就是拿inceptionV3的特征直接输入,搞几层CNN试试,或者就是几层dense也行。且看效果如何?【我能说C3D的模型真的很慢吗?242个视频现在还没处理完,卧槽,思路:每16帧均进行预测,步长也是16】...原创 2020-01-07 19:45:11 · 1500 阅读 · 0 评论 -
视频特征提取与PCA&t-SNE
哈喽,大家好。我是人间人爱,花见花开的小明哥。【很多妹子都沉迷我的才华,而无法相信我还是这么帅,哈哈】正文:持续更新中。。。敬请期待视频抽帧是否一定要每秒抽一帧,还是随机选帧,还是固定每个视频固定选取30帧,这个到底有多大的影响??1-每秒抽一帧,cap得到fps,则固定间隔,最后的帧数与时长相同,比如1min,那就是60帧;2-随机选取,纯粹随机选取30帧,random产生随...原创 2020-01-07 15:36:14 · 1691 阅读 · 0 评论 -
TSM视频测试之k400
哈喽,各位小粉丝,我是你们挚爱的小明哥,事无巨细,事必躬亲,身体力行。别人都是跑网络,而我看细节及实现落地。k400动作有的并不符合国人的习惯或者行为,所以我估计效果并不会太好,且看测试效果。996开始,从此相逢是路人。再见!帧级别整体测试:与有DataLoader的一样结果204131290317266373132采用的是如下模型TSM_kinetics_...原创 2020-01-03 17:43:05 · 1289 阅读 · 0 评论