- 博客(121)
- 资源 (7)
- 问答 (3)
- 收藏
- 关注
原创 免费爬虫软件“HyperlinkCollector超链采集器v0.2”
csdn下载地址:https://download.csdn.net/download/dongtest/89730221。1.优化了预览页面中 通过鼠标划取获取xpath和css选择器的功能。2.增加了数据导出到csv格式文件。采集软件更新了以下功能。
2024-09-23 10:14:34
617
原创 在pyside的QWebEngineView中和javascript通信方法
pyside2中可以使用QtWebChannel 使QWebEngineView和前端页面的javasccript通信。
2024-09-14 13:42:15
264
原创 python打包工具Nuitka使用介绍
首先说一下,为什么我选择Nuitka而不是pyinstaller?Nuitka相对pyinstaller有以下优点:1. Nuitka能够对 Python 代码进行深度分析,并在此基础上生成优化后的 C 语言代码会针对生成的 C 代码进行更多的优化,这意味着生成的可执行文件可能运行得更快。2. Nuitka对 Python 代码有更深入的理解,它可以更好地跟踪变量和优化代码,包括去除未使用的代码路径等。这有助于减小最终二进制文件的大小。3. 增加反编译难度。
2024-09-14 13:40:07
1167
原创 免费爬虫软件“HyperlinkCollector超链采集器v0.1”
我这里以css选择器为例,点击“获取css选择器”之后,弹出窗口中,显示了包含所选内容的所有”css选择器名称”,这里可以对给出的css选择器进行测试,我们选择其中一个对应的。点击切换到“预览”标签,这里显示的是内容页url的预览 ,可以鼠标划取要抓取的内容部分,比如我们要抓取文章内容,我们可以只划取内容开头的一段文字,这时候会弹出一个快捷菜单,可以获取所选内容的xpath或者css选择器名称。创建好项目后,我们右键选择一个起始页,然后选择“抓取测试”,运行后,会在下面显示抓取到的url。
2024-09-11 12:49:06
1111
原创 uni-app中使用富文本rich-text个人经验
不过我建议用数组节点,后端将富文本处理为节点数组返回给前端,这样有两个好处,一是前端处理起来比较方便 ,另外一点就是性能问题,后端处理好之后,前端直接使用数组,性能会更好。不过要将一段HTML富文本处理成节点数组,对后端来说,也是比较麻烦的,如果使用PHP,可使用PHP DOMDocument,参考我前面的例子。然后再说一下事件处理itemclick,我们可以使用这个事件实现对rich-text里面的节点内容进行处理,不过只能处理a和img标签,这个上面官方文档已经说明。处理,java可以使用。
2024-06-19 14:31:33
2409
原创 视频网站下载利器yt-dlp参数详解
上面命令将下载播放列表 “PL12345” 中的所有视频(1080格式),并将其保存在 “PL12345” 文件夹中,文件名格式为 “视频 ID-视频标题.mp4″。上面命令是下载最佳视频和音频质量,并下载字幕。
2024-06-15 20:22:00
3605
1
原创 利用Morph Studio平台免费生成AI视频教程和效果体验
重要的是,可以生成几个短视频,然后将这几个短视频合并成一个视频,导出。不过免费的,生成时间要排队 有点慢。然后点击刚刚创建的Library,在对话框输入文字,或者选择上传图片,上传视频。体验一下免费生成AI视频平台,虽然是免费的,但生成效果还是不错的。根据不同需求,选择文本生成视频,图片生成视频,还是视频生成视频。如果没注册的话,需要注册一下,可以用google账号一键注册。可以选择生成时间3秒 最长到10秒,不过10秒很慢。访问官网www.morphstudio.com/因为国外站点,访问可能需要梯子。
2024-06-14 13:13:35
554
原创 值得收藏的Linux 权限管理命令详解
Linux 的文件权限分为三类:用户(User),组(Group),和其他人(Others)。每类权限又分为三种:读取(Read),写入(Write),和执行(Execute)。文件权限用一个九位数的字符串来表示,例如rwxr-xr--,可以使用list -l命令查看。权限管理主要涉及了chmod,chown,chgrp,umask,setfacl,getfacl,su等几个命令。
2024-06-14 08:03:27
819
原创 使用PyMuPDF程序处理PDF
MuPDF 是一个 C/C++ 编写的跨平台 PDF 库,它提供强大的功能来处理 PDF 文件,包括提取文本、图像和元数据,以及支持PDF页面的添加、删除和旋转。PyMuPDF 是 MuPDF 的 Python 版本,允许 Python 程序使用 MuPDF 的强大功能。首先,确保已经安装了PyMuPDF库。关于更多使用PyMuPDF方法可以参考官方手册。或者mupdf的官方文档。打开和读取 PDF 文件。提取PDF文本和图像。转换 PDF 为图像。
2024-06-12 21:04:10
678
原创 使用Ollama简单部署本地Qwen2
Ollama 是一个开源的、本地运行的 AI 聊天模型,允许在自己的设备上运行 LLM,无需依赖云服务。运行完成后就可以和大模型对话了,不过ollama 只有命令行模式运行,这里我下载了chatbox软件来运行,打开软件 模型设置选择ollama 以及 对应的ollama模型。windows下选择exe ,然后运行安装,安装完成后。1.5b就是对应安装Qwen2 1.5b大模型,如果使用7b 就是 ollama run qwen2:7b。首先安装ollama, 访问官网 下载 ollama 对应版本。
2024-06-11 19:56:17
3503
1
原创 nginx安装和配置ModSecurity
通过以上步骤,我们在 Nginx 上安装和配置 ModSecurity,可以增强Web 服务器的安全性。ModSecurity 强大的规则集和灵活的配置选项,对安全防护最重要的就是规则,所以一定要定期审查日志,根据需要调整配置,适时更新规则集,以保持最佳的安全状态。OWASP 提供了一组常用的 ModSecurity 核心规则 (CRS),可以有效地防御许多常见的 Web 攻击。这里我禁止了对/tmp目录的访问,但允许/tmp后面加字母和数字的目录,比如/tmpabc,是允许的,主要是防止误杀。
2024-06-11 11:14:06
1573
1
原创 Elasticsearch中各种query的适用场景
选择合适的 Query 类型取决于具体的搜索需求,建议根据数据结构和搜索目的选择合适的 Query 类型,以提高查询效率和准确性。希望本文能帮助你更好地理解 Elasticsearch 中的 Query 类型,并灵活运用这些 Query 类型进行高效的搜索。Elasticsearch 提供了丰富的 Query 类型,以满足各种搜索需求。这两个query可以根据条件构建定制化的查询条件。
2024-06-09 10:20:17
1179
原创 Thinkphp使用Elasticsearch查询
ONGR ElasticsearchDSL 提供了一种更灵活、更易于维护的 Elasticsearch 查询构建方式,将复杂的 API 操作抽象为简洁的 DSL 语法。本文将深入探讨如何利用 ONGR ElasticsearchDSL 库构建 ES 查询,并实现高效、灵活的数据检索。上面代码主要使用 BoolQuery 构建了多条件查询,使用 ONGR ElasticsearchDSL 库构建 ES 查询 更易于阅读和修改,提高代码可维护性。安装完成后就是在thinkphp项目中使用。
2024-06-07 19:31:41
1407
原创 阿里最新大模型Qwen2-72B-Instruct 开源体验
Qwen2 是 Qwen 大型语言模型的新系列。对于 Qwen2,我们发布了许多基础语言模型和指令调优语言模型,范围从 0.5 到 720 亿个参数,包括专家混合模型。此存储库包含指令调整的 72B Qwen2 模型。与之前发布的 Qwen1.5 等最先进的开源语言模型相比,Qwen2 总体上超越了大多数开源模型,并在语言理解、语言生成、多语言能力、编码、数学、推理等一系列基准测试中表现出了与专有模型的竞争力。
2024-06-07 13:42:50
7811
2
原创 智谱AI最新开源模型CHATGLM4-9B试用
具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。之前已开源chatglm1到chatglm3,相比前面开源的相比GLM3-6B有了大幅度提升。模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。, 多模态版GLM-4V-9B, 长文本版。
2024-06-07 09:03:00
1362
原创 YT-DLP 超好用的开源视频下载工具
你可以在https://github.com/yt-dlp/yt-dlp/blob/master/supportedsites.md中查看所有支持的站点。当然你不需要定制化,也可以直接下载官网的exe文件https://github.com/yt-dlp/yt-dlp/releases/latest/download/yt-dlp.exe。从https://github.com/yt-dlp/yt-dlp下载最新版本 yt-dlp-master.zip 并解压。回车后,程序就会自动下载对应的视频。
2024-06-06 16:13:25
6197
1
原创 nginx中配置ssl证书(宝塔面板)
将下载的zip文件解压后,把里面的证书文件,上传到服务器,这里我用的宝塔面板,对应的路径为/www/server/panel/vhost/cert/你的域名/ ,上传好之后,修改nginx配置。另外为了兼容宝塔面板的操作,保存后可以在nginx配置菜单中选择“ssl ”=> “其他证书” 然后填写上key和证书内容。里面内容就是填写,你的域名.pem 和 你的域名 .key两个文件里的值(用记事本打开,复制过来就可以)然后点击joyssl的左侧菜单的“证书管理”,在证书列表中下载配置好的证书。
2024-06-05 19:59:15
1243
1
原创 AppStore搜索优化方法(ASO)
通过官方描述我们可以总结到影响搜索结果的几个因素:文本的关联度包括:App的标题,和关键词,以及分类,另外还有App的下载量,以及评分和评论,另外还有适当的更新频率。关键词研究: 使用 Apple 提供的关键词工具(如 App Store Connect 的搜索分析),以及第三方工具(如 App Annie、Sensor Tower),分析你的目标用户可能使用的关键词。关键词列表: 在 App Store Connect 中填写详细的关键词列表,包含主要关键词、长尾关键词和相关关键词。
2024-06-04 09:43:19
509
原创 网易有道QAnything使用CPU模式和openAI接口安装部署
修改qanything_kernel/connector/llm/llm_for_openai_api.py程序中top_p参数值,否则运行qwen模型会报错。本机环境windows11 首先安装WSL环境, 安装方法参考https://zhuanlan.zhihu.com/p/671942941。修改scripts/run_for_openai_api_with_cpu_in_Linux_or_WSL.sh中对应的参数。安装好WSL环境后,启动WSL安装的ubuntu,下面安装git和git-lfs。
2024-06-02 07:54:22
1902
2
原创 网易有道多格式文档知识库QAnything
试用了一下效果还是不错的,前提是要先搭一个本地大模型,官方使用的是阿里通义千问,大模型的好坏会直接影响问答结果,个人推荐千问72B 或110B, 所以本地化部署对硬件要求也是比较高,或者qwen1.5 32B也可以,qwen7b的效果稍微差一些。目前已支持格式: PDF,Word(doc/docx),PPT,Markdown,Eml,TXT,图片(jpg,png等),网页链接,更多格式,敬请期待…支持海量数据问答,两阶段向量排序,解决了大规模数据检索退化的问题,数据越多,效果越好。
2024-06-01 07:28:00
726
原创 安装WordPress
将文件wp-config-sample.php重命名为 wp-config.php ,修改对应DB_NAME DB_USER DB_USER DB_HOST DB_CHARSET 为你的数据库对应值。第4步 将 WordPress 文件放在根目录中,运行安装向导: https://example.com/wp-admin/install.php。第 2 步:创建数据库 比如数据库名称为wordpress,编码格式为 utf8mb4_general_ci。第 1 步:下载并解压。
2024-05-29 06:04:21
490
原创 使用logstash同步mysql 到es
然后编写Logstash配置文件logstash.conf,注意mysql表一定要有主键,而且有更新时间字段。编写对应的模板文件/opt/logstash/template.json。最后启动logstash,我们使用后台启动。下载安装Logstash。
2024-05-23 13:50:35
552
1
原创 nuxt创建VUE项目提示cb() never called!
如果没有NVM可以先安装https://github.com/coreybutler/nvm-windows/releases。nuxt创建项目提示cb() never called!错误原因可能为 node 版本和nuxt创建的项目部匹配。nuxt1对应VUE2 ,nuxt2对应VUE3。升级NODE可使用NVM版本管理软件。查看可以使用的NODE版本列表。在创建项目时指定,VUE的版本。解决办法1:升级node。
2024-04-17 09:10:15
337
1
原创 npm镜像代理等配置的终极修改方法
通过创建或编辑.npmrc文件,可以自定义npm的一些行为和设置。通常包含一些键值对来对应配置项。比如,可以设置registry来更换npm镜像源,也可以设置proxy和https-proxy来配置代理服务器用于网络请求等。在命令行中可以输入:npm config get userconfig。npm的镜像相关是存储在.npmrc文件的。查看.npmrc文件所在的位置。
2024-04-17 09:00:14
756
原创 ERESOLVE overriding peer dependency npm install错误
legacy-peer-deps命令用于绕过peerDependency里依赖的自动安装;它告诉npm忽略项目中引入的各个依赖模块之间依赖相同但版本不同的问题,以npm v3-v6的方式去继续执行安装操作。该命令不是真的解决冲突,而是忽略了冲突。错误提示 npm ERR!根据提示解决办法之一 npm i --legacy-peer-deps。
2024-04-16 06:27:37
1666
原创 PHP 转换HTML 为节点数组 ,可用于uni-app的rich-text渲染
PHP DOMDocument类是一个强大的工具,可以将HTML转换为可操作的对象结构,本文将介绍一下使用PHP的DOMDocument类将HTML转换为节点数组的过程。htmlToNodes函数将HTML字符串作为输入,并返回一个包含HTML文档结构的嵌套数组。通过这个函数,可以便捷地处理HTML内容,无论是进行网页爬虫、内容管理还是构建复杂的Web应用程序,都能大大提高开发效率和灵活性。通过将HTML转换为节点数组,可以轻松地遍历这些内容,对其进行定制化的渲染和处理。
2024-04-11 20:36:51
355
原创 解决采集时使用selenium被屏蔽的办法
UC模式是基于undetected-chromedriver 但做了一些优化更新,使用起来更方便。关于seleniumbase 更多,请参考官方文档。解决采集时使用selenium被屏蔽的办法。实用seleniumbase uc模式。
2024-02-21 12:41:11
680
1
原创 MinHashLSH使用redis存储
也可以将datasketch中的lsh.py和storage.py复制到自己程序目录下 修改,避免影响其他程序。datasketch自带的redis存储是没有设置有效期的,如果需要添加有效期,需要修改它的源代码。修改storage.py文件中_insert 函数 ,有两处,大于在1039和1084行左右。
2024-01-24 10:29:37
661
原创 selenium的Chrome116版驱动下载
选择chromedriver 对应的平台和版本https://download.csdn.net/download/dongtest/88314387为帮助您在CSDN创作的文章获得更多曝光和关注,我们为您提供了专属福利:已注册且未在CSDN平台发布过文章的用户,9月1日—9月30日期间发布首篇文章可享大额首篇流量券扶持,且发布首篇文章后30日内,享连续每日流量券扶持;已注册且未在CSDN平台发布过文章的用户,在8月1日—8月30日期间发布过首篇,可自9月1日起,享连续30天每日流量券扶持;更多福利介
2023-09-08 17:35:09
775
原创 tf.compat.v1.estimator.tpu.TPUEstimator参数说明
tf.compat.v1.estimator.tpu.TPUEstimator 参数
2022-09-20 11:45:44
1205
原创 spark-submit的一些参数
–master spark://masterhost:7077 #指定主服务器名称和端口–executor-memory 6G executor内存 相当于Xmx=6G–executor-cores 4 启动4个核–driver-memory 1G 每个driver1G内存 ,因为有4个core,所以总使用就是1*4G存–conf spark.default.parallelism=10...
2019-11-19 15:00:58
367
原创 spark集群在windows下搭建
我用三台windows电脑,主机名 和 ip对应如下:(右键我的计算机 属性 修改计算机名分别为:win-master,win-salver1,win-salver2)win-master 192.168.0.1win-salve1 192.168.0.2win-salve2 192.168.0.3每台电脑安装好对应的软件,建议安装目录保持一致1.下载java:https://www....
2019-11-18 15:11:04
2535
2
原创 python 转换中文为json时 ensure_ascii设置为False
因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=Falseimport jsonprint json.dumps(‘中文’,ensure_ascii=False)
2019-09-17 18:01:40
2984
原创 pyspark使用指定版本的python
系统中同时装了python2 和python3,如何让spark使用指定的python?只要在系统中设定一个环境变量PYSPARK_PYTHON 把该环境变量指向对应的python即可。比如我在windows中添加一个系统环境变量PYSPARK_PYTHON 然后把值指向d:\python3...
2019-07-12 10:47:27
4714
1
原创 sklearn聚类之kmeans以及增量聚类
使用kmeans聚类时,计算量往往都比较大,当有新的数据要添加到现有类别时,怎么做呢使用sklearn简单做法就是训练时把模型保存,增量时加载模型,用predict预测就好了。前提条件是新数据和训练时的特征要一致,比如在训练时使用的分词idf,把所有分词idf的词典保存下来,对于新的增量数据,调用该词典。#聚类类别数 k_num = 50 mydatas = [] #加载数据,每一条...
2019-07-12 10:33:40
5209
1
HyperlinkCollector爬虫v0.2
2024-09-09
hadoop2.7.3 在windows下需要的hadoop.dll winutils.exe等文件
2016-12-05
中文Mastering Machine Learning With scikit-learn
2016-09-06
oembios 升级到sp3时验证需要的5个文件
2015-11-12
tomcat设置为4g内存后不能启动?
2010-03-08
使用ehcache设置的内存是算在tomcat里吗
2010-03-04
如何在get方式中,参数为url编码格式和中文时都能正常显示?
2008-11-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人