walk walk-CSDN博客

原创免费爬虫软件“HyperlinkCollector超链采集器v0.2”

csdn下载地址：https://download.csdn.net/download/dongtest/89730221。1.优化了预览页面中通过鼠标划取获取xpath和css选择器的功能。2.增加了数据导出到csv格式文件。采集软件更新了以下功能。

2024-09-23 10:14:34 628

原创在pyside的QWebEngineView中和javascript通信方法

pyside2中可以使用QtWebChannel 使QWebEngineView和前端页面的javasccript通信。

2024-09-14 13:42:15 292

原创 python打包工具Nuitka使用介绍

首先说一下，为什么我选择Nuitka而不是pyinstaller？Nuitka相对pyinstaller有以下优点：1. Nuitka能够对 Python 代码进行深度分析，并在此基础上生成优化后的 C 语言代码会针对生成的 C 代码进行更多的优化，这意味着生成的可执行文件可能运行得更快。2. Nuitka对 Python 代码有更深入的理解，它可以更好地跟踪变量和优化代码，包括去除未使用的代码路径等。这有助于减小最终二进制文件的大小。3. 增加反编译难度。

2024-09-14 13:40:07 1231

原创免费爬虫软件“HyperlinkCollector超链采集器v0.1”

我这里以css选择器为例，点击“获取css选择器”之后，弹出窗口中，显示了包含所选内容的所有”css选择器名称”，这里可以对给出的css选择器进行测试，我们选择其中一个对应的。点击切换到“预览”标签，这里显示的是内容页url的预览，可以鼠标划取要抓取的内容部分，比如我们要抓取文章内容，我们可以只划取内容开头的一段文字，这时候会弹出一个快捷菜单，可以获取所选内容的xpath或者css选择器名称。创建好项目后，我们右键选择一个起始页，然后选择“抓取测试”，运行后，会在下面显示抓取到的url。

2024-09-11 12:49:06 1129

原创 uni-app中使用富文本rich-text个人经验

不过我建议用数组节点，后端将富文本处理为节点数组返回给前端，这样有两个好处，一是前端处理起来比较方便，另外一点就是性能问题，后端处理好之后，前端直接使用数组，性能会更好。不过要将一段HTML富文本处理成节点数组，对后端来说，也是比较麻烦的，如果使用PHP，可使用PHP DOMDocument，参考我前面的例子。然后再说一下事件处理itemclick，我们可以使用这个事件实现对rich-text里面的节点内容进行处理，不过只能处理a和img标签，这个上面官方文档已经说明。处理，java可以使用。

2024-06-19 14:31:33 2717

原创视频网站下载利器yt-dlp参数详解

上面命令将下载播放列表 “PL12345” 中的所有视频（1080格式），并将其保存在 “PL12345” 文件夹中，文件名格式为 “视频 ID-视频标题.mp4″。上面命令是下载最佳视频和音频质量，并下载字幕。

2024-06-15 20:22:00 3878 1

原创利用Morph Studio平台免费生成AI视频教程和效果体验

重要的是，可以生成几个短视频，然后将这几个短视频合并成一个视频，导出。不过免费的，生成时间要排队有点慢。然后点击刚刚创建的Library，在对话框输入文字，或者选择上传图片，上传视频。体验一下免费生成AI视频平台，虽然是免费的，但生成效果还是不错的。根据不同需求，选择文本生成视频，图片生成视频，还是视频生成视频。如果没注册的话，需要注册一下，可以用google账号一键注册。可以选择生成时间3秒最长到10秒，不过10秒很慢。访问官网www.morphstudio.com/因为国外站点，访问可能需要梯子。

2024-06-14 13:13:35 581

原创值得收藏的Linux 权限管理命令详解

Linux 的文件权限分为三类：用户（User），组（Group），和其他人（Others）。每类权限又分为三种：读取（Read），写入（Write），和执行（Execute）。文件权限用一个九位数的字符串来表示，例如rwxr-xr--，可以使用list -l命令查看。权限管理主要涉及了chmod，chown，chgrp，umask，setfacl，getfacl，su等几个命令。

2024-06-14 08:03:27 843

原创使用PyMuPDF程序处理PDF

MuPDF 是一个 C/C++ 编写的跨平台 PDF 库，它提供强大的功能来处理 PDF 文件，包括提取文本、图像和元数据，以及支持PDF页面的添加、删除和旋转。PyMuPDF 是 MuPDF 的 Python 版本，允许 Python 程序使用 MuPDF 的强大功能。首先，确保已经安装了PyMuPDF库。关于更多使用PyMuPDF方法可以参考官方手册。或者mupdf的官方文档。打开和读取 PDF 文件。提取PDF文本和图像。转换 PDF 为图像。

2024-06-12 21:04:10 724

原创使用Ollama简单部署本地Qwen2

Ollama 是一个开源的、本地运行的 AI 聊天模型，允许在自己的设备上运行 LLM，无需依赖云服务。运行完成后就可以和大模型对话了，不过ollama 只有命令行模式运行，这里我下载了chatbox软件来运行，打开软件模型设置选择ollama 以及对应的ollama模型。windows下选择exe ，然后运行安装，安装完成后。1.5b就是对应安装Qwen2 1.5b大模型，如果使用7b 就是 ollama run qwen2:7b。首先安装ollama，访问官网下载 ollama 对应版本。

2024-06-11 19:56:17 3596 1

原创 nginx安装和配置ModSecurity

通过以上步骤，我们在 Nginx 上安装和配置 ModSecurity，可以增强Web 服务器的安全性。ModSecurity 强大的规则集和灵活的配置选项，对安全防护最重要的就是规则，所以一定要定期审查日志，根据需要调整配置，适时更新规则集，以保持最佳的安全状态。OWASP 提供了一组常用的 ModSecurity 核心规则 (CRS)，可以有效地防御许多常见的 Web 攻击。这里我禁止了对/tmp目录的访问，但允许/tmp后面加字母和数字的目录，比如/tmpabc，是允许的，主要是防止误杀。

2024-06-11 11:14:06 1754 1

原创 Elasticsearch中各种query的适用场景

选择合适的 Query 类型取决于具体的搜索需求，建议根据数据结构和搜索目的选择合适的 Query 类型，以提高查询效率和准确性。希望本文能帮助你更好地理解 Elasticsearch 中的 Query 类型，并灵活运用这些 Query 类型进行高效的搜索。Elasticsearch 提供了丰富的 Query 类型，以满足各种搜索需求。这两个query可以根据条件构建定制化的查询条件。

2024-06-09 10:20:17 1214

原创 Thinkphp使用Elasticsearch查询

ONGR ElasticsearchDSL 提供了一种更灵活、更易于维护的 Elasticsearch 查询构建方式，将复杂的 API 操作抽象为简洁的 DSL 语法。本文将深入探讨如何利用 ONGR ElasticsearchDSL 库构建 ES 查询，并实现高效、灵活的数据检索。上面代码主要使用 BoolQuery 构建了多条件查询，使用 ONGR ElasticsearchDSL 库构建 ES 查询更易于阅读和修改，提高代码可维护性。安装完成后就是在thinkphp项目中使用。

2024-06-07 19:31:41 1441

原创阿里最新大模型Qwen2-72B-Instruct 开源体验

Qwen2 是 Qwen 大型语言模型的新系列。对于 Qwen2，我们发布了许多基础语言模型和指令调优语言模型，范围从 0.5 到 720 亿个参数，包括专家混合模型。此存储库包含指令调整的 72B Qwen2 模型。与之前发布的 Qwen1.5 等最先进的开源语言模型相比，Qwen2 总体上超越了大多数开源模型，并在语言理解、语言生成、多语言能力、编码、数学、推理等一系列基准测试中表现出了与专有模型的竞争力。

2024-06-07 13:42:50 7952 2

原创智谱AI最新开源模型CHATGLM4-9B试用

具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中，GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。之前已开源chatglm1到chatglm3，相比前面开源的相比GLM3-6B有了大幅度提升。模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。，多模态版GLM-4V-9B，长文本版。

2024-06-07 09:03:00 1387

原创 YT-DLP 超好用的开源视频下载工具

你可以在https://github.com/yt-dlp/yt-dlp/blob/master/supportedsites.md中查看所有支持的站点。当然你不需要定制化，也可以直接下载官网的exe文件https://github.com/yt-dlp/yt-dlp/releases/latest/download/yt-dlp.exe。从https://github.com/yt-dlp/yt-dlp下载最新版本 yt-dlp-master.zip 并解压。回车后，程序就会自动下载对应的视频。

2024-06-06 16:13:25 6824 1

原创 nginx中配置ssl证书(宝塔面板)

将下载的zip文件解压后，把里面的证书文件，上传到服务器，这里我用的宝塔面板，对应的路径为/www/server/panel/vhost/cert/你的域名/ ,上传好之后，修改nginx配置。另外为了兼容宝塔面板的操作，保存后可以在nginx配置菜单中选择“ssl ”=> “其他证书” 然后填写上key和证书内容。里面内容就是填写，你的域名.pem 和你的域名 .key两个文件里的值（用记事本打开，复制过来就可以）然后点击joyssl的左侧菜单的“证书管理”，在证书列表中下载配置好的证书。

2024-06-05 19:59:15 1319 1

原创 AppStore搜索优化方法(ASO)

通过官方描述我们可以总结到影响搜索结果的几个因素：文本的关联度包括：App的标题，和关键词，以及分类，另外还有App的下载量，以及评分和评论，另外还有适当的更新频率。关键词研究：使用 Apple 提供的关键词工具（如 App Store Connect 的搜索分析），以及第三方工具（如 App Annie、Sensor Tower），分析你的目标用户可能使用的关键词。关键词列表：在 App Store Connect 中填写详细的关键词列表，包含主要关键词、长尾关键词和相关关键词。

2024-06-04 09:43:19 557

原创网易有道QAnything使用CPU模式和openAI接口安装部署

修改qanything_kernel/connector/llm/llm_for_openai_api.py程序中top_p参数值，否则运行qwen模型会报错。本机环境windows11 首先安装WSL环境, 安装方法参考https://zhuanlan.zhihu.com/p/671942941。修改scripts/run_for_openai_api_with_cpu_in_Linux_or_WSL.sh中对应的参数。安装好WSL环境后，启动WSL安装的ubuntu，下面安装git和git-lfs。

2024-06-02 07:54:22 1933 2

原创网易有道多格式文档知识库QAnything

试用了一下效果还是不错的，前提是要先搭一个本地大模型，官方使用的是阿里通义千问，大模型的好坏会直接影响问答结果，个人推荐千问72B 或110B，所以本地化部署对硬件要求也是比较高，或者qwen1.5 32B也可以，qwen7b的效果稍微差一些。目前已支持格式: PDF，Word(doc/docx)，PPT，Markdown，Eml，TXT，图片（jpg，png等），网页链接，更多格式，敬请期待…支持海量数据问答，两阶段向量排序，解决了大规模数据检索退化的问题，数据越多，效果越好。

2024-06-01 07:28:00 758

原创安装WordPress

将文件wp-config-sample.php重命名为 wp-config.php ,修改对应DB_NAME DB_USER DB_USER DB_HOST DB_CHARSET 为你的数据库对应值。第4步将 WordPress 文件放在根目录中，运行安装向导： https://example.com/wp-admin/install.php。第 2 步：创建数据库比如数据库名称为wordpress，编码格式为 utf8mb4_general_ci。第 1 步：下载并解压。

2024-05-29 06:04:21 504

原创使用logstash同步mysql 到es

然后编写Logstash配置文件logstash.conf,注意mysql表一定要有主键，而且有更新时间字段。编写对应的模板文件/opt/logstash/template.json。最后启动logstash，我们使用后台启动。下载安装Logstash。

2024-05-23 13:50:35 564 1

原创 nuxt创建VUE项目提示cb() never called!

如果没有NVM可以先安装https://github.com/coreybutler/nvm-windows/releases。nuxt创建项目提示cb() never called!错误原因可能为 node 版本和nuxt创建的项目部匹配。nuxt1对应VUE2 ，nuxt2对应VUE3。升级NODE可使用NVM版本管理软件。查看可以使用的NODE版本列表。在创建项目时指定，VUE的版本。解决办法1：升级node。

2024-04-17 09:10:15 343 1

原创 npm镜像代理等配置的终极修改方法

通过创建或编辑.npmrc文件，可以自定义npm的一些行为和设置。通常包含一些键值对来对应配置项。比如，可以设置registry来更换npm镜像源，也可以设置proxy和https-proxy来配置代理服务器用于网络请求等。在命令行中可以输入：npm config get userconfig。npm的镜像相关是存储在.npmrc文件的。查看.npmrc文件所在的位置。

2024-04-17 09:00:14 768

原创 ERESOLVE overriding peer dependency npm install错误

legacy-peer-deps命令用于绕过peerDependency里依赖的自动安装；它告诉npm忽略项目中引入的各个依赖模块之间依赖相同但版本不同的问题，以npm v3-v6的方式去继续执行安装操作。该命令不是真的解决冲突，而是忽略了冲突。错误提示 npm ERR!根据提示解决办法之一 npm i --legacy-peer-deps。

2024-04-16 06:27:37 1690

原创 PHP 转换HTML 为节点数组，可用于uni-app的rich-text渲染

PHP DOMDocument类是一个强大的工具，可以将HTML转换为可操作的对象结构，本文将介绍一下使用PHP的DOMDocument类将HTML转换为节点数组的过程。htmlToNodes函数将HTML字符串作为输入，并返回一个包含HTML文档结构的嵌套数组。通过这个函数，可以便捷地处理HTML内容，无论是进行网页爬虫、内容管理还是构建复杂的Web应用程序，都能大大提高开发效率和灵活性。通过将HTML转换为节点数组，可以轻松地遍历这些内容，对其进行定制化的渲染和处理。

2024-04-11 20:36:51 366

原创 CSS简单给表格加上细边框

只需要在css 中加上以下CSS。或者只针对某个CSS。

2024-04-05 07:33:58 759

原创解决采集时使用selenium被屏蔽的办法

UC模式是基于undetected-chromedriver 但做了一些优化更新，使用起来更方便。关于seleniumbase 更多,请参考官方文档。解决采集时使用selenium被屏蔽的办法。实用seleniumbase uc模式。

2024-02-21 12:41:11 704 1

原创 python读取并解析邮件

很久以前写的还是 python2.7的。

2024-01-24 14:00:39 688 1

原创 python logging 使用kafka进行日志收集

kafka日志处理类。

2024-01-24 12:08:34 540 1

原创 MinHashLSH使用redis存储

也可以将datasketch中的lsh.py和storage.py复制到自己程序目录下修改，避免影响其他程序。datasketch自带的redis存储是没有设置有效期的，如果需要添加有效期，需要修改它的源代码。修改storage.py文件中_insert 函数，有两处,大于在1039和1084行左右。

2024-01-24 10:29:37 698

原创 selenium采集后Win平台下结束chrome进程的方法

【代码】selenium采集后Win平台下结束chrome进程的方法。

2024-01-24 09:44:48 503

原创 python笔记

2.正则特殊符号转义函数re.escape。1.采集函数：根据前后字符串从内容中截取。

2024-01-24 09:19:55 349

原创 selenium的Chrome116版驱动下载

选择chromedriver 对应的平台和版本https://download.csdn.net/download/dongtest/88314387为帮助您在CSDN创作的文章获得更多曝光和关注，我们为您提供了专属福利：已注册且未在CSDN平台发布过文章的用户，9月1日—9月30日期间发布首篇文章可享大额首篇流量券扶持，且发布首篇文章后30日内，享连续每日流量券扶持；已注册且未在CSDN平台发布过文章的用户，在8月1日—8月30日期间发布过首篇，可自9月1日起，享连续30天每日流量券扶持；更多福利介

2023-09-08 17:35:09 781

原创 tf.compat.v1.estimator.tpu.TPUEstimator参数说明

tf.compat.v1.estimator.tpu.TPUEstimator 参数

2022-09-20 11:45:44 1214

原创 spark-submit的一些参数

–master spark://masterhost:7077 #指定主服务器名称和端口–executor-memory 6G executor内存相当于Xmx=6G–executor-cores 4 启动4个核–driver-memory 1G 每个driver1G内存 ,因为有4个core，所以总使用就是1*4G存–conf spark.default.parallelism=10...

2019-11-19 15:00:58 377

原创 spark集群在windows下搭建

我用三台windows电脑,主机名和 ip对应如下:（右键我的计算机属性修改计算机名分别为:win-master,win-salver1,win-salver2）win-master 192.168.0.1win-salve1 192.168.0.2win-salve2 192.168.0.3每台电脑安装好对应的软件，建议安装目录保持一致1.下载java:https://www....

2019-11-18 15:11:04 2562 2

原创 python 转换中文为json时 ensure_ascii设置为False

因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=Falseimport jsonprint json.dumps(‘中文’,ensure_ascii=False)

2019-09-17 18:01:40 2991

原创 pyspark使用指定版本的python

系统中同时装了python2 和python3，如何让spark使用指定的python?只要在系统中设定一个环境变量PYSPARK_PYTHON 把该环境变量指向对应的python即可。比如我在windows中添加一个系统环境变量PYSPARK_PYTHON 然后把值指向d:\python3...

2019-07-12 10:47:27 4743 1

原创 sklearn聚类之kmeans以及增量聚类

使用kmeans聚类时，计算量往往都比较大，当有新的数据要添加到现有类别时，怎么做呢使用sklearn简单做法就是训练时把模型保存，增量时加载模型，用predict预测就好了。前提条件是新数据和训练时的特征要一致，比如在训练时使用的分词idf，把所有分词idf的词典保存下来，对于新的增量数据，调用该词典。#聚类类别数 k_num = 50 mydatas = [] #加载数据,每一条...

2019-07-12 10:33:40 5257 1

HyperlinkCollector爬虫v0.2

v0.2更新优化了预览页通过鼠标划取获取xpath和css选择器功能增加数据导出到csv文件用pyside2和selenium开发的一个windows平台的爬虫软件, ,您可以免费使用，不过很多功能还有待完善。软件运行环境：window10 使用步骤，启动软件，运行app目录中的HyperlinkCollector.exe 采集流程：然后创建一个项目，主要是填写起始页地址和项目名称。大多数情况下的采集流程是一级列表页，也就是先采集列表列，通过列表获取内容页URL，再采集内容字段。在创建项目后,在采集URL文本框中，右键选中一个起始页URL，然后选中“抓取测试”。然后测试页结果会显示一些获取的URL，在右边规则中设置符合的规则。然后，对其中一条列表URL右键，然后选中“抓取测试”，设置采集内容字段

2024-09-09

TA关注的人

HyperlinkCollector爬虫v0.2

selenium的Chrome116版驱动下载

中文Mastering Machine Learning With scikit-learn

PHP5.2、5.3、5.4、5.5、5.6的php memcache dll扩展

hadoop2.7.3 在windows下需要的hadoop.dll winutils.exe等文件

PornDetector

oembios 升级到sp3时验证需要的5个文件

SPARK_MLLIB机器学习.zip

myeclipse 5.5.1 注册机

tomcat设置为4g内存后不能启动？

使用ehcache设置的内存是算在tomcat里吗

如何在get方式中，参数为url编码格式和中文时都能正常显示?