自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(186)
  • 收藏
  • 关注

原创 工程投标k值分析系统(需求和功能说明)

工程信息新增、修改 、名称、工程类别、所属地区、开标日期、控制价、基准价、暂列金、暂估价、加工材料、中标K值,招标k值等。同一历史工程K值分布 支持对自定义名次内的投标单位K值进行分析,并生成分布图,图中能突出显示K值集中的前20名所在区间。投标信息新增、修改 工程名称、公司、基准价起始估、基准价结束值、投标报价、投标信用分。信用分信息新增、修改 公司、类型、年份、季度、信用分。公司信息新增、修改、名称、统一社会信用码。新增、删除、修改企业/部门。用户新增、删除、修改。

2025-04-22 21:49:43 76

原创 App爬虫工具篇-mitmproxy

mitmproxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler、Charles 的功能,它通过控制台的形式和ui界面的方式此外,mitmproxy 还有两个关联组件,一个是 mitmdump,它是 mitmproxy 的命令行接口,利用它可以对接 Python 脚本,实现监听后的处理;另一个是 mitmweb,它是一个 Web 程序,通过它以清楚地观察到 mitmproxy 捕获的请求。

2025-04-22 21:39:58 365

原创 DeepSeek如何助力亚马逊爬虫工具的效率

之前写过几篇文章,我们通常会使用关键词去搜索商品或者商家信息,但是用什么关键词,用户常常拍脑袋。所以这篇文章结合实践,给大家讲解一下,如何利用大模型,如DeepSeek-R1(其他大模型,如ChatGPT也是类似的)。

2025-04-03 11:35:37 210

原创 应用篇| 抓包工具-charles的使用

上文说到,我们app爬虫要借助一些抓包工具,本节课就教大家如何使用抓包工具分析app的流量。抓包工具的使用是app爬虫的必修课。相比 Fiddler 来说,Charles 的功能更强大,而且跨平台支持更好。

2025-03-11 21:25:59 106

原创 数据篇| App爬虫入门(一)

App 的爬取相比 Web 端爬取更加容易,反爬虫能力没有那么强,而且数据大多是以 JSON 形式传输的,解析更加简单。在 Web 端,我们可以通过浏览器的开发者工具监听到各个网络请求和响应过程,在 App 端如果想要查看这些内容就需要借助抓包软件。我们可以通过设置代理的方式将手机处于抓包软件的监听之下,这样便可以看到 App 在运行过程中发生的所有请求和响应了,相当于分析 Ajax 一样。如果请求无法分析出来有规律,可以借用mitmdump 工具进行直接处理数据。

2025-03-11 15:48:56 620

原创 开源篇| 等不及Manus的邀请码......

其中最大2个插件,Claude厂商Anthropic去年上线的computer-use(操作电脑),以及YC投资的项目browser-use(操作浏览器),都给OpenManus提供了基础支持。这两个开源产品个人还没深入使用,大家可以快速使用在自己的业务场景(比如AI爬虫、文章多媒体发布),看是否能达到预期的目标。Manus 非常棒,但 OpenManus 无需邀请码即可实现任何创意, 他们来自MetaGPT 的团队成员,一个完全免费、无需排队等待的OpenManus。

2025-03-07 22:06:43 69

原创 应用篇| 全球首款通用AI Agent-Manus

无论是在工作还是生活中,Manus擅长完成各种任务,在你休息的时候把一切事务处理得井井有条。AI Agent是一种重塑传统应用的重要手段, 不仅作为专业人士或者用户都可以了解,他确实可以帮我们做很多事情,解放我们个人生产力。目前Manus(https://manus.im/)不是完全对外开放的,必须有邀请码,才能进行内测使用。这不仅提高了决策的准确性,还为后续的优化和改进提供了清晰的思路。时,Manus 能够迅速做出调整,始终保持高效的工作状态。,根据不同的子任务需求,灵活调用相应的工具链。

2025-03-06 17:42:24 148

原创 应用篇| 小白本地部署DeepSeek-R1

除了671B版本之外,其他版本均是通过蒸馏出来。一般人不会有大量资源,根本无法本地部署满血版本的DeepSeek-R1模型。同时,相对满血版本的DeepSeek-R1模型,其他模型效果是无法同日而语,尤其是像DeepSeek-R1的671B这样大模型,往往需要高性能的硬件支持,这让许多开发者和研究人员望而却步。好在中国互联网大厂开放了满血版本的DeepSeek-R1,可以直接白嫖这个工具,有腾讯的元宝、csdn知道、纳米AI搜索,不喜欢开源的百度AI等产品。

2025-02-21 17:11:34 83

原创 原理篇| 推理模型DeepSeek-R1的诞生之路

在非常有限的算力资源支持下,通过强大的算法创新,突破了算力“卡脖子”的限制,即使在有限的算力下,也能做出具有全球意义的领先成果。随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek-R1。:在收集了新的 SFT 数据后,R1 会进行第二阶段的强化学习训练,这一次,训练的目标不再局限于推理任务,而是涵盖了所有类型的任务。与之前的冷启动数据不同,这一阶段的 SFT 数据不仅包含推理任务,还涵盖了其他领域的数据,例如写作、角色扮演、问答等,以提升模型的通用能力。

2025-02-13 11:05:44 83

原创 亚马逊爬虫实战:亚马逊评论数据获取(基于Helium10 插件)

基于 Helium 10 的谷歌插件爬取亚马逊的评论记录。

2025-02-09 17:10:34 344

原创 亚马逊爬虫实战:中国商家信息(电话)爬取

import os), # 保存图片的路径# 搜索关键词"keywords":["毛巾","衣服"],"product_number": 1000000000000000, # 分页获取数量# 和url一一对应 个数要一样"remarks": ["备注1"],# 以下内容非专业人员请勿更改,请找开发人员更改. 对应的是amazon_product_url_setting文件中名称.},

2025-02-09 15:37:27 825

原创 评估篇| 大模型评测综述

1、基于人类的评测。与针对基础大语言模型的自动化评测不同,微调大语言模型的评测更加注重模型在实际应用场景中的表现,如与人类交互的自然度、对齐度等。2、基于模型的评测。例如,AlpacaEval 排行榜 基于由大语言模型合成的人类需求指令作为评测任务,然后收集待评估大模型的回应,并采用 GPT-4 等大语言模型作为评测员,将待评估大语言模型的输出与参考输出进行成对比较。1、大语言模型对评估设置极为敏感,包括问题的表述方式、提示样本的选择以及答案的解析策略等,这些细微的差别都可能导致评估结果的显著变化。

2025-01-25 21:21:34 295

原创 微服务电商平台课程七:前端框架vue

后台商城: https://github.com/macrozheng/mall-admin-web前台商城:https://github.com/macrozheng/mall-app-webVue (发音为 /vjuː/,类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。无论是简单还是复杂的界面,Vue 都可以胜任。

2025-01-11 10:27:30 290

原创 微服务电商平台课程六:后端代码框架认识

本地环境搭建好,大家可以进行调试,并能够修改其中代码。后端技术栈Spring Boot是伴随着Spring4.0共同诞生的,它的目的就是简化spring的配置及开发,并协助开发人员可以整体管理应用程序的配置而不再像以前那样需要做大量的配置工作,它提供了很多开发组件,并且内嵌了web应用容器,如tomcat和Jetty等。其目的便是使我们的开发变得简化并且能大幅度提高开发人员的开发效率,为了简化Spring功能的配置我们可以引入或启动我们需要的Spring功能。

2025-01-11 10:20:52 372

原创 架构篇 | 大模型太大?那就分布式吧。

说了这么多模型分布式方法,每个方法都有相应的场景。如果让开发者自主选择,固然有灵活性,但是增加学习成本。那么有没有自动方法,答案是是有,现在有一种是自动并行,自动并行的目标就是。

2025-01-04 11:03:57 69

原创 分布式爬虫scrapy-redis

Scrapy 爬虫,虽然爬虫是异步加多线程的,但是我们只能在一台主机上运行,所以爬取效率还是有限的,分布式爬虫则是将多台主机组合起来,共同完成一个爬取任务,这将大大提高爬取的效率。

2024-12-23 16:02:35 615

原创 scrapy 融合selenium

假设这里我们定义了 6 个 Field,也就是 6 个字段。

2024-12-23 15:49:08 355

原创 scrapy实战之新浪新闻爬虫

数据是分析工作的前提,新闻数据对于一些领域分析是必不可少的资料之一,今天我们就借助scrapy框架一起看一下新浪新闻爬虫实战。

2024-12-18 22:22:36 295

原创 scrapy框架

Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。只需要定制开发几个模块就可以轻松实现一个爬虫。并能扩展相关爬虫插件,实现分布式爬虫。

2024-12-18 16:41:21 256

原创 方案篇| 百亿级参数大油气开发管理领域模型技术方案

以往神经网络模型给大家印象就是黑盒, 具有很弱的可解释性,Transformer模型中自注意力机制可以产生更具可解释性的模型,self-attention模型更可解释,attention结果的分布表明了该模型学习到了一些语法和语义信息,我们可以从模型中检查注意力分布,各个注意头(attention head)可以学会执行不同的任务。与 BERT 等早期的预训练语言模型相比,大语言模型(GPT)的特点是使用了更长的向量 维度、更深的层数,进而包含了更大规模的模型参数。如果显存资源有限可以考虑QLoRA;

2024-12-12 10:53:08 202

原创 结构篇| 分而治之思想-MOE架构

MoE为企业带来平衡算力成本和计算效率、加快万亿/十万亿模型参数规模扩展、提升大模型实用性等机遇。对于大模型部署成本有些吃力的情况,MOE提供另外一种思路,本身LLM发展道路上,一直有专而精的方向和大而全的方向。

2024-12-12 10:22:13 138

原创 数据处理与分析基础

不再抛出with语句块中的异常print("进入上下文环境...")print("离开上下文环境...")print('异常类型:', exc_type)print('异常值:', exc_val)print('异常跟踪:', exc_tb)return True # 不再抛出with语句块中的异常raise Exception('程序运行发生异常')进入上下文环境...离开上下文环境...异常类型: 异常值: 程序运行发生异常。

2024-12-08 10:29:43 61

原创 数据分析案例一:开源案例

本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。案例数据集可以在Github仓库找到,见第一章。#14.1 来自Bitly的USA.gov数据2011年,URL缩短服务Bitly跟美国政府网站USA.gov合作,提供了一份从生成.gov或.mil短链接的用户那里收集来的匿名数据。在2011年,除实时数据之外,还可以下载文本文件形式的每小时快照。写作

2024-12-08 10:28:36 66

原创 pandas高级使用

和其它许多开源项目一样,pandas仍然在不断的变化和进步中。和本书中其它地方一样,这里的重点是放在接下来几年不会发生什么改变且稳定的功能。为了深入学习pandas的知识,我建议你学习官方文档,并阅读开发团队发布的文档更新。我们还邀请你加入pandas的开发工作:修改bug、创建新功能、完善文档。

2024-12-05 16:22:44 71

原创 结构篇| 浅析LLaMA网络架构

其中,指令微调由于相对较低的计算成本,已成为开发定制化或专业化模型的首选方法,也因此出现了庞大的 LLaMA 家族。与 BERT 等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量 维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对 于 Transformer 本身的结构与配置改变并不大。Python的完整的LLaMa3代码在github可以快速找到,其核心代码也不过几百行,但其中的设计思想和理念,够我们这些小白喝一段时间,希望通过不断深入学习,提高对LLM实际的理解。

2024-12-05 09:27:19 550

原创 时间序列数据处理

时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时间序列也可以是不定期的,没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景,主要有以下几种:本章主要讲解前3种时间序列。许多技术都可用于处理实验型时间序列,其索引可能是一个整数或浮点数(表

2024-11-28 14:37:36 211

原创 亚马逊反爬二之限流

毕竟,软件系统的处理能力是有限的。限流可能会导致用户的请求无法被正确处理或者无法立即被处理,不过,这往往也是权衡了软件系统的稳定性之后得到的最优解。然而在爬虫过程中, 难免也会遇到网站的爬虫, 之前在亚马逊爬虫过程, 就会发现来限流, 表现特征就是,网站页面上只有“Request was throttled”这一段话, 其余位置都是空白的,这种情况,只能不断尝试刷新页面,来获得最新页面出来。最常见就是我们在临近春节的时候, 上12306上面进行购票, 一个大型网站如亚马逊,也会通过限流,来避免网站的崩溃.

2024-11-28 13:23:11 514

原创 pandas的类sql操作

掌握pandas数据分组工具既有助于数据清理,也有助于建模或统计分析工作。在第14章,我们会看几个例子,对真实数据使用groupby。在下一章,我们将关注时间序列数据。

2024-11-27 11:47:52 76

原创 亚马逊反爬一之简单验证码

验证码就是反爬的方式之一,不过随着爬虫技术,反爬验证码也越来越复杂,今天这篇问题,我们仅仅讨论这种简单验证码在程序中自动识别.这种验证码本质是一张图片, 需要用ocr技术,自动识别其中字符,然后填写进去, 现在ocr技术已经很成熟, 可用的库也是非常多,以下就是常见的python ocr的包。当然,除了上面的方法, 还有一种提高识别准确率, 那就是多个ocr组合识别, 这种相对比较耗时,仅供参考。

2024-11-27 11:35:07 893

原创 面向领导编程:数据可视化

本章的目的是熟悉一些基本的数据可视化操作,使用pandas,matplotlib,和seaborn。如果视觉显示数据分析的结果对你的工作很重要,我鼓励你寻求更多的资源来了解更高效的数据可视化。这是一个活跃的研究领域,你可以通过在线和纸质的形式学习许多优秀的资源。下一章,我们将重点放在pandas的数据聚合和分组操作上。

2024-11-25 09:12:57 173

原创 数据整理:聚合、合并、重塑

在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。

2024-11-25 09:11:42 97

原创 入门pandas

要使用pandas,你首先就得熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。在下一章,我们将讨论用pandas读取(或加载)和写入数据集的工具。之后,我们将更深入地研究使用pandas进行数据清洗、规整、分析和可视化工具。

2024-11-21 15:01:27 98

原创 NumPy基础:数组和矢量计算

NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:由于NumPy提供了一个简单易用的C API,因此很容易将数据传递给由低级语言编写的外部库,外部库也能以NumPy数组的形式将数据返回给Python。这个功能使Python成为一种包装C/C++/Fortran历史代码库的选择,并使被包装库拥有一个动态的、易用的接口。NumPy本身并没有提供多么高级的数据分析功能,理解NumPy数组以及

2024-11-21 15:00:34 85

原创 微服务电商平台课程-番外篇二:工作场景中git常用命令

使用 Git 作为代码版本管理,早已是开发工程师必备的技能。Shell这篇文章更多介绍一些工作中常见命令如下:stash:存储临时代码。:软回溯,回退 commit 的同时保留修改内容。:复制 commit。revert:撤销 commit 的修改内容。reflog:记录了 commit 的历史操作。

2024-11-20 10:58:30 333

原创 微服务电商平台番外篇一:常用的docker命令

docker 常用命令

2024-11-20 09:09:17 588

原创 工具篇| 秒哒真能秒搭?

秒哒是百度推出的零代码AI开发平台,它基于大模型(【小白入门篇1】GPT到底是怎样练成?)和智能体技术(【大模型应用篇4】普通人构建智能体的工具),允许用户无需编写代码即可构建软件的能力。用户可以通过无代码编程、多智能体协作和规模化工具调用,轻松实现各种创意和想法。秒哒的主要优点包括0代码编程、多智能体协作、规模化工具调用、直观操作、创意实现、自动化流程和模块化构建。它适合需要快速开发和部署软件应用的企业、教育机构和个人开发者,无需具备编程知识即可使用。

2024-11-19 14:38:22 576

原创 oracle导入线上数据的全步骤

多租户架构允许oracle数据库成为一个多租户的容器数据库,也就是CDB,container database,与之相对应的,则是插入到这个容器里面的可插拔式数据库,pluggable database一个CDB可以包含0,1或者多个用户创建的PDB。一个PDB则是一个可插拔式的集合,它包含了用户,用户的对象,以及非用户的对象,它对外看起来就相当于一个non-CDB,也就是普通数据库。在12C之前的所有数据库都是non-CDB。

2024-11-19 12:12:47 1049

原创 python开发桌面应用(跨平台) 全流程

之前开发一些软件,之前开发一些软件,亚马逊商品分析相关软件,但是基本上是通过程序猿控制台命令启动,同时在启动之前,还要进行程序依赖包,这对于非开发人员而言,简直是一种灾难, 为了让软件对于小白更加易用, 打算将其封装成应用程序(跨平台), 下面带大家一起完成python开发桌面应用的三步走. 在开始之前,我们先上效果图:

2024-11-11 17:33:39 1571

原创 微服务电商平台课程四: 搭建本地前端服务

可以进行插件的安装,这里安装的插件如下,注意这里只有Git插件是我从这个功能中安装的,其他插件均会在项目运行时自动安装;前提大家要将第三节《微服务电商平台课程三:搭建后台服务》中的后台启动起来。注意,现阶段搭建的环境都是本地开发环境,线上安装有所区别,等后续在跟大家介绍(前提需要服务器)。这些步骤是搭建本地环境,至于发布生产环境,大包方式有点不太一样,后续章节,再进行详解.中的前端开发服务端口,这里为防止与其他项目端口冲突,我改成了。测试密码 macro123。测试账号 admin。运行->运行到浏览器。

2024-11-11 11:23:26 232

原创 微服务电商平台课程三:搭建后台服务

第一种,像上节课《微服务电商平台课程三:基础环境搭建》那样, 下载-安装-配置 ,可以参考https://www.macrozheng.com/mall/start/mall_deploy_windows.html#rabbitmq。用户前端:https://github.com/macrozheng/mall-app-web?优势:大家电脑都可以快速安装,基本上不会出现上节课,有的人安装有问题,有的人安装没没问题。第二种,推荐方式docker方式,进行安装, docker安装方式,快速,基本不会报错。

2024-11-11 11:00:46 385

Java面试手册,助力大家面试过五关斩六将,面试成功

Java面试手册,助力大家面试过五关斩六将,面试成功

2024-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除