
大数据
后端研发Marion
AI全栈开发者 | 大模型技术布道者
8年+后端架构师转型AI研发,深耕智能体与LLM应用落地
帮助100w+读者掌握技术干货(某C博客百万阅读)
1.4万+开发者关注(某站技术内容创作)
专注:AI工程化 | 大模型微调 | 智能体开发 | 全栈技术实践
我能为你提供:
从0到1的AI项目实战经验
大模型技术前沿解读与避坑指南
程序员转型AI的进阶路径
DeepSeek技术生态深度解析
交流价值:私信开放技术答疑 | 评论区抽取粉丝代码Review
#AI开发 #大模型 #程序员转型 #技术布道 #智能体
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大数据技术】Hive基本原理以及使用教程
可以编写自定义函数(UDF、UDAF)并在Hive中注册和使用以扩展功能。原创 2024-03-22 18:51:49 · 638 阅读 · 1 评论 -
【Sqoop教程】Sqoop学习教程以相关资料
当使用Sqoop进行数据传输时,以下是更详细的步骤和示例:### 步骤1:安装和配置Sqoop1. 下载Sqoop并解压缩到指定目录。2. 配置`sqoop-env-template.sh`文件,设置JAVA_HOME、HADOOP_COMMON_HOME等环境变量,并另存为`sqoop-env.sh`。3. 配置`sqoop-site-template.xml`文件,设置数据库连接信息等,并另存为`sqoop-site.xml`。### 步骤2:连接到关系型数据库。原创 2024-03-22 17:50:11 · 1419 阅读 · 1 评论 -
【Zookeeper集群】Zookeeper集群搭建
以下是基本的 ZooKeeper 集群搭建步骤:建立一个名为zookeeper的用户和组,并创建需要保存 ZooKeeper 数据的目录,可以使用命令。下载并解压 ZooKeeper 安装包到创建 ZooKeeper 的配置文件将dataDir和dataLogDir接着将server.x配置为各个 ZooKeeper 服务器节点的信息。以上配置中,server.x的 x 应该从 1 开始计数,依次递增。在数据目录中为每个 ZooKeeper 服务器节点创建一个myid文件,文件内容为该节点在。原创 2023-05-19 10:19:42 · 675 阅读 · 0 评论 -
【Flume】日志采集聚合传输系统Flume概念与实践
Apache Flume 是一个开源的分布式日志收集和聚合系统,用于将大量日志或事件数据从各种数据源(例如 Web 服务器、应用程序服务器等)移动到 Hadoop 或其他消息队列中心,如 Apache Kafka 或 Apache ActiveMQ。Flume 允许用户从数据产生源直接改写数据流并可对数据进行压缩、过滤、转换和聚合等操作。Flume 架构包含三个核心组件:源、通道和汇聚器。每个组件都可以在不同的物理节点上运行,以便扩展协议和处理高负载。原创 2023-05-18 09:35:42 · 544 阅读 · 0 评论 -
【ES】ES内存占用高,扩内存,重启服务注意事项
Elasticsearch内存占用分析与管理 | Tink's BlogElasticsearch JVM 堆内存使用率飙升,怎么办? - 腾讯云开发者社区-腾讯云ES集群重启注意事项_deng942861的博客-CSDN博客_es 重启原创 2022-08-23 16:11:20 · 2365 阅读 · 0 评论 -
【大数据】数据仓库分层
一、参考资料【尚硅谷】电商数仓V4.0丨大数据数据仓库项目实战_哔哩哔哩_bilibili原创 2022-05-04 21:10:14 · 1242 阅读 · 0 评论 -
【ElasticSearch】ARC邻域分析工具计算距离的方法
一、参考资料邻域分析工具计算距离的方法—ArcMap | 文档原创 2022-02-26 09:58:22 · 1423 阅读 · 0 评论 -
【ElasticSearch】lucene字典实现原理——FST
一、参考资料lucene字典实现原理——FST - bonelee - 博客园原创 2022-02-26 09:45:55 · 2050 阅读 · 0 评论 -
【ElasticSearch】1.5 Elasticsearch搜索入门
1.5.1 创建索引PUT /hotel{ "mappings": { "properties": { "title": { "type": "text" }, "city": { "type": "keyword" }, "price": { "type": "double" } } }}1.5.2 写入文档POST /hotel/_doc/001 { "title":"好再来酒店", "city":"青岛原创 2022-02-25 22:24:19 · 1134 阅读 · 0 评论 -
【ElasticSearch】MAC(M1)安装ES和Kibana可视化监控
目录一、下载ES单机安装二、安装插件三、分布式安装参考资料一、下载ES单机安装1. 下载地址:Download Elasticsearch | Elastic2. 下载后目录说明3. 启动报错high disk watermark [90%] exceeded onElasticSerach 出现 high disk watermark [90%] exceeded on_weixiao_920的博客-CSDN博客Elasticse...原创 2022-02-24 22:55:37 · 3914 阅读 · 1 评论 -
【大数据】推荐系统从入门到实战
一、参考资料1. 视频教学尚硅谷机器学习和推荐系统项目实战教程(初学者零基础快速入门)_哔哩哔哩_bilibili原创 2021-11-27 20:26:31 · 1066 阅读 · 0 评论 -
【大数据】Spark从入门到精通
一、参考资料1. 视频教学004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备原创 2021-11-27 20:24:13 · 444 阅读 · 0 评论 -
【大数据】Scala从入门到精通
一、参考资料008_尚硅谷_Scala_在IDE中编写HelloWorld(一)_项目创建和环境配置原创 2021-11-27 20:07:09 · 455 阅读 · 0 评论 -
【大数据】Flink从入门到精通
一、参考资料1. 视频教学042.尚硅谷_Flink-Watermark概念原创 2021-11-27 19:30:45 · 822 阅读 · 0 评论 -
【大数据开发】Hadoop入门到精通
一、参考资料Hadoop入门(一)——CentOS7下载+VM上安装(手动分区)图文步骤详解(2021)_Leokadia Rothschild的博客-CSDN博客https://blog.csdn.net/m0_46413065/category_10888790.html原创 2021-11-06 19:54:11 · 502 阅读 · 0 评论 -
【Scala】Scala学习
一、参考资料尚硅谷大数据技术之Scala入门到精通教程(小白快速上手scala)_哔哩哔哩_bilibilinotes/Scala.md at master · tch0/notes · GitHub原创 2021-11-01 22:13:46 · 188 阅读 · 0 评论 -
【大数据】流式实时处理框架Flink学习路线图
一、参考资料1. Flink简介尚硅谷Java版Flink(武老师清华硕士,原IBM-CDL负责人)_哔哩哔哩_bilibili2. Flink笔记尚硅谷Flink入门到实战-学习笔记原创 2021-10-31 21:43:23 · 1380 阅读 · 1 评论 -
【Flink实战】电商行为数据分析
一、参考资料1. 电商行为数据分析尚硅谷Java版Flink(武老师清华硕士,原IBM-CDL负责人)_哔哩哔哩_bilibili原创 2021-10-31 15:08:31 · 1346 阅读 · 0 评论 -
【Kylin】Kylin原理与实战
一、参考资料1. 即席查询Kylin【尚硅谷】2021新版电商数仓V4.0丨大数据数据仓库项目实战_哔哩哔哩_bilibili原创 2021-10-15 00:39:17 · 146 阅读 · 0 评论 -
【Presto】Presto概述与实战
一、参考资料1. Presto既席查询【尚硅谷】2021新版电商数仓V4.0丨大数据数据仓库项目实战_哔哩哔哩_bilibili原创 2021-10-15 00:37:33 · 381 阅读 · 0 评论 -
【Zabbix】Zabbix概述与实战
一、参考资料1. 集群监控-Zabbix概述【尚硅谷】2021新版电商数仓V4.0丨大数据数据仓库项目实战_哔哩哔哩_bilibili原创 2021-10-15 00:35:07 · 167 阅读 · 0 评论 -
【Flume】Flume日志收集实战
一、参考资料【尚硅谷】2021新版电商数仓V4.0丨大数据数据仓库项目实战_哔哩哔哩_bilibiliWelcome to Apache Flume — Apache FlumeFlume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了1. flume下载Apache Download Mirrors2. flume安装Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了3. flume配置...原创 2021-10-07 10:56:39 · 183 阅读 · 0 评论 -
【Kafka】Kafka集群安装
一、参考资料【尚硅谷】2021新版电商数仓V4.0丨大数据数据仓库项目实战_哔哩哔哩_bilibili原创 2021-10-05 23:48:17 · 177 阅读 · 0 评论 -
【Zookeeper】Zookeeper集群安装实战
一、参考资料【尚硅谷】2021新版电商数仓V4.0丨大数据数据仓库项目实战_哔哩哔哩_bilibili原创 2021-10-05 23:13:38 · 165 阅读 · 0 评论 -
【推荐系统】推荐统原理与实战
一、参考资料尚硅谷机器学习和推荐系统项目实战教程全套完整版(初学者零基础快速入门)_哔哩哔哩_bilibili制作不易,大家记得点个关注,一键三连呀【点赞、投币、收藏】感谢支持~打开算法工程师的大门--机器学习与推荐实战本课程主要分为两部分,机器学习和推荐系统基础,与电影推荐系统项目实战。第一部分主要是机器学习和推荐系统基础理论的讲解,涉及到各种重要概念和基础算法,并对一些算法用python做了实现;第二部分以电影网站作为业务应用场景,介绍推荐系统的开发实战。https://www.bilibili.c原创 2021-09-12 00:26:30 · 300 阅读 · 0 评论 -
【大数据分析之Hadoop】一、Hadoop基本原理
一、hadoop概念Hadoop由两部分组成,一是负责存储与管理文件的分布式文件系统HDFS、二是负责处理与计算的MapReduce的计算框架。二、HDFS1.namenode负责管理工作(管理文件系统的目录结构,元数据信息,响应用户请求)包含了两个核心的数据结构,FsImage和EditLog。FsImage:用于维护整个文件系统数以及文件树中所有的文件和文件夹的元数据EditLog:记录了所有针对文件的创建,删除,重命名等操作2.Seconday NameNode为转载 2020-07-04 11:21:06 · 2964 阅读 · 0 评论 -
【大数据】Flink
Flink 中文社区原创 2021-08-21 23:00:30 · 151 阅读 · 0 评论 -
【大数据】Spark
http://spark.apache.org/原创 2021-08-21 22:57:14 · 138 阅读 · 0 评论 -
【数据仓库】总体描述
P4 004-尚硅谷数仓概念-总体描述原创 2021-08-21 12:40:27 · 111 阅读 · 0 评论 -
【ELK】什么是 ELK Stack?
一、参考资料ELK原理与介绍官方网址Elastic Stack入门原创 2021-08-21 10:56:56 · 251 阅读 · 0 评论 -
【大数据开发】MAC安装和使用sqoop
一、参考文档Mac安装Sqoop原创 2021-06-26 11:56:42 · 336 阅读 · 4 评论 -
【ElasticSearch问题】Unreconginzed VM option `UseConcMarkSweepGC`
一、问题描述二、问题分析原创 2021-06-17 14:45:32 · 1648 阅读 · 0 评论 -
【ElasticSearch】ElasticSearch 深度分页解决方案
yiElasticSearch 深度分页解决方案原创 2021-06-01 18:15:08 · 262 阅读 · 0 评论 -
【大数据】大数据开发
零基础学的会的大数据课程,本套课程耗时将近1年,终于要和大家见面了!原创 2021-05-16 23:18:08 · 142 阅读 · 0 评论 -
【Hbase】Mac安装Hbase
一、Hbase安装brew install hbase==> CaveatsTo have launchd start hbase now and restart at login: brew services start hbaseOr, if you don't want/need a background service you can just run: /usr/local/opt/hbase/bin/start-hbase.sh==> Summary????原创 2021-05-16 16:52:43 · 447 阅读 · 0 评论 -
《分布式实时计算系统之Storm》一、基本原理
Storm架构Storm是一个分布式、可靠的实时计算系统。与Hadoop不同的是,它采用流式的消息处理方法,对于每条消息输入到系统中后就能被立即处理。适用于一些对实时性要求高的场景,比如广告点击在线统计、交易额实时统计等。一些名词解释 Stream:Storm中被处理的数据流,一条消息称为一个元组。 Spout:Storm连接外部数据源的组件,可以认为Storm的数据源。 Bolt:数据处理组件,Bolt里面封装了处理数据的逻辑。Spout和Bolt是Storm中的两类组件转载 2020-07-04 11:33:20 · 912 阅读 · 0 评论 -
《大数据计算引擎之Spark》一、基本原理
前两篇我们讲了spark的基础知识,包括spark的体系结构、执行框架、spark的基本数据类型以及spark中stage的划分等等。本篇要介绍spark运行的原理。包括spark的内部执行机制,spark的基本数据类型RDD的执行流程。1. Spark内部执行机制1.1 内部执行流程spark的内部执行机制在《spark基础•下篇》已有介绍,此处再简单介绍下。 如下图1为分布式集群上spark应用程序的一般执行框架。主要由sparkcontext(spark上下文)、cluster ...转载 2020-07-04 11:24:31 · 543 阅读 · 0 评论 -
《分布式数据库之HBase》一、基本原理
前言:掌握Hbase的重要性不言而喻,掌握Hbase的设计原理更是重中之重。本文是对HBase原理进行讲解系列文章的开篇,本文尽量详细的从整体上介绍HBase的架构,并对每个部分的名词进行初步解释,使我们对HBase有个整体的了解。一、逻辑存储模型HBase以表的形式存储数据,表由行和列组成。列划分为若干个列族,如下图所示:001.jpgRowKey:Hbase使用Rowkey来唯一的区分某一行的数据。如图中"rk001"列族:Hbase通过列族划...转载 2020-07-04 11:22:49 · 325 阅读 · 0 评论