自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 用户标签(二):增量版ID_Mapping、Oneid图计算打通数据孤岛实现

增量版ID_Mapping、Oneid图计算打通数据孤岛实现1与上篇文章的区别2、数据样例3、实现代码启动命令辛苦码字如有转载请标明出处谢谢!——拜耳法PS:我要在下一章在我心中不完美的你打一个淋漓尽致的标签1与上篇文章的区别单就实现上其实与上篇文章差距不大,主要在业务上本文解决了上篇文章每次运行都会生成新的oneid的问题,如果每次运行都生成新的oneid那我们给标签做整理标记的时候会找不到人的!例如:在上篇文中1月1日 姓名:小白 手机号:9527 生成onid 11111月2日

2020-08-11 23:28:37 4880 3

原创 用户标签(一):图计算实现ID_Mapping、Oneid打通数据孤岛

图计算实现ID_Mapping、Oneid打通数据孤岛ID_Mapping与Oneid的作用我们能用来做什么实现原理输入数据源格式样例当日代码生成引用jar包启动命令辛苦码字如有转载请标明出处谢谢!——拜耳法ID_Mapping与Oneid的作用我们能用来做什么实现原理输入数据源格式样例当日代码生成import java.util.UUIDimport cn.scfl.ebt.util.UtilToolimport org.apache.spark.SparkContextimport

2020-08-05 23:31:43 11992 5

原创 llama_factory Qlora微调异常 No package metadata was found for The ‘autoawq‘

后记:大模型微调lora与Qlora 区别还是挺大的,Qlora 微调起来相对麻烦一些对应处理依赖也会更多一些!:QLoRA 通常会比 LoRA 占用更少的内存,因为它可以利用量化带来的内存节省效果。安装 autoawq 去Git上看大部分都支持CUDA 12.1 选择一个版本安装即可。:LoRA 可以应用于任何未量化的模型,而 QLoRA 则专门用于已经量化的模型。:QLoRA 的实现可能比 LoRA 更加复杂,因为它需要处理量化模型特有的问题。(小编尝试过版本降级,但总有其他依赖报错,进行放弃,升级)

2024-09-03 16:28:26 719

原创 llama_factory 、deepspeed No package metadata was found for The ‘bitsandbytes>=0.37.0‘

使用量化微调模型的时候报错。

2024-09-03 11:28:43 1699

原创 【如何在本地安装Llama 3,坐好30秒!稳的很!!】

安装大语言模型,30秒带你飞!

2024-05-08 13:15:23 446 1

原创 项目计划书、规划文档模板

项目计划书、规划文档模板最近通过项目实践经历,整理出的一套项目计划书(仅供自己参考梳理思路使用) 有喜欢的文末加VX辛苦码字如有转载请标明出处谢谢!——木研更新的简版项目规划文档!原版文件请+vx :baierfa...

2021-06-02 21:39:19 607

原创 用户标签(四):MD5代替Hashcode生成唯一数字编码

MD5代替Hashcode生成唯一数字编码附录说明:MD5生成数字代码实现辛苦码字如有转载请标明出处谢谢!——拜耳法附录说明:本文主要涉及的是在图计算过程中,需要数字类型值做每个图点的id,在大量数据下生成hashcode作为id会有重复的风险,因此需要使用一个固定不重复算法作为我们的id生成规则!MD5生成数字代码实现import java.math.BigIntegerimport java.security.MessageDigest/** * @Author: baierfa

2020-12-25 12:01:21 2738 1

原创 指定时间范围内循环执行指定脚本,时间范围内补数据

指定时间范围内循环执行指定脚本,时间范围内补数据背景:指定时间范围内数据定时输出,补充历史数据领导:木研啊,上回你写的《impala、hive 自动获取表结构并输出相应字段数据质量》还行,但是我写一定会比你写得更好!我:…领导:最近客户又说了,前一段时间范围的数据质量需要补充,你处理一下我:多长时间范围?领导:不多,一年,我会给你出一个二月份的模板,你照着做就行,懂了不?sh 被执行脚本 2020-02-01sh 被执行脚本 2020-02-02sh 被执行脚本 2020-02-03.

2020-12-16 20:50:05 501

原创 impala、hive 自动获取表结构并输出相应字段数据质量

impala、hive 自动获取表结构病输出数据质量背景:最近客户要求输出目标表每个字段的数据质量,领导就吩咐了,每个人立即将自己的表输出!领导:现在统计下来一共5张表,大约200个字段!木研你负责不到两百个就行,剩下的都我来!我:不到两百是多少?领导:199个我:…领导:放心,我给你写好模板,你复制粘贴#!/bin/bash#sh sh_test_colum_impala.sh temp_fawjoi dws_jd_user_base_info_lable_d 2020-10-03d

2020-12-16 20:49:05 1892 3

原创 中台篇(十一):数据安全管理

#中台篇(十一):数据安全管理因内容过多无法逐步上传详情请见密码: 4k4e都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa

2020-12-16 20:47:54 330

原创 中台篇(十):数据中台运营机制

#中台篇(十):数据中台运营机制因内容过多无法逐步上传详情请见密码: 1plb都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa

2020-12-15 15:53:38 751

原创 中台篇(九):数据服务体系建设

#中台篇(九):数据服务体系建设因内容过多无法逐步上传详情请见密码: vnbr都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa

2020-12-15 15:51:18 539 1

原创 中台篇(八):数据资产管理

#中台篇(八):数据资产管理因内容过多无法逐步上传详情请见密码: d9q1都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa

2020-12-15 15:48:55 194

原创 中台篇(七):数据体系建设

#中台篇(七):数据体系建设因内容过多无法逐步上传详情请见密码: t11e都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa

2020-12-15 15:46:47 154

原创 中台篇(六):数据价值提炼

#中台篇(六):数据价值提炼因内容过多无法逐步上传详情请见密码: h2er都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa

2020-12-15 15:35:11 198

原创 中台篇(五):数据汇聚联通:打破数据孤岛

#中台篇(五):数据汇聚联通:打破数据孤岛因内容过多无法逐步上传详情请见密码: nisa都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa

2020-12-15 15:29:56 369

原创 中台篇(四):数据中台建设的评估与选择数据中台建设的评估与选择

#中台篇(四):数据中台建设的评估与选择数据中台建设的评估与选择因内容过多无法逐步上传详情请见密码: kak4都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa...

2020-12-15 15:26:37 349

原创 中台篇(三):数据中台建设与架构

#中台篇(三):数据中台建设与架构因内容过多无法逐步上传详情请见密码: 5vce都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa

2020-12-15 14:27:00 198

原创 中台篇(二):什么是数据中台

#中台篇(二):什么是数据中台本文先用逻辑图的方式简明说出,数据中台是什么,对以后的作用与说明!因内容过多无法逐步上传详情请见密码: ie2t都看到这里了非常感谢!因大小限制无法上传清晰图片如有必要请加微信vx :baierfa...

2020-12-15 14:13:03 237

原创 中台篇(一):数据中台开篇总纲

#数据中台开篇总纲(一)都看到这里了非常感谢!本片章暂未完结 有疑问请+vx :baierfa

2020-12-15 13:40:59 233

原创 用户标签(三):oneid与用户标签之间的相互打通 实现用户标签

oneid与用户标签之间的相互打通 实现用户标签附录说明:整个流程:1、使用数据源数据进行数据清理(整理出关联数据与将要打标的数据值)2、将关联键值与oneid对应关联起来 并整理好将要打标值的外部关联格式化3、数据打标形成格式4、数据输入中间表 目的是汇总多个源产生的数据标签方便下一步汇总使用5、创建hive最终结果表6、对应创建es表建立映射关系7、从中间表读取数据进行汇总8、数据结果输入到建立映射的hive表中在es中查询辛苦码字如有转载请标明出处谢谢!——拜耳法附录说明:实现完整的用户标签需要以

2020-08-06 10:57:15 10099 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除