
数据挖掘
文章平均质量分 93
china1000
保持好奇,坚持学习,坚持改进
github: https://github.com/china1000
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
搜索推荐整理(一)---推荐相关技术
排序模型: FM -> DeepWide -> DCN -> LHUC -> DIN -> SIM损失函数: pointwise -> pairwise -> listwise召回: 离散空间 & 语义空间 多目标: MMOE -> ESMM -> PLE去偏: 偏差分类 -> 去偏方法 多样化:MMR 多样性算法 -> MMR 多样性算法评估指标:冷启动: E&E: 在FM中的特征 与其他特征的交叉时,特征 使用的都是同一个隐向量 。而FFM将特征按照事先的规则分为多个场(Fiel原创 2025-03-15 12:11:44 · 1123 阅读 · 0 评论 -
神经网络基础知识梳理
梳理神经网络基础知识包含:数据、模型、优化器的脑图和详细知识原创 2022-08-27 20:52:59 · 685 阅读 · 0 评论 -
营销定价系列(二)--- 因果建模技术
因果分析(Causal Analysis)是分析彼此之间的因果关系。原创 2022-07-25 00:14:33 · 4935 阅读 · 0 评论 -
百度 计算广告学学习记录
2.4 用户特征提取原创 2014-05-11 17:55:32 · 1944 阅读 · 0 评论 -
特征值选择和提取
特征选择( Feature selection是一个很有实用价值的技术,本质上是一种为数据挖掘消除)转载 2014-05-16 01:01:52 · 15320 阅读 · 0 评论 -
基于 shell streaming的 Map/Reduce程序
今天试了很久终于将基于 streaming的 Map/Reduce调通了。看了半天的hadoop streaming 的介绍竟然全部都没有streaming的KV键值对的介绍。 首先讲一下streaming的 Hadoop脚本的程序的执行,Mapper将数据按行读进来,Reduce接收整行的数据。注意此时Reducer处理程序的时候,默认按照第一列数据作为键值的Key并且使用 \原创 2014-01-15 21:35:45 · 2234 阅读 · 0 评论 -
《推荐系统实践》阅读笔记三 LFM模型、图模型、slop one和SVD算法
2.5 隐语义模型LFM(latent factor model)。表示一类模型,有很多经典的模型,如:LSI、pLSA、LDA和topic model等。LFM优势:面对商品分类的时候,人工编辑给出的类别有很多缺点,如不好解决一物多类问题、不好设定物品与类别的权重、主观性因素太强等等。LFM由于其模型本身,能够有效地避免上述问题。LFM原创 2013-10-17 00:04:16 · 6500 阅读 · 0 评论 -
数据挖掘分类算法详解
待续原创 2013-10-17 01:22:46 · 9385 阅读 · 0 评论 -
机器学习基础知识(二) ---- 基础知识集锦
1. L1正则化与L2正则化原创 2014-05-15 23:06:48 · 1242 阅读 · 0 评论 -
计算广告学漫谈
计算广告学是一个十分庞大的学科,里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式(广告、电商、游戏)之一,也是这三大模式中最有技术含量的,计算广告学一直都吸引着无数学术界/工业界的精英投入其中(ps:计算广告学也是机器学习在商业界最成功的应用之一)。计算广告学的海洋如此浩瀚,以至于其中的任何一个研究方向都足够一个人研究很多年。在长年累月的参考各种计算广原创 2015-03-02 19:29:19 · 7610 阅读 · 0 评论 -
机器学习(二)--- 分类算法详解
感觉狼厂有些把机器学习和数据挖掘神话了,机器学习、数据挖掘的能力其实是有边界的。机器学习、数据挖掘永远是给大公司的业务锦上添花的东西,它可以帮助公司赚更多的钱,却不能帮助公司在与其他公司的竞争中取得领先优势,所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路。可是相比JAVA和C++语言开发来说,机器学习/数据挖掘确实是新一些老人占的坑少一些,而且可以经常接触一些新的东西。还是赶紧再次抓住机原创 2015-09-20 15:47:04 · 72491 阅读 · 4 评论 -
机器学习(三)--- 聚类算法详解
待续原创 2013-10-17 01:23:34 · 4075 阅读 · 0 评论 -
机器学习(一) ---- 最优化理论基础
有待编写原创 2014-09-02 12:31:07 · 6722 阅读 · 0 评论 -
机器学习基础知识(四)--- 从gbdt到xgboost
gbdt(又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成。它最早见于yahoo,后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boosting库。它是一个大规模、分布式的通用Gradient Boosting(GBDT)库,它原创 2016-04-09 19:34:15 · 32622 阅读 · 10 评论 -
《推荐系统实践》阅读笔记五 推荐系统的构成和评价标准
推荐系统具体组成:1. 收集用户信息行为记录模块。 2. 分析用户喜好模型模块,训练学习参数模块。3. 用户匹配和推荐算法模块。推荐算法分类:1. 协同过滤算法 2. 基于内容的推荐算法 3. 谱分析 4. 基于扩散的方法 5. 基于二分图的方法 6. 基于混合的推荐方法推荐算法评测方式:离线模式:在线模式:1. NDCG2.原创 2013-12-01 00:03:05 · 1834 阅读 · 0 评论 -
《推荐系统实践》阅读笔记二 利用用户标签进行推荐
定义:根据维基百科的定义②,标签是一种无层次化结构的、用来描述信息的关键词,它可以用来描述物品的语义。应用:Delicious, CiteUlike, Last.fm, 豆瓣, Hulu什么样标签:1 表明物品是什么 比如是一只鸟,就会有“鸟”这个词的标签;是豆瓣的首页,就有一个标签叫“豆瓣”;是乔布斯的首页,就会有个标签叫“乔布斯”。2 表原创 2013-10-17 01:17:15 · 1400 阅读 · 0 评论 -
百度Q-T语义一致性比未获奖 (总结)
应该说参加这个比赛真是太累了,完全低估了自然语言处理的难度和复杂性。不过经过这个比赛,熟悉了自然语言处理的分词ICTCLAS和句法分析Stanford Parser建立句法树进行处理的流程,同时也写了海量的正则表达式用来问题分类,还有就是理解了自然语言处理是多么的难。 首先,讲一下我对问题的理解。我的理解可以将问题划分为 问题分类,问题关键词匹配和 问题语义理解三部分。原创 2013-10-16 23:36:13 · 1826 阅读 · 0 评论 -
GIS相关知识(学习)
具体内容待续。参考文献: http://www.docin.com/p-523026815.html原创 2013-10-22 17:36:22 · 575 阅读 · 0 评论 -
定位和思考
最近参加了几个比较失败的面试,算是我的个人总结。第一:自己写在简历上的项目经历一定要熟悉,并且需要对答如流,最好有可以show的点。首先表述清楚问题,然后表述解决的问题,和解决的方向的。第二:就是自己提前研究职位需要什么信息,提前将所有面试官可能提到的问题都给于准备,至少一定可以侃侃而谈。不知道可以直接说,我不知道的。第三:减轻自己的心理压力,不要想太多。原创 2013-10-17 19:44:18 · 1164 阅读 · 4 评论 -
宏基因组序列物种聚类研究 --- 研究生研究项目(总结)
待续原创 2013-10-17 01:21:44 · 2529 阅读 · 0 评论 -
文本分类 聚类算法简介和详解
待续原创 2013-10-17 01:22:13 · 2286 阅读 · 0 评论 -
《推荐系统实践》阅读笔记四 TF-IDF
待续原创 2013-10-17 01:20:15 · 1544 阅读 · 0 评论 -
数据挖掘 基础算法
1 SVD矩阵分解算法。2 SVD++算法。3 PageRank算法。注意一定要提升自己的学习的主动性。原创 2013-10-18 17:21:43 · 1075 阅读 · 0 评论 -
搜索引擎 基础知识
未完 待续。原创 2013-10-20 13:49:52 · 686 阅读 · 0 评论 -
高效的数据结构和经典算法
1 Bloom filter2 跳跃表3 trie树未完待遇,LZ会在随后将这些问题补上。原创 2013-10-18 11:24:58 · 8388 阅读 · 0 评论 -
《推荐系统实践》读书笔记 六 利用上下文
应该推荐系统是专注于满足用户需求的,而用户的时间、地点和心情对用户的需求都有很大的影响。因此我们可以考虑将时间、地点和心情在推荐系统之中有效的利用起来:1. 利用事件上下文: 用户兴趣变化、物品有周期、季节热点变化。2. 系统时间效应的分析:原创 2013-12-01 01:21:38 · 1166 阅读 · 0 评论 -
《推荐系统实践》阅读笔记一 评价标准和冷启动问题
冷启动的分类:1 用户冷启动 用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时,我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐。2 物品冷启动 物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。3 系统冷启动 系统冷启动主要解决如何在一个新开发的网站上(还没有用户,也没有用户行为,只有一些物品的信息)设计个原创 2013-10-17 00:46:51 · 2204 阅读 · 0 评论 -
这段视频很好玩,讲了Deep learning的发展
鉴于我的机器学习和统计的相关知识,不足,暂时就不翻译了。我只是把英文原文记下来,也许会有错误,挺好玩的。Deep belive nets, they are more efficient than kernels, I am going to use them again and again.But what are the origion of this successful story原创 2013-11-10 18:57:12 · 872 阅读 · 0 评论 -
Logistic 回归
逻辑回归,Logistic回归模型,是人们为两分类的应变量做的一个回归方程,概率取值在0~1之间的。首先到线性分类模型,不适用于分类模型。因为Linear Regression对分类模型有很多的不适用的特性。因此引入了可以应用到分类的Logistic Regression模型的方法。 随着模型的发展,Logistic家族也逐渐人丁兴旺起来,除了最初的Lo原创 2013-11-10 01:05:53 · 1192 阅读 · 0 评论 -
似然估计和极大似然估计应用
似然估计: 设总体X服从分布P(x;θ),但X是随机变量时为概率密度,当X为离散型随机变量时为概率分布)。θ为待估计函数,X1,X2,X2,...,Xn是来自于总体X的样本,x1,x2…xn为样本X1,X2,…Xn的一个观察值。则样本的联合分布(当X是连续型随机变量时为概率密度,但X为离散型随机变量时为概率分布)。 L(θ)=L(x1,x2,…,xn;θ)=ΠP(原创 2013-11-10 00:58:37 · 1557 阅读 · 0 评论 -
浅析数据挖掘的过程
摘要: 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是转载 2013-11-09 14:16:32 · 1217 阅读 · 0 评论 -
优化方法(总结)
未完待续,作者后面有时间了会将这部分的内容一一补上。最近先想写一下并行编程,复习一下shell编程。原创 2013-10-31 00:14:34 · 693 阅读 · 0 评论 -
学习学习多线程编程,落入俗套。
写点多线程编程的程序吧,无论是后端还是什么都需要编写多线程程序的。我也来一个Threadpool落入俗套。原创 2013-10-26 00:36:11 · 737 阅读 · 0 评论