- 博客(170)
- 资源 (2)
- 收藏
- 关注

原创 机器学习从零开始-Kaggle数据用PurePython实战
一,红酒质量分析 #1.加载csv #2.将字符串转换为浮点 #3.规范化 #4.交叉验证 #5.评估我们的算法(RMSE) # 1 . 导入标准库 from csv import reader from math import sqrt from random import randrange from random import seed # 2. 加载我们的csv文件 def csv_loader(filename): dataset = list() with open(fil
2021-04-26 23:00:37
565
1

原创 机器学习从零开始-常见算法手推pure python
简单线性回归 代码 # 平均值函数 def calculate_mean(a_list_of_values): mean=sum(a_list_of_values)/float(len(a_list_of_values)) return mean # 计算方差函数 def calculate_variance(a_list_of_values,mean): variance_sum=sum((x-mean)**2 for x in a_list_of_values
2021-03-28 22:30:22
676
1
原创 前端基础-03-javascript
JavaScript 第一个javascript程序 内部 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1"> <title>javascript</title> <script type="text/javascript"
2022-06-03 20:09:06
369
原创 前端基础-02-CSS
CSS:层叠样式表 (英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。 CSS 能够对网页中元素位置的排版进行像素级精确控制,支持几乎所有的字体字号样式,拥有对网页对象和模型样式编辑的能力。 作用 结构与样式分离的方式,便于后期维护与改版 可以用多套样式,使网页有任意样式切换的效果 使页面载入得更快,
2022-05-22 21:32:18
718
原创 前端基础-01-HTML
一个完整的网页是由 >html:完成页面各组成部分的搭建;css:进行页面修饰;js:让html页面具有很多的功能 HTML <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1"> <title>我是标题</title>.
2022-05-19 18:49:49
1115
原创 python基础-22-mysql与python交互
mysql与python交互 MySQL 官方驱动模块 mysql connector 是mysql官方的驱动模块,兼容性特别好 下载地址:https://dev.mysql.com/downloads/connector/python/ 直接查询数据库结果 mysql> show databases; +--------------------+ | Database | +--------------------+ | gpc | | infor
2022-05-14 20:54:26
464
原创 mysql基础-01-增删改查
CREATE DATABASE test; 创建数据库 创建用户赋予权限 重设root密码 创建一个txt文件,定义修改密码的sql语句 ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘123456’;
2022-05-08 23:28:24
577
原创 python基础-21-进程与线程
进程与线程 一、什么叫多任务 多任务就是操作系统可以同时运行多个任务。比如你一边在用浏览器上网,一边在用慕课网官网学习,还一边在听音乐,这就是多任务,至少同时有3个任务正在运行。还有很多任务悄悄地在后台同时运行着,只是桌面上没有显示而已。 二、什么是进程 对于操作系统来说,一个任务就是一个进程(Process),比如打开一个浏览器就是启动一个浏览器进程,打开一个word就启动了一个word进程,打开两个记事本就启动了两个记事本进程。大家可以在电脑上查看操作系统打开的进程,具体方法,以win8操作系统为例:在
2022-05-05 19:07:39
1088
原创 python基础-20-异常处理
异常处理 异常就是错误 异常会导致程序崩溃并停止运行 python能监控并捕获到异常,将异常部位的程序进行修理使得程序继续正常运行 try: <代码块1>#被try关键字检查并保护的业务代码 except:#<异常的类型> <代码块2> #代码块1出现错误后执行的代码块 # -*- coding: utf-8 -*- def upper(str_data):# 小写变大写 new_str = str_data.upper() return ne
2022-05-04 22:18:04
468
原创 python基础-19-初始面向对象
面向对象 面向过程编程 面向过程编程的核心是过程,就是分析出实现需求所需要的步骤,通过函数一步一步实现这些步骤,接着依次调用即可,再简单理解就是程序从上到下一步步执行,从头到尾的解决问题。举例:假设有一辆汽车,它的速度是80km/h,要从A地出发到B地,其中AB两地的距离是200km。要计算这辆车从A地到B地所花费的时间,用面向过程实现如下: Python是一门面向对象编程,而面向对象编程是程序员发展的分水岭,尤其对很多初学者来说,有时会因无法理解面向对象而放弃学习编程,所以接下来带大家了解面向对象编程
2022-05-04 21:44:39
1051
原创 python基础-01-变量,常量,注释
** 变量 ** 一、修改变量 语法: 变量名 = 数据 变量名: 程序员自己命名 变量全部由数字,字母下划线任意组合。 不能以数字开头 不能是python的关键字 要具有描述性 不能使用中文,不能过长 # -*- coding: utf-8 -*- print("hello,word") print(1+2+3+4+5) print((1+2+3+4+5)*3/2) print((((1+2+3+4+5)*3/2)+100)/24) x = 1+2+3+4+5 y = x*3/2 z = (y + 1
2022-05-03 20:42:38
450
原创 从零开始数据科学与机器学习算法-集成算法-10
概述 把各种model综合起来——让预测更准确、更加稳定(做平均) 在随机森林里面的超参数(hyper-parameter): 1.对于每一棵树,要选取特性(features),假设总共有n个feature,你需要确定选取个m作为参数 2.每一个node的最低size(每个棵树的每一片叶子的最小值) 3.每一个树的深度(maximum depth of one tree) 4.选择森林里面有多少棵树 一、bagging from random import seed from random impor
2021-03-15 22:13:11
192
原创 从零开始数据科学与机器学习算法-人工神经网络与反向传播-09
概述 rectifier其实就是一种模仿生物的激活机制的函数 (activation function) 常见的激活函数 https://en.wikipedia.org/wiki/Rectifier_(neural_networks)#Gaussian_Error_Linear_Unit_(GELU) import math #math库是python提供的内置数学类函数库 softplus = math.log(1+math.exp(2.14)) print(softplus) sigm
2021-03-11 22:27:19
219
原创 从零开始数据科学与机器学习算法-学习向量量化(Learning_Vector_Quantization)-08
LVQ概述 通常,我们使用LVQ方法用在分类问题上。 codebook vector(是一系列数字,与你训练数据里的input与output相关的特征一样) 例: 1.class 0,1 2.width 3.height 4.length codebook vector(neuron): 1.class 0,1 2.width 3.height 4.length LVQ跟KNN 通过在codebook vector里面进行寻找,通过Euclidean距离进行判断,找到BMU(Best Matching Un
2021-03-10 22:27:15
449
原创 从零开始数据科学与机器学习算法-KNN分类算法-07
1.k——超参数(hyper-parameter) 2.k最好为奇数(no even number , better be odd) 3.k大小有学问: k太小:outliers 对判断的影像加大 k太大:会"冲淡"周边neighbor(高质量、高权重的数据)对最终判断的影像 # Euclidean Distance def calculate_euclidean_distance(row1,row2): # 累计的计数器 distance = 0.0 for i in rang.
2021-03-08 21:55:24
511
原创 从零开始数据科学与机器学习算法-朴素贝叶斯-07
朴素贝叶斯概念 例子:邮件分类问题: N = (12/17)*(5/11)*(3/11) S = (5/17)*(2/7)*(1/7) print(N) print(S) # N>S 我们可以判断这是一封正常邮件 常见问题1 因为图2中 吗出现的次数是0 那么这封邮件就会被误判为正常邮件 解决如果遇到样本里面有0的情况,可以通过添加alpha进行解决。 alpha=1 统一增加1 确保不会出现无0的情况 N = (12/17)*((1/15)**4)*(3/15) S = (5/1
2021-03-07 21:55:09
267
原创 从零开始数据科学与机器学习算法-简单感知器-05
如下图给定的一组数据可以通过一条线分割成两个不同的类别称之为Linearly_Separable
2021-03-01 21:48:42
186
原创 从零开始数据科学与机器学习算法-逻辑回归-04
Logistic Regression 更多的是从概率的层面进行建模,但是我们实际应用中,更多的是用在二元分类型的问题 案例: 列子:如上图所示:有两类数据 方形=0 圆形=1 坐标轴 类型: X1 ,X2 ,0/1 2 ,2 , 0 2 ,4 , 0 3 ,3 , 0 4 ,5 , 0 8 ,1 , 1 8.5,3.5 , 1 9 ,1 , 1 10 ,4 , 1 # prediction function from math import exp def prediction(row, coeffic
2021-02-28 22:16:55
151
原创 从零开始数据科学与机器学习算法-梯度下降-03
#make prediction def make_prediction(input_row,coefficients): out_put_y_hat = coefficients[0] for i in range(len(input_row)-1): out_put_y_hat += coefficients[i+1] * input_row[i] return out_put_y_hat test_dataset = [[1,1], .
2021-02-27 22:13:17
118
原创 从零开始数据科学与机器学习算法-线性回归-02
简单线性回归 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 问题1. The relationship between working experience and salary? 工作经验和工资之间的关系? # 数据 experience=[1,2,3,4,5,6,7,8,9,10,2,2,3,3,3,2,4,5,5,2] salary =[5000,7000
2021-02-25 13:23:46
225
1
原创 从零开始数据科学与机器学习算法-知识点补充-00
1,Descriptive statistics 2,Inferential statistics sample(sample statistic) – sampling(estimate)–population(parameter) 1)sampling 2)estimate 3)Hypothesis test
2021-02-24 21:59:27
188
原创 从零开始数据科学与机器学习算法-数据预处理与基准模型-01
读取数据函数 from csv import reader # 导入库 def read_csv(the_name_of_file_to_be_read): # 定义数据读取函数 file = open(the_name_of_file_to_be_read,"r")#要读取的文件的名称 every_line_of_the_data = reader(file) # 读取每一行数据 the_dataseet = list(every_line_of_the_data) # 把每
2021-02-20 22:33:49
327
1
原创 机器学习实战-SVM算法-27
SVM算法-线性分类 import numpy as np import matplotlib.pyplot as plt from sklearn import svm # 创建40个点 x_data = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]] y_data = [0]*20 +[1]*20 plt.scatter(x_data[:,0],x_data[:,1],c=y_data) plt.show
2021-02-20 10:29:40
404
原创 机器学习实战-PCA算法-26
PCA算法-手写数字降维可视化 from sklearn.neural_network import MLPClassifier from sklearn.datasets import load_digits from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report,confusion_matrix import numpy as np import matp
2021-02-20 10:23:54
299
原创 机器学习实战-聚类分析KMEANS算法-25
KMEANS算法-NBA球队实力聚类分析 from sklearn.cluster import KMeans import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.preprocessing import MinMaxScaler data = pd.read_csv('nba.csv') data.head() minmax_scaler = MinMaxScaler() # 标准化
2021-02-20 10:17:11
694
原创 机器学习实战-贝叶斯算法-24
贝叶斯-新闻分类 from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split news = fetch_20newsgroups(subset='all') print(news.target_names) print(len(news.data)) print(len(news.target)) print(len(news.target_names))
2021-02-20 10:10:15
162
原创 机器学习实战-集成学习-23
集成学习-泰坦尼克号船员获救预测 import pandas titanic = pandas.read_csv("titanic_train.csv") titanic # 空余的age填充整体age的中值 titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) print(titanic.describe()) print(titanic["Sex"].unique()) # 把male变成0,把female变成1
2021-02-20 10:03:10
287
原创 机器学习实战-决策树-22
机器学习实战-决策树-叶子分类 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifi
2021-02-20 09:50:31
332
原创 机器学习实战-神经网络-21
# pip install scikit-learn --upgrade from sklearn.neural_network import MLPClassifier from sklearn.datasets import load_digits from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import
2021-02-19 15:31:59
269
原创 机器学习实战-KNN算法-20
# 导入算法包以及数据集 from sklearn import neighbors from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report import random # 载入数据 iris = datasets.load_iris() print(iris) # 打乱数据切分数据集 # x_t
2021-02-19 15:26:56
387
原创 机器学习实战-逻辑回归-19
import numpy as np train_data = np.genfromtxt('Churn-Modelling.csv',delimiter=',',dtype=np.str) test_data = np.genfromtxt('Churn-Modelling-Test-Data.csv',delimiter=',',dtype=np.str) x_train = train_data[1:,:-1] y_train = train_data[1:,-1].astype(int) ...
2021-02-19 15:19:50
822
原创 机器学习实战-回归算法-18
from sklearn.datasets import load_boston import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.linear_model import LassoCV import seaborn as sns house = load_boston() print(house.DESCR) x = house.data y = house.target d
2021-02-19 14:32:26
161
原创 机器学习基础-支持向量机 SVM-17
支持向量机SVM(Support Vector Machines) SVM简单例子 from sklearn import svm x = [[3, 3], [4, 3], [1, 1]] y = [1, 1, -1] model = svm.SVC(kernel='linear') model.fit(x, y) # 打印支持向量 print(model.support_vectors_) # 第2和第0个点是支持向量 print(model.support_)
2021-02-19 14:02:29
382
原创 机器学习基础-主成分分析PCA-16
主成分分析PCA(Principal Component Analysis) PCA-简单例子 import numpy as np import matplotlib.pyplot as plt # 载入数据 data = np.genfromtxt("data.csv", delimiter=",") x_data = data[:,0] y_data = data[:,1] plt.scatter(x_data,y_data) plt.show() print(x_data
2021-02-19 11:26:45
333
原创 机器学习基础-聚类算法-15
聚类算法 K-MEANS python实现K-MEANS import numpy as np import matplotlib.pyplot as plt # 载入数据 data = np.genfromtxt("kmeans.txt", delimiter=" ") plt.scatter(data[:,0],data[:,1]) plt.show() 训练模型 # 计算距离 def euclDistance(vector1, vector2): re
2021-02-18 22:24:58
741
原创 机器学习基础-贝叶斯分析-14
贝叶斯分析 贝叶斯-iris # 导入算法包以及数据集 import numpy as np from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report,confusion_matrix from sklearn.naive_bayes import Multinomi
2021-02-18 22:06:13
171
原创 机器学习基础-集成学习-13
集成学习Ensemble Learning bagging # 导入算法包以及数据集 from sklearn import neighbors from sklearn import datasets from sklearn.ensemble import BaggingClassifier from sklearn import tree from sklearn.model_selection import train_test_split import numpy as np impo
2021-02-18 21:54:35
240
原创 机器学习基础-决策树-12
决策树Decision Tree 决策树-例子 from sklearn.feature_extraction import DictVectorizer from sklearn import tree from sklearn import preprocessing import csv # 读入数据 Dtree = open(r'AllElectronics.csv', 'r') reader = csv.reader(Dtree) # 获取第一行数据 headers =
2021-02-18 21:37:51
369
Selenium (WEB自动化工具/爬虫)
2020-08-15
selenium学习完结散花.docx
2020-06-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人