gemoumou-CSDN博客

原创机器学习从零开始-Kaggle数据用PurePython实战

一，红酒质量分析 #1.加载csv #2.将字符串转换为浮点 #3.规范化 #4.交叉验证 #5.评估我们的算法（RMSE） # 1 . 导入标准库 from csv import reader from math import sqrt from random import randrange from random import seed # 2. 加载我们的csv文件 def csv_loader(filename): dataset = list() with open(fil

2021-04-26 23:00:37 565 1

原创机器学习从零开始-常见算法手推pure python

简单线性回归代码 # 平均值函数 def calculate_mean(a_list_of_values): mean=sum(a_list_of_values)/float(len(a_list_of_values)) return mean # 计算方差函数 def calculate_variance(a_list_of_values,mean): variance_sum=sum((x-mean)**2 for x in a_list_of_values

2021-03-28 22:30:22 676 1

原创前端基础-03-javascript

JavaScript 第一个javascript程序内部 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1"> <title>javascript</title> <script type="text/javascript"

2022-06-03 20:09:06 369

原创前端基础-02-CSS

CSS:层叠样式表 (英文全称：Cascading Style Sheets)是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子集）等文件样式的计算机语言。CSS不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。 CSS 能够对网页中元素位置的排版进行像素级精确控制，支持几乎所有的字体字号样式，拥有对网页对象和模型样式编辑的能力。作用结构与样式分离的方式，便于后期维护与改版可以用多套样式，使网页有任意样式切换的效果使页面载入得更快，

2022-05-22 21:32:18 718

原创前端基础-01-HTML

一个完整的网页是由 >html:完成页面各组成部分的搭建;css：进行页面修饰；js：让html页面具有很多的功能 HTML <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1"> <title>我是标题</title>.

2022-05-19 18:49:49 1115

原创 python开发-23-python数据库开发实战

用户管理系统

2022-05-15 21:34:19 1094

原创 python基础-22-mysql与python交互

mysql与python交互 MySQL 官方驱动模块 mysql connector 是mysql官方的驱动模块，兼容性特别好下载地址：https://dev.mysql.com/downloads/connector/python/ 直接查询数据库结果 mysql> show databases; +--------------------+ | Database | +--------------------+ | gpc | | infor

2022-05-14 20:54:26 464

原创 mysql基础-01-增删改查

CREATE DATABASE test; 创建数据库创建用户赋予权限重设root密码创建一个txt文件，定义修改密码的sql语句 ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘123456’;

2022-05-08 23:28:24 577

原创 python基础-21-进程与线程

进程与线程一、什么叫多任务多任务就是操作系统可以同时运行多个任务。比如你一边在用浏览器上网，一边在用慕课网官网学习，还一边在听音乐，这就是多任务，至少同时有3个任务正在运行。还有很多任务悄悄地在后台同时运行着，只是桌面上没有显示而已。二、什么是进程对于操作系统来说，一个任务就是一个进程（Process），比如打开一个浏览器就是启动一个浏览器进程，打开一个word就启动了一个word进程，打开两个记事本就启动了两个记事本进程。大家可以在电脑上查看操作系统打开的进程，具体方法，以win8操作系统为例：在

2022-05-05 19:07:39 1088

原创 python基础-20-异常处理

异常处理异常就是错误异常会导致程序崩溃并停止运行 python能监控并捕获到异常，将异常部位的程序进行修理使得程序继续正常运行 try： <代码块1>#被try关键字检查并保护的业务代码 except：#<异常的类型> <代码块2> #代码块1出现错误后执行的代码块 # -*- coding: utf-8 -*- def upper(str_data):# 小写变大写 new_str = str_data.upper() return ne

2022-05-04 22:18:04 468

原创 python基础-19-初始面向对象

面向对象面向过程编程面向过程编程的核心是过程，就是分析出实现需求所需要的步骤，通过函数一步一步实现这些步骤，接着依次调用即可，再简单理解就是程序从上到下一步步执行,从头到尾的解决问题。举例：假设有一辆汽车，它的速度是80km/h，要从A地出发到B地，其中AB两地的距离是200km。要计算这辆车从A地到B地所花费的时间，用面向过程实现如下： Python是一门面向对象编程，而面向对象编程是程序员发展的分水岭，尤其对很多初学者来说，有时会因无法理解面向对象而放弃学习编程，所以接下来带大家了解面向对象编程

2022-05-04 21:44:39 1051

原创 python基础-01-变量，常量，注释

** 变量 ** 一、修改变量语法：变量名 = 数据变量名：程序员自己命名变量全部由数字，字母下划线任意组合。不能以数字开头不能是python的关键字要具有描述性不能使用中文，不能过长 # -*- coding: utf-8 -*- print("hello,word") print(1+2+3+4+5) print((1+2+3+4+5)*3/2) print((((1+2+3+4+5)*3/2)+100)/24) x = 1+2+3+4+5 y = x*3/2 z = (y + 1

2022-05-03 20:42:38 450

原创从零开始数据科学与机器学习算法-集成算法-10

概述把各种model综合起来——让预测更准确、更加稳定（做平均）在随机森林里面的超参数(hyper-parameter)： 1.对于每一棵树，要选取特性（features）,假设总共有n个feature，你需要确定选取个m作为参数 2.每一个node的最低size（每个棵树的每一片叶子的最小值） 3.每一个树的深度（maximum depth of one tree） 4.选择森林里面有多少棵树一、bagging from random import seed from random impor

2021-03-15 22:13:11 192

原创从零开始数据科学与机器学习算法-人工神经网络与反向传播-09

概述 rectifier其实就是一种模仿生物的激活机制的函数（activation function）常见的激活函数 https://en.wikipedia.org/wiki/Rectifier_(neural_networks)#Gaussian_Error_Linear_Unit_(GELU) import math #math库是python提供的内置数学类函数库 softplus = math.log(1+math.exp(2.14)) print(softplus) sigm

2021-03-11 22:27:19 219

原创从零开始数据科学与机器学习算法-学习向量量化(Learning_Vector_Quantization)-08

LVQ概述通常，我们使用LVQ方法用在分类问题上。 codebook vector(是一系列数字，与你训练数据里的input与output相关的特征一样) 例： 1.class 0,1 2.width 3.height 4.length codebook vector(neuron): 1.class 0,1 2.width 3.height 4.length LVQ跟KNN 通过在codebook vector里面进行寻找，通过Euclidean距离进行判断，找到BMU（Best Matching Un

2021-03-10 22:27:15 449

原创从零开始数据科学与机器学习算法-KNN分类算法-07

1.k——超参数(hyper-parameter) 2.k最好为奇数（no even number , better be odd） 3.k大小有学问： k太小：outliers 对判断的影像加大 k太大：会"冲淡"周边neighbor（高质量、高权重的数据）对最终判断的影像 # Euclidean Distance def calculate_euclidean_distance(row1,row2): # 累计的计数器 distance = 0.0 for i in rang.

2021-03-08 21:55:24 511

原创从零开始数据科学与机器学习算法-朴素贝叶斯-07

朴素贝叶斯概念例子：邮件分类问题： N = (12/17)*(5/11)*(3/11) S = (5/17)*(2/7)*(1/7) print(N) print(S) # N>S 我们可以判断这是一封正常邮件常见问题1 因为图2中吗出现的次数是0 那么这封邮件就会被误判为正常邮件解决如果遇到样本里面有0的情况，可以通过添加alpha进行解决。 alpha=1 统一增加1 确保不会出现无0的情况 N = (12/17)*((1/15)**4)*(3/15) S = (5/1

2021-03-07 21:55:09 267

原创从零开始数据科学与机器学习算法-分类与决策树-06

。。。。。。。。。。。。。

2021-03-07 13:47:27 171

原创从零开始数据科学与机器学习算法-简单感知器-05

如下图给定的一组数据可以通过一条线分割成两个不同的类别称之为Linearly_Separable

2021-03-01 21:48:42 186

原创从零开始数据科学与机器学习算法-逻辑回归-04

Logistic Regression 更多的是从概率的层面进行建模，但是我们实际应用中，更多的是用在二元分类型的问题案例：列子：如上图所示：有两类数据方形=0 圆形=1 坐标轴类型： X1 ,X2 ,0/1 2 ,2 , 0 2 ,4 , 0 3 ,3 , 0 4 ,5 , 0 8 ,1 , 1 8.5,3.5 , 1 9 ,1 , 1 10 ,4 , 1 # prediction function from math import exp def prediction(row, coeffic

2021-02-28 22:16:55 151

原创从零开始数据科学与机器学习算法-梯度下降-03

#make prediction def make_prediction(input_row,coefficients): out_put_y_hat = coefficients[0] for i in range(len(input_row)-1): out_put_y_hat += coefficients[i+1] * input_row[i] return out_put_y_hat test_dataset = [[1,1], .

2021-02-27 22:13:17 118

原创从零开始数据科学与机器学习算法-线性回归-02

简单线性回归 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 问题1. The relationship between working experience and salary? 工作经验和工资之间的关系？ # 数据 experience=[1,2,3,4,5,6,7,8,9,10,2,2,3,3,3,2,4,5,5,2] salary =[5000,7000

2021-02-25 13:23:46 225 1

原创从零开始数据科学与机器学习算法-知识点补充-00

1,Descriptive statistics 2,Inferential statistics sample(sample statistic) – sampling(estimate)–population(parameter) 1)sampling 2)estimate 3)Hypothesis test

2021-02-24 21:59:27 188

原创从零开始数据科学与机器学习算法-数据预处理与基准模型-01

读取数据函数 from csv import reader # 导入库 def read_csv(the_name_of_file_to_be_read): # 定义数据读取函数 file = open(the_name_of_file_to_be_read,"r")#要读取的文件的名称 every_line_of_the_data = reader(file) # 读取每一行数据 the_dataseet = list(every_line_of_the_data) # 把每

2021-02-20 22:33:49 327 1

原创机器学习实战-SVM算法-27

SVM算法-线性分类 import numpy as np import matplotlib.pyplot as plt from sklearn import svm # 创建40个点 x_data = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]] y_data = [0]*20 +[1]*20 plt.scatter(x_data[:,0],x_data[:,1],c=y_data) plt.show

2021-02-20 10:29:40 404

原创机器学习实战-PCA算法-26

PCA算法-手写数字降维可视化 from sklearn.neural_network import MLPClassifier from sklearn.datasets import load_digits from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report,confusion_matrix import numpy as np import matp

2021-02-20 10:23:54 299

原创机器学习实战-聚类分析KMEANS算法-25

KMEANS算法-NBA球队实力聚类分析 from sklearn.cluster import KMeans import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.preprocessing import MinMaxScaler data = pd.read_csv('nba.csv') data.head() minmax_scaler = MinMaxScaler() # 标准化

2021-02-20 10:17:11 694

原创机器学习实战-贝叶斯算法-24

贝叶斯-新闻分类 from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split news = fetch_20newsgroups(subset='all') print(news.target_names) print(len(news.data)) print(len(news.target)) print(len(news.target_names))

2021-02-20 10:10:15 162

原创机器学习实战-集成学习-23

集成学习-泰坦尼克号船员获救预测 import pandas titanic = pandas.read_csv("titanic_train.csv") titanic # 空余的age填充整体age的中值 titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) print(titanic.describe()) print(titanic["Sex"].unique()) # 把male变成0，把female变成1

2021-02-20 10:03:10 287

原创机器学习实战-决策树-22

机器学习实战-决策树-叶子分类 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifi

2021-02-20 09:50:31 332

原创机器学习实战-神经网络-21

# pip install scikit-learn --upgrade from sklearn.neural_network import MLPClassifier from sklearn.datasets import load_digits from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import

2021-02-19 15:31:59 269

原创机器学习实战-KNN算法-20

# 导入算法包以及数据集 from sklearn import neighbors from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report import random # 载入数据 iris = datasets.load_iris() print(iris) # 打乱数据切分数据集 # x_t

2021-02-19 15:26:56 387

原创机器学习实战-逻辑回归-19

import numpy as np train_data = np.genfromtxt('Churn-Modelling.csv',delimiter=',',dtype=np.str) test_data = np.genfromtxt('Churn-Modelling-Test-Data.csv',delimiter=',',dtype=np.str) x_train = train_data[1:,:-1] y_train = train_data[1:,-1].astype(int) ...

2021-02-19 15:19:50 822

原创机器学习实战-回归算法-18

from sklearn.datasets import load_boston import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.linear_model import LassoCV import seaborn as sns house = load_boston() print(house.DESCR) x = house.data y = house.target d

2021-02-19 14:32:26 161

原创机器学习基础-支持向量机 SVM-17

支持向量机SVM(Support Vector Machines) SVM简单例子 from sklearn import svm x = [[3, 3], [4, 3], [1, 1]] y = [1, 1, -1] model = svm.SVC(kernel='linear') model.fit(x, y) # 打印支持向量 print(model.support_vectors_) # 第2和第0个点是支持向量 print(model.support_)

2021-02-19 14:02:29 382

原创机器学习基础-主成分分析PCA-16

主成分分析PCA(Principal Component Analysis) PCA-简单例子 import numpy as np import matplotlib.pyplot as plt # 载入数据 data = np.genfromtxt("data.csv", delimiter=",") x_data = data[:,0] y_data = data[:,1] plt.scatter(x_data,y_data) plt.show() print(x_data

2021-02-19 11:26:45 333

原创机器学习基础-聚类算法-15

聚类算法 K-MEANS python实现K-MEANS import numpy as np import matplotlib.pyplot as plt # 载入数据 data = np.genfromtxt("kmeans.txt", delimiter=" ") plt.scatter(data[:,0],data[:,1]) plt.show() 训练模型 # 计算距离 def euclDistance(vector1, vector2): re

2021-02-18 22:24:58 741

原创机器学习基础-贝叶斯分析-14

贝叶斯分析贝叶斯-iris # 导入算法包以及数据集 import numpy as np from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report,confusion_matrix from sklearn.naive_bayes import Multinomi

2021-02-18 22:06:13 171

原创机器学习基础-集成学习-13

集成学习Ensemble Learning bagging # 导入算法包以及数据集 from sklearn import neighbors from sklearn import datasets from sklearn.ensemble import BaggingClassifier from sklearn import tree from sklearn.model_selection import train_test_split import numpy as np impo

2021-02-18 21:54:35 240

原创机器学习基础-决策树-12

决策树Decision Tree 决策树-例子 from sklearn.feature_extraction import DictVectorizer from sklearn import tree from sklearn import preprocessing import csv # 读入数据 Dtree = open(r'AllElectronics.csv', 'r') reader = csv.reader(Dtree) # 获取第一行数据 headers =

2021-02-18 21:37:51 369

Selenium （WEB自动化工具/爬虫）

Selenium （WEB自动化工具/爬虫）：本文包含WEB自动化，以及爬虫使用方法本文详细介绍了Selenium Python版本的自动化测试方法和实践，通过本文学习你将掌握如下内容：Selenium 测试环境搭建单元测试、生成测试报告、定位元素、WebDriver属性和方法、WebElement属性和方法、操作form表单、操作下拉列表、处理等待、远程测试、Selenium Grid、鼠标事件、键盘事件、调用js、屏幕截图、Selenium IDE、文件上传、设置代理、无界面运行、参数化测试、数据驱动的测试DDT等。

2020-08-15

selenium学习完结散花.docx

一、根据tag名、id、class选择元素二、根据css选择元素三、frame元素切换/窗口切换, frame 或者iframe元素内部会包含一个被嵌入的另一份html文档四、selenium 选取选择框五、更多操作技巧六、Xpath 选择器

2020-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人