主页 > 互联网  > 

机器学习基本篇

机器学习基本篇
1 基本概念

机器学习,分为 回归,分类,聚类,降维 有监督学习 回归,分类, 有特征,有标签,进行训练,然后对新数据进行预测 无监督学习 聚类,降维。

题目越多,训练越好,

2 基本流程

数据预处理—— 模型训练与评估 可以优化为 获取数据——数据预处理——EDA 分析——特征工程——模型训练——可解释性分析

2.0 数据获取

利用 kaggle, 天池 等平台的 开源 数据,

2.1 预处理

目的:

让数据更符合逻辑让数据更容易计算 借助函数实现变换 or 运算 认识数据

常用 pandas 包,是 python 中一个强大的数据分析和处理库。 其可以

数据处理,对数据进行 清洗,转换,合并,分组等操作,处理缺失的和重复的数据。数据读取和写入, 如 CSV 格式,excel, JSON, SQL 等对数据进行时间序列分析,移动窗口统计等操作

** 部分常用 API ** import pandas as pd 读取数据 df = pd.read_csv(‘data.csv’) 查看数据 df.head() 显示数据集形状. (几行几列) df.shape

查看数据集信息。 (特征的种类和标签) Data.info 空值的数量 mean 均值 std 标准差 min 最小值 25% 第 25 百分位数 max 最大值 unique 唯一值数量 top 出现频率最高的值 freq 最高频率出现次数

显示数据集的统计特征, df.decribe()

标签:

机器学习基本篇由讯客互联互联网栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“机器学习基本篇