LUCKYLYH

发表于2025-03-28|机器学习|机器学习•Seaborn

Matplotlib虽然已经是比较优秀的绘图库了，但是它有个今人头疼的问题，那就是API使用过于复杂，它里面有上千个函数和参数，属于典型的那种可以用它做任何事，却无从下手。 Seaborn基于 Matplotlib核心库进行了更高级的API封装，可以轻松地画出更漂亮的图形，而Seaborn的漂亮主要体现在配色更加舒服，以及图形元素的样式更加细腻。不过，使用Seaborn绘制图表之前，需要安装和导入绘图的接口，具体代码如下: 12# 安装pip3 install seaborn 12# 导入import seaborn as sns 可视化数据的分布当处理一组数据时，通常先要做的就是了解变量是如何分布的。对于单变量的数据来说采用直方图或核密度曲线是个不错的选择对于双变蚩来说，可采用多面板图形展现，比如散点图、二维直方图、核密度估计图形等。针对这种情况，Seaborn库提供了对单变量和双变量分布的绘制函数，如...

pandas高级使用

发表于2025-03-27|机器学习|机器学习•Pandas

如何处理nan 获取缺失值的标记方式(NaN或者其他标记方式) 如果缺失值的标记方式是NaN 判断数据中是否包含NaN: pd.isnull(df) pd.notnull(df) 存在缺失值nan: 1、删除存在缺失值的: dropna(axis=’rows’) 注: 不会修改原数据，需要接受返回值 2、替换缺失值: fillna(value, inplace=True) value:替换成的值 inplace: True: 会修改原数据，False: 不替换修改原数据，生成新的对象如果缺失值没有使用NaN标记，比如使用“？” 先替换“？”为np.nan，然后继续处理电影数据的缺失值处理电影数据文件获取 123# 读取电影数据movie = pd.read_csv("./data/IMDB-Movie-Data.csv"...

pandas读写数据操作拓展

发表于2025-03-26|机器学习|机器学习•Pandas

读写exce文件 Excel文件也是比较常见的用于存储数据的方式，它里面的数据均是以二维表格的形式显示的，可以对数据进行统计、分析等操作。Excel的文件扩展名有xls和xlsx两种。 Pandas中提供了对Excel文件进行读写操作的方法，分别为to_excel()方法和 read_excel()函数，关于它们的操作具体如下: 使用 to_excel()方法写入Exce文件to_excel()方法的功能是将 Dataframe对象写入到 Excel工作表中，该方法的语法格式如下: 1234to_excel(excel_writer, sheet_name='sheetl', na_rep='', index=True) 上述方法中常用参数表示的含义如下: (1)excel_writer: 表示读取的文件路径 (2)sheet_name: 表示工作表的名称，可以接收字符串，默认为“ Sheet1” (3)na_rep: 表示缺失数据 (4)index:...

pandas基础使用

发表于2025-03-24|机器学习|机器学习•Pandas

为了更好的理解这些基本操作，我们将读取一个真实的股票数据。关于文件操作，后面在介绍，这里只先用一下API。 12345# 读取文件data = pd.read_csv("./data/stock_day.csv" )# 删除一些列，让数据更简单些，再去做后面的操作data = data.drop(["ma5" ,"ma10","ma20" ,"v_ma5","v_ma10" ,"'v_ma20"], axis=1) 索引操作Numpy当中我们已经讲过使用索引选取序列和切片选择，pandas也支持类似的操作，也可以直接使用列名、行名称，甚至组合使用。直接使用行列索引(先列后行)获取’2018-02-27”这天的’close’的结果 123456789# 直接使用行列索引名字的方式 (先列后行)data['open']['2018-02-27']23.53# 不支持的操作#...

Linux相关命令

发表于2025-03-23|Linux|Linux

查看目录命令命令说明 ls 查看当前路径下的目录信息 tree 以树状方式显示目录 pwd 查看当前目录路径 clear 清除终端内容 ctrl + shift + “+” 放大窗口字体 ctrl + “-“ 缩小窗口字体切换目录命令命令说明 cd 目录切换到指定目录 cd ~ 切换到当前用户的主目录 cd .. 切换到上一级目录 cd . 切换到当前目录 cd - 切换到上一次目录创建、删除文件和目录命令命令说明 touch 文件名创建指定文件 mkdir 目录名创建目录(文件夹) rm 文件名删除指定文件 rmdir 目录名删除空目录提示: 1、删除非空目录: rm 非空目录名 -r 2、-r: 递归删除目录及其内容复制、移动文件和目录命令命令说明 cp 复制(拷贝)文件、拷贝目录 mv 移动文件、移动目录、重命名终端命令格式的组成终端命令格式说明command [-options] [parameter] command:...

pandas数据结构

发表于2025-03-23|机器学习|机器学习•Pandas

Pandas的介绍 2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础，借力Numpy模块在计算方面性能高的优势基于matplotlib，能够简便的画图独特的数据结构 pandas的优势Numpy已经能够帮助我们处理数据，能够结合matplotib解决部分数据展示等问题，那么pandas学习的目的在什么地方呢? 增强图表可读性回忆我们在numpy当中创建学生成绩表样式: 返回结果: 12345678910array([[92,55,78,50,50], [71,76,50,48,96], [45,84,78,51,68], [81,91,56,54,76], [86,66,77,67,95], [46,86,56,61,99], [46,95,44,46,56], [80,50,45,65,57], [41,93,90,41,97], ...

ndarray的基本操作

发表于2025-03-22|机器学习|机器学习•Numpy

数组的索引、切片一维、二维、三维的数组如何索引? 直接进行索引，切片对象[:, :] –先行后列二维数组索引方式: 举例: 获取第一个股票的前3个交易日的涨跌幅数据 12# 二维的数组，两个维度stock_change[0, 0:3] 返回结果: 1array([-0.03862668, -1.46128096, -0.75596237]) 三维数组索引方式: 12345678# 三维a1 = np.array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]])# 返回结果array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]])# 索引、切片>>> a1[0,0,1] # 输出:2 形状修改ndarray.reshape(shape, order) 返回一个具有相同数据域，但shape不一样的视图行、列不进行互换 123# 在转换形状的时候，一定要注意数组的元素匹配stock_change.reshape([5,...

N维数组-ndarray

发表于2025-03-21|机器学习|机器学习•Numpy

ndarray的使用ndarray的属性数组属性反映了数组本身固有的信息。属性名字属性解释 ndarray.shape 数组维度的元组 ndarray.ndim 数组维数 ndarray.size 数组中的元素数量 ndarray.itemsize 一个数组元素的长度（字节） ndarray.dtype 数组元素的类型 ndarray的形状首先创建一些数组。 1234# 创建不同形状的数组>>> a = np.array([[1,2,3],[4,5,6]])>>> b = np.array([1,2,3,4])>>> c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]]) 分别打印出形状。 1234567>>> a.shape>>> b.shape>>> C.shape(2,3) # 二维数组(4,) # 一维数组(2,2,3) #...