Seaborn绘制统计图形
Matplotlib虽然已经是比较优秀的绘图库了,但是它有个今人头疼的问题,那就是API使用过于复杂,它里面有上千个函数和参数,属于典型的那种可以用它做任何事,却无从下手。 Seaborn基于 Matplotlib核心库进行了更高级的API封装,可以轻松地画出更漂亮的图形,而Seaborn的漂亮主要体现在配色更加舒服,以及图形元素的样式更加细腻。 不过,使用Seaborn绘制图表之前,需要安装和导入绘图的接口,具体代码如下: 12# 安装pip3 install seaborn 12# 导入import seaborn as sns 可视化数据的分布当处理一组数据时,通常先要做的就是了解变量是如何分布的。 对于单变量的数据来说 采用直方图或核密度曲线是个不错的选择 对于双变蚩来说,可采用多面板图形展现,比如 散点图、二维直方图、核密度估计图形等。 针对这种情况,Seaborn库提供了对单变量和双变量分布的绘制函数,如...
pandas高级使用
如何处理nan 获取缺失值的标记方式(NaN或者其他标记方式) 如果缺失值的标记方式是NaN 判断数据中是否包含NaN: pd.isnull(df) pd.notnull(df) 存在缺失值nan: 1、删除存在缺失值的: dropna(axis=’rows’) 注: 不会修改原数据,需要接受返回值 2、替换缺失值: fillna(value, inplace=True) value:替换成的值 inplace: True: 会修改原数据,False: 不替换修改原数据,生成新的对象 如果缺失值没有使用NaN标记,比如使用“?” 先替换“?”为np.nan,然后继续处理 电影数据的缺失值处理 电影数据文件获取 123# 读取电影数据movie = pd.read_csv("./data/IMDB-Movie-Data.csv"...
pandas读写数据操作拓展
读写exce文件 Excel文件也是比较常见的用于存储数据的方式,它里面的数据均是以二维表格的形式显示的,可以对数据进行统计、分析等操作。Excel的文件扩展名有xls和xlsx两种。 Pandas中提供了对Excel文件进行读写操作的方法,分别为to_excel()方法和 read_excel()函数,关于它们的操作具体如下: 使用 to_excel()方法写入Exce文件to_excel()方法的功能是将 Dataframe对象写入到 Excel工作表中,该方法的语法格式如下: 1234to_excel(excel_writer, sheet_name='sheetl', na_rep='', index=True) 上述方法中常用参数表示的含义如下: (1)excel_writer: 表示读取的文件路径 (2)sheet_name: 表示工作表的名称,可以接收字符串,默认为“ Sheet1” (3)na_rep: 表示缺失数据 (4)index:...
pandas基础使用
为了更好的理解这些基本操作,我们将读取一个真实的股票数据。关于文件操作,后面在介绍,这里只先用一下API。 12345# 读取文件data = pd.read_csv("./data/stock_day.csv" )# 删除一些列,让数据更简单些,再去做后面的操作data = data.drop(["ma5" ,"ma10","ma20" ,"v_ma5","v_ma10" ,"'v_ma20"], axis=1) 索引操作Numpy当中我们已经讲过使用索引选取序列和切片选择,pandas也支持类似的操作,也可以直接使用列名、行名称,甚至组合使用。 直接使用行列索引(先列后行)获取’2018-02-27”这天的’close’的结果 123456789# 直接使用行列索引名字的方式 (先列后行)data['open']['2018-02-27']23.53# 不支持的操作#...
Linux相关命令
查看目录命令 命令 说明 ls 查看当前路径下的目录信息 tree 以树状方式显示目录 pwd 查看当前目录路径 clear 清除终端内容 ctrl + shift + “+” 放大窗口字体 ctrl + “-“ 缩小窗口字体 切换目录命令 命令 说明 cd 目录 切换到指定目录 cd ~ 切换到当前用户的主目录 cd .. 切换到上一级目录 cd . 切换到当前目录 cd - 切换到上一次目录 创建、删除文件和目录命令 命令 说明 touch 文件名 创建指定文件 mkdir 目录名 创建目录(文件夹) rm 文件名 删除指定文件 rmdir 目录名 删除空目录 提示: 1、删除非空目录: rm 非空目录名 -r 2、-r: 递归删除目录及其内容 复制、移动文件和目录命令 命令 说明 cp 复制(拷贝)文件、拷贝目录 mv 移动文件、移动目录、重命名 终端命令格式的组成终端命令格式说明command [-options] [parameter] command:...
pandas数据结构
Pandas的介绍 2008年WesMcKinney开发出的库 专门用于数据挖掘的开源python库 以Numpy为基础,借力Numpy模块在计算方面性能高的优势 基于matplotlib,能够简便的画图 独特的数据结构 pandas的优势Numpy已经能够帮助我们处理数据,能够结合matplotib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢? 增强图表可读性 回忆我们在numpy当中创建学生成绩表样式: 返回结果: 12345678910array([[92,55,78,50,50], [71,76,50,48,96], [45,84,78,51,68], [81,91,56,54,76], [86,66,77,67,95], [46,86,56,61,99], [46,95,44,46,56], [80,50,45,65,57], [41,93,90,41,97], ...
ndarray的基本操作
数组的索引、切片一维、二维、三维的数组如何索引? 直接进行索引,切片 对象[:, :] –先行后列 二维数组索引方式: 举例: 获取第一个股票的前3个交易日的涨跌幅数据 12# 二维的数组,两个维度stock_change[0, 0:3] 返回结果: 1array([-0.03862668, -1.46128096, -0.75596237]) 三维数组索引方式: 12345678# 三维a1 = np.array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]])# 返回结果array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]])# 索引、切片>>> a1[0,0,1] # 输出:2 形状修改ndarray.reshape(shape, order) 返回一个具有相同数据域,但shape不一样的视图 行、列不进行互换 123# 在转换形状的时候,一定要注意数组的元素匹配stock_change.reshape([5,...
N维数组-ndarray
ndarray的使用ndarray的属性数组属性反映了数组本身固有的信息。 属性名字 属性解释 ndarray.shape 数组维度的元组 ndarray.ndim 数组维数 ndarray.size 数组中的元素数量 ndarray.itemsize 一个数组元素的长度(字节) ndarray.dtype 数组元素的类型 ndarray的形状首先创建一些数组。 1234# 创建不同形状的数组>>> a = np.array([[1,2,3],[4,5,6]])>>> b = np.array([1,2,3,4])>>> c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]]) 分别打印出形状。 1234567>>> a.shape>>> b.shape>>> C.shape(2,3) # 二维数组(4,) # 一维数组(2,2,3) #...









