1
00:00:02,240 --> 00:00:06,720
您好，欢迎收看本视频，我们将开始

2
00:00:06,720 --> 00:00:10,320
python进行数据分析，因此如果您使用excel

3
00:00:10,320 --> 00:00:14,960
例子，你总是想知道我如何使用python这样的东西来

4
00:00:14,960 --> 00:00:18,480
仔细分析我的数据，这就是我们将要研究的

5
00:00:18,480 --> 00:00:21,119
进入现在，因为我们将看看我们如何

6
00:00:21,119 --> 00:00:25,439
可以正确设置python以确保我们可以将其用于数据分析

7
00:00:25,439 --> 00:00:29,199
然后，我们将了解如何访问csv文件

8
00:00:29,199 --> 00:00:33,840
例如典型的excel用例，因此我们如何访问csv文件

9
00:00:33,840 --> 00:00:37,520
以及我们如何访问该文件中的特定列或行

10
00:00:37,520 --> 00:00:41,840
最后，我们如何使用python绘制快速图表

11
00:00:41,840 --> 00:00:46,000
就是这样，这当然只是基础知识，但是您必须

12
00:00:46,000 --> 00:00:48,719
以某种方式开始了，让我们一起开始吧

13
00:00:48,719 --> 00:00:51,440
在这个视频里

14
00:00:52,640 --> 00:00:56,079
首先，我们必须先安装python

15
00:00:56,079 --> 00:00:59,840
我们基本上有两种选择

16
00:00:59,840 --> 00:01:03,199
一种选择是直接下载python

17
00:01:03,199 --> 00:01:06,560
替代方法是使用python发行版

18
00:01:06,560 --> 00:01:09,600
现在有什么区别，我推荐什么

19
00:01:09,600 --> 00:01:13,360
直接下载将意味着您转到python.org

20
00:01:13,360 --> 00:01:16,720
基本上在那里下载好python语言

21
00:01:16,720 --> 00:01:21,119
并实际上非常简单地遵循安装指南

22
00:01:21,119 --> 00:01:24,799
这样做也没有问题

23
00:01:24,799 --> 00:01:27,920
尤其是对于初学者来说，问题是python是一个

24
00:01:27,920 --> 00:01:31,439
开源语言和python是一种非常强大的语言

25
00:01:31,439 --> 00:01:34,720
这意味着您可以将其用于机器学习的数据分析

26
00:01:34,720 --> 00:01:38,840
而且还用于Web开发甚至创建桌面

27
00:01:38,840 --> 00:01:43,920
应用程序，这意味着使用普通的香草python

28
00:01:43,920 --> 00:01:47,280
仅仅我们拥有的纯代码就可以工作

29
00:01:47,280 --> 00:01:50,799
但最好有一些量身定制的

30
00:01:50,799 --> 00:01:54,000
更好地满足您要求的功能

31
00:01:54,000 --> 00:01:57,200
因为如果您要构建网页或要分析数据

32
00:01:57,200 --> 00:02:00,479
您可以想象，您想做不同的事情

33
00:02:00,479 --> 00:02:03,600
使用该语言和该python

34
00:02:03,600 --> 00:02:07,119
带有很多不同的软件包和库

35
00:02:07,119 --> 00:02:10,399
这些增加了额外的功能

36
00:02:10,399 --> 00:02:14,560
该语言的便利功能问题在于

37
00:02:14,560 --> 00:02:18,959
这些软件包不附带直接下载python版本

38
00:02:18,959 --> 00:02:23,120
它确实带有pip python的集成软件包管理器

39
00:02:23,120 --> 00:02:27,040
并使用该pip install命令以防万一您已经在某个地方找到它

40
00:02:27,040 --> 00:02:31,200
您可以安装所需的其他软件包，从而可以正常工作

41
00:02:31,200 --> 00:02:35,200
没什么错，但使用python发行版

42
00:02:35,200 --> 00:02:38,239
特别方便，因为这些

43
00:02:38,239 --> 00:02:42,959
包，因为您可以例如访问anaconda.com

44
00:02:42,959 --> 00:02:47,360
从那里下载python发行版，我们将在后面介绍一下

45
00:02:47,360 --> 00:02:51,200
秒，然后安装python和

46
00:02:51,200 --> 00:02:56,160
与python和

47
00:02:56,160 --> 00:03:00,239
因为增加了便利，我绝对

48
00:03:00,239 --> 00:03:05,200
如果您现在刚开始使用python，建议您使用python发行版

49
00:03:05,200 --> 00:03:08,800
让我们一起去anaconda.com，看看这基本上是如何工作的

50
00:03:08,800 --> 00:03:11,920
因为说实话这很简单

51
00:03:11,920 --> 00:03:15,920
您只需访问anaconda.com，现在就可以向下滚动一点

52
00:03:15,920 --> 00:03:20,080
在这里您可以看到一些蟒蛇产品和您感兴趣的产品

53
00:03:20,080 --> 00:03:23,519
如您所见，应该是anaconda发行版

54
00:03:23,519 --> 00:03:26,720
这是最受欢迎的python数据科学发行版，因此

55
00:03:26,720 --> 00:03:30,879
我认为这不是我们情况下最糟糕的选择，只需立即下载即可

56
00:03:30,879 --> 00:03:33,519
在这里并在

57
00:03:33,519 --> 00:03:37,120
如果是Mac，请点击此处下载

58
00:03:37,120 --> 00:03:40,400
安装程序通过以下方式在此处选择python 3

59
00:03:40,400 --> 00:03:43,120
我会建议什么，然后您可以决定是否要

60
00:03:43,120 --> 00:03:46,799
使用图形安装程序或命令行安装程序，我会

61
00:03:46,799 --> 00:03:49,680
使用图形安装程序是一个更好的界面

62
00:03:49,680 --> 00:03:53,280
然后您只需按照安装说明进行操作

63
00:03:53,280 --> 00:03:57,840
并且已经完成了，因此您基本上可以使用python

64
00:03:57,840 --> 00:04:00,319
现在安装此python后

65
00:04:00,319 --> 00:04:03,280
分布听起来很棒，听起来很容易

66
00:04:03,280 --> 00:04:07,519
肯定是，但是在我们深入研究python代码之前，我们必须考虑一下

67
00:04:07,519 --> 00:04:11,040
还有一件事是我们想要的工作环境

68
00:04:11,040 --> 00:04:14,879
在python中使用，因为编写python代码可以完成很多工作

69
00:04:14,879 --> 00:04:19,440
叛军的不同方式之一就是叛军立场

70
00:04:19,440 --> 00:04:23,040
用于读取评估评估打印和循环

71
00:04:23,040 --> 00:04:26,240
基本上意味着我们可以编写python代码

72
00:04:26,240 --> 00:04:30,320
在我们的命令提示符下或在Mac上的终端中

73
00:04:30,320 --> 00:04:34,160
一般来说，这不是一个大问题，您可以这样做，并且获得它非常不错

74
00:04:34,160 --> 00:04:37,360
开始，您只需要在

75
00:04:37,360 --> 00:04:40,800
您的终端，然后就可以基本开始了

76
00:04:40,800 --> 00:04:43,520
无需额外安装ide

77
00:04:43,520 --> 00:04:47,520
或需要一些代码编辑器，但这只是一个代码

78
00:04:47,520 --> 00:04:50,880
操场，所以我说好开始

79
00:04:50,880 --> 00:04:54,240
很高兴玩，但不是我们将在这里使用的

80
00:04:54,240 --> 00:04:57,440
第二种选择是使用ide

81
00:04:57,440 --> 00:05:02,080
或例如代码编辑器pycharm或vs代码

82
00:05:02,080 --> 00:05:07,039
这些代码编辑器很不错，因为它们带来了一些额外的便利

83
00:05:07,039 --> 00:05:10,400
版本控制或调试等功能以及

84
00:05:10,400 --> 00:05:13,199
特别是如果您来自Web开发领域

85
00:05:13,199 --> 00:05:17,759
您已经习惯了这样的代码编辑器，所以这些都没错

86
00:05:17,759 --> 00:05:22,320
您可以使用代码编辑器，但由于我们不想创建网页，但希望

87
00:05:22,320 --> 00:05:26,560
分析数据有三分之一，在我的情况下

88
00:05:26,560 --> 00:05:29,360
更可取的选择，特别是如果您想开始

89
00:05:29,360 --> 00:05:34,479
进行数据分析，并且使用木星笔记本作为我们的代码

90
00:05:34,479 --> 00:05:40,320
写作环境简单地说木星笔记本意味着

91
00:05:40,320 --> 00:05:44,560
在浏览器中使用定制或

92
00:05:44,560 --> 00:05:48,400
特定于python的界面很酷的地方是它可以运行

93
00:05:48,400 --> 00:05:53,199
在浏览器中，但它在我们的计算机上本地运行，如果

94
00:05:53,199 --> 00:05:56,560
对您来说听起来很奇怪，不用担心，我们将在几秒钟后进行介绍

95
00:05:56,560 --> 00:06:00,720
但是可以在jupiter.org上找到有关它的更多信息。

96
00:06:00,720 --> 00:06:04,960
正如我所说的，很酷的是，它是一种交互式

97
00:06:04,960 --> 00:06:08,639
我们可以看到python代码的浏览器界面

98
00:06:08,639 --> 00:06:11,840
我们的输入和输出在同一时间

99
00:06:11,840 --> 00:06:18,000
因此，如果我输入代码，我也可以在此看到此代码的结果

100
00:06:18,000 --> 00:06:21,759
顺便说一下，浏览器窗口还包括

101
00:06:21,759 --> 00:06:25,440
您会在整个视频中看到它，因此我认为

102
00:06:25,440 --> 00:06:28,319
python入门的最佳环境

103
00:06:28,319 --> 00:06:32,319
另一个问题是我们如何安装这样的jupyter笔记本

104
00:06:32,319 --> 00:06:36,000
好吧，你可以去jupiter.org并下载它

105
00:06:36,000 --> 00:06:40,479
或者您可以简单地打开终端或命令提示符

106
00:06:40,479 --> 00:06:44,479
现在键入conda list这是什么意思

107
00:06:44,479 --> 00:06:49,360
好吧，我们安装了anaconda，就像这个pip附带了python

108
00:06:49,360 --> 00:06:54,080
这个集成的软件包管理器anaconda还附带了一个集成的软件包

109
00:06:54,080 --> 00:06:57,599
经理，这就是这里和这个的简称

110
00:06:57,599 --> 00:07:02,000
cornerlist命令，按回车即可找到

111
00:07:02,000 --> 00:07:08,080
我们在anaconda发行版中安装的所有软件包的列表，因此

112
00:07:08,080 --> 00:07:13,199
这些软件包现在已安装在您的系统上，如果我们滚动

113
00:07:13,199 --> 00:07:19,440
往右上方一点，我们可以看到我们已经安装了木星

114
00:07:19,440 --> 00:07:22,800
已经如此，这正是我指的这个木星笔记本

115
00:07:22,800 --> 00:07:25,919
这对我们意味着什么，那么这意味着

116
00:07:25,919 --> 00:07:29,680
现在我们可以立即开始编写第一个python代码

117
00:07:29,680 --> 00:07:33,520
在这样的jupyter笔记本中，我会

118
00:07:33,520 --> 00:07:38,080
创建一个或使用新标签页在此处打开一个新标签页

119
00:07:38,080 --> 00:07:44,560
现在，如果我们现在按下Enter键，请像这样输入木星笔记本

120
00:07:44,560 --> 00:07:48,639
jupyter笔记本启动并运行，现在您应该看到

121
00:07:48,639 --> 00:07:51,840
您的jupyter笔记本，因此此浏览器窗口

122
00:07:51,840 --> 00:07:58,560
最后使用该特定定制界面进行操作，我进入了一个

123
00:07:58,560 --> 00:08:02,479
项目文件夹已经存在，因此请执行相同操作，因为您可以

124
00:08:02,479 --> 00:08:06,879
然后在您选择的文件夹中创建该笔记本

125
00:08:06,879 --> 00:08:11,520
如果现在我们在这里转到该页面右侧的新内容

126
00:08:11,520 --> 00:08:14,319
我们可以创建一个新的笔记本，这是我们将在几个步骤中完成的工作

127
00:08:14,319 --> 00:08:16,800
秒，也可以创建一个文本文件或

128
00:08:16,800 --> 00:08:19,680
例如，我们不需要文件夹

129
00:08:19,680 --> 00:08:22,879
创建一个python免费笔记本，因为那是python

130
00:08:22,879 --> 00:08:27,360
我们安装的版本，所以如果单击它，我们会看到这个新版本

131
00:08:27,360 --> 00:08:31,120
带有所谓单元格的窗口，此处单元格是

132
00:08:31,120 --> 00:08:33,919
jupyter笔记本，我们可以在其中编写我们的python代码

133
00:08:33,919 --> 00:08:37,680
我们也可以在此处重命名，如果我们单击以取消标题，然后调用

134
00:08:37,680 --> 00:08:42,000
python进行数据分析

135
00:08:42,000 --> 00:08:45,200
这样的事情不需要这样做，但是这就是您可以做到的

136
00:08:45,200 --> 00:08:49,200
重命名这样的jupyter笔记本，在这里我们现在可以写

137
00:08:49,200 --> 00:08:52,959
例如我们的python代码开始非常复杂

138
00:08:52,959 --> 00:08:58,080
假设像这样的两个加两个，现在您可以右击

139
00:08:58,080 --> 00:09:03,040
在这里或让我们做大概两个加四个也许

140
00:09:03,040 --> 00:09:06,720
按Shift键并输入此内容将基本上运行代码

141
00:09:06,720 --> 00:09:11,040
非常重要的是立即在此处显示输出

142
00:09:11,040 --> 00:09:14,160
这也是我看幻灯片时所指的内容

143
00:09:14,160 --> 00:09:17,360
笔记本允许我们同时查看输入和输出

144
00:09:17,360 --> 00:09:21,200
立即在同一页面上，这实际上很酷

145
00:09:21,200 --> 00:09:24,640
但是，我们还需要更改或理解两件事

146
00:09:24,640 --> 00:09:28,240
在我们最终深入研究数据分析代码之前

147
00:09:28,240 --> 00:09:33,120
首先，我们需要一个输入文件和一个我们想要很好地获取的源文件

148
00:09:33,120 --> 00:09:35,760
为此，您可以找到以下链接：

149
00:09:35,760 --> 00:09:39,519
视频说明中视频下方的源文件，因此只需单击

150
00:09:39,519 --> 00:09:44,720
到该链接上并下载文件，然后只需将该文件

151
00:09:44,720 --> 00:09:50,320
称为收入利润csv并将其拖放到文件夹中

152
00:09:50,320 --> 00:09:54,480
在我的情况下，您在创建该jupyter笔记本的地方是这个

153
00:09:54,480 --> 00:09:58,000
basics文件夹，在此文件夹中，您可以看到

154
00:09:58,000 --> 00:10:05,360
此python用于数据分析ipynb文件，该文件类型为jupyter notebook

155
00:10:05,360 --> 00:10:09,120
基本上创建并使用，并将其拖动到该文件夹​​中

156
00:10:09,120 --> 00:10:13,120
收入利润csv文件，所以这是添加的一件事

157
00:10:13,120 --> 00:10:16,959
源文件，但还有第二件事我们需要了解

158
00:10:16,959 --> 00:10:20,880
在我们最终开始分析csv文件之前，这带来了

159
00:10:20,880 --> 00:10:26,160
我们到了这段视频的最后一张幻灯片，因为我们谈到了python是一个

160
00:10:26,160 --> 00:10:30,160
基本上适用于任何形式的开源语言

161
00:10:30,160 --> 00:10:33,519
目的，因此我们可以安装其他

162
00:10:33,519 --> 00:10:38,720
我谈论过的软件包，python也已经内置了一些

163
00:10:38,720 --> 00:10:41,680
模块，但是如果您可以找到更多关于这些的信息

164
00:10:41,680 --> 00:10:46,800
谷歌的Python标准库，但尤其是如果数据

165
00:10:46,800 --> 00:10:49,600
科学目的或数据分析目的

166
00:10:49,600 --> 00:10:54,640
您将安装可选或第三方软件包和库

167
00:10:54,640 --> 00:10:58,240
现在有很多可用的库和软件包

168
00:10:58,240 --> 00:11:02,240
但是您很可能会使用三个最常见的

169
00:11:02,240 --> 00:11:09,279
现在是numpy pandas和matplotlib了，这些软件包的效果如何？

170
00:11:09,279 --> 00:11:12,399
numpy只是添加了多维数组支持，因此

171
00:11:12,399 --> 00:11:15,839
基本上能够读取python中的列和行

172
00:11:15,839 --> 00:11:23,360
简单地说，pandas允许我们添加改进或更好的数据操作

173
00:11:23,360 --> 00:11:26,880
和python和matplotlib的分析功能

174
00:11:26,880 --> 00:11:29,600
基本上可以使我们可视化信息

175
00:11:29,600 --> 00:11:33,120
现在，如果您考虑我们要做什么，我们希望能够很好地读取数据，分析

176
00:11:33,120 --> 00:11:37,360
数据并可视化这些软件包，现在听起来还不错

177
00:11:37,360 --> 00:11:41,680
这些软件包的妙处在于我们将它们安装在系统上

178
00:11:41,680 --> 00:11:43,760
已经因为记得我所说的

179
00:11:43,760 --> 00:11:48,640
anaconda附带的anaconda实际上是所有最受欢迎的

180
00:11:48,640 --> 00:11:52,880
包默认情况下，所以如果我们返回到

181
00:11:52,880 --> 00:11:57,279
终端就在这里，所以不进入那部分，而是进入我们所拥有的那部分

182
00:11:57,279 --> 00:12:00,639
康达清单命令，就像我们看到的木星

183
00:12:00,639 --> 00:12:03,920
在这里，我们还可以看到例如

184
00:12:03,920 --> 00:12:08,240
matplotlib在这里或熊猫

185
00:12:08,240 --> 00:12:11,440
就在那儿或那儿的麻木不就在那里

186
00:12:11,440 --> 00:12:15,680
这个是numpy的，所以这意味着我们在系统中安装了这些软件包

187
00:12:15,680 --> 00:12:18,720
或在我们的系统上，我们现在只需要导入这些

188
00:12:18,720 --> 00:12:23,600
我要做的项目就是回到我的Jupyter笔记本中

189
00:12:23,600 --> 00:12:30,639
现在我们可以简单地将import numpy键入为np，这就是我们

190
00:12:30,639 --> 00:12:33,920
将numpy导入我们的项目，我们也可以

191
00:12:33,920 --> 00:12:38,079
进口熊猫作为PD也是典型的方式

192
00:12:38,079 --> 00:12:43,279
我们将如何导入pandas包并进行转换并进入

193
00:12:43,279 --> 00:12:48,160
顺利完成此导入，这意味着我们现在可以使用此数据并

194
00:12:48,160 --> 00:12:51,440
特别是我们将在这里使用pandas包

195
00:12:51,440 --> 00:12:55,040
访问我们的csv数据，所以我们可以打电话

196
00:12:55,040 --> 00:12:58,160
此功能此阅读功能

197
00:12:58,160 --> 00:13:02,079
内容可能像这样，内容应该相等

198
00:13:02,079 --> 00:13:09,040
pd点，这基本上意味着我们现在要访问一个函数

199
00:13:09,040 --> 00:13:13,200
在熊猫中可用，如果我们现在点击选项卡

200
00:13:13,200 --> 00:13:16,800
您会发现实现了许多不同的功能

201
00:13:16,800 --> 00:13:21,600
如果我们向下滚动一点，现在进入这个熊猫包

202
00:13:21,600 --> 00:13:26,880
在这里，我们可以看到此pd.read.csv功能

203
00:13:26,880 --> 00:13:30,959
因为我们要访问一个csv文件，这听起来并不是最糟糕的计划

204
00:13:30,959 --> 00:13:35,440
因此，如果单击该按钮，我们现在基本上可以访问csv文件了

205
00:13:35,440 --> 00:13:38,639
我们只需要告诉python或pandas

206
00:13:38,639 --> 00:13:42,000
文件名或我们文件的路径

207
00:13:42,000 --> 00:13:45,279
让我们在这里添加括号，现在开始

208
00:13:45,279 --> 00:13:49,120
在我们当前的运行下面插入另一个像这样的单元格

209
00:13:49,120 --> 00:13:52,399
因为在我们的案例中，木星笔记本文件

210
00:13:52,399 --> 00:13:55,920
和源文件位于basics文件夹中的同一文件夹中

211
00:13:55,920 --> 00:14:00,399
因此，如果现在输入像这样的ls，则可以看到我们有

212
00:14:00,399 --> 00:14:04,399
python文件，我们有我们的profitprofit.csv文件

213
00:14:04,399 --> 00:14:07,519
这就是我们现在可以选择的名称，所以选择它

214
00:14:07,519 --> 00:14:13,199
并将其复制，然后将其粘贴到方括号中，确保同时添加

215
00:14:13,199 --> 00:14:17,040
单引号，否则这在这里不起作用，您

216
00:14:17,040 --> 00:14:20,320
也可以在这里用ls选择单元格

217
00:14:20,320 --> 00:14:24,880
我们不再需要它，请按E键，然后按两次d

218
00:14:24,880 --> 00:14:29,040
像这样删除一个单元格是一个很好的功能，它可能对某些人有帮助

219
00:14:29,040 --> 00:14:33,120
因此，我们现在说

220
00:14:33,120 --> 00:14:37,199
如果我们在这里使用内容，我们想阅读该内容

221
00:14:37,199 --> 00:14:41,839
csv文件，所以我们按shift并输入，如您所见

222
00:14:41,839 --> 00:14:45,440
正如我们之前看到的，这里没有任何内容显示为输出

223
00:14:45,440 --> 00:14:50,320
但如果我们现在这样输入内容，然后按shift键并再次输入

224
00:14:50,320 --> 00:14:54,560
那么我们可以看到我们的输出或基本上看不到输出

225
00:14:54,560 --> 00:15:00,079
CSV文件的内容我们可以看到我们有一些问题

226
00:15:00,079 --> 00:15:03,440
仍然是因为显然分隔符不是

227
00:15:03,440 --> 00:15:06,959
对我们而言，正确的是，最棒的是

228
00:15:06,959 --> 00:15:10,639
添加文件名或包含文件名的路径（如果）

229
00:15:10,639 --> 00:15:14,160
该文件与以下情况不在同一个文件夹中

230
00:15:14,160 --> 00:15:17,040
我们您也可以在此处添加其他参数

231
00:15:17,040 --> 00:15:24,079
因此，如果我们输入或添加逗号，然后说树液等于

232
00:15:24,079 --> 00:15:27,519
现在单引号现在我们可以定义

233
00:15:27,519 --> 00:15:33,120
我们的分隔符我们的分隔符在这里，我们应该是分号

234
00:15:33,120 --> 00:15:38,880
因此，如果我们添加分号并且现在很重要，请运行此命令

235
00:15:38,880 --> 00:15:41,920
单元格再次在这里重要，您始终必须

236
00:15:41,920 --> 00:15:46,079
重新运行单元以确保已应用更改，现在运行一次该单元

237
00:15:46,079 --> 00:15:49,920
再次您可以看到显示了我们的文件

238
00:15:49,920 --> 00:15:53,199
现在正确地谈论文件并被

239
00:15:53,199 --> 00:15:57,360
正确显示我们在这里实际看到的内容

240
00:15:57,360 --> 00:16:02,399
如果我们单击进入此单元格，然后输入类型并输入内容

241
00:16:02,399 --> 00:16:05,600
所以我们显示的内容类型正确

242
00:16:05,600 --> 00:16:10,880
在这里，再按一次shift并输入，我们可以看到熊猫创建了一个

243
00:16:10,880 --> 00:16:14,480
所谓的数据框现在我也不想潜水

244
00:16:14,480 --> 00:16:16,800
这些数据帧的细节

245
00:16:16,800 --> 00:16:19,360
但重要的是，数据帧

246
00:16:19,360 --> 00:16:22,639
简单地代表这个结构

247
00:16:22,639 --> 00:16:26,079
所以我们有一个表格结构，这很重要

248
00:16:26,079 --> 00:16:29,199
索引表格结构，这意味着我们有一个

249
00:16:29,199 --> 00:16:34,240
在这种情况下，行0到7的索引，我们也有一个索引

250
00:16:34,240 --> 00:16:37,680
在我们的案例中，此索引是自动创建的列

251
00:16:37,680 --> 00:16:41,759
因为csv文件具有标头，所以我们的标头现在基本上是

252
00:16:41,759 --> 00:16:45,680
我们不同列的索引，但是您也可以创建这些索引

253
00:16:45,680 --> 00:16:48,880
单凭您自己，我们将永远不会在此视频中看到

254
00:16:48,880 --> 00:16:52,800
因此，请记住，我们这里有一个数据框，它是一个结构

255
00:16:52,800 --> 00:16:56,480
由熊猫创建，我们可以使用此数据框

256
00:16:56,480 --> 00:17:02,160
基本上通过某些索引访问列和行，我们将看到

257
00:17:02,160 --> 00:17:06,720
现在，通过这种数据帧结构，这可以在几秒钟内完成

258
00:17:06,720 --> 00:17:10,240
也有很多数据框功能，您现在可以说

259
00:17:10,240 --> 00:17:15,280
你的意思是，如果我再次在这里输入内容

260
00:17:15,280 --> 00:17:20,160
现在键入head并添加括号，然后按shift键并输入

261
00:17:20,160 --> 00:17:23,360
您基本上可以看到我们之前的结构

262
00:17:23,360 --> 00:17:27,520
现在的区别是我们没有完整的内容预览

263
00:17:27,520 --> 00:17:30,080
在这里，但我们只能看到预览

264
00:17:30,080 --> 00:17:33,280
现在可以自行定义您的意思

265
00:17:33,280 --> 00:17:36,720
默认情况下，头部将我们返回前五行

266
00:17:36,720 --> 00:17:41,200
的文件，但如果我在此处在这些括号中输入免费

267
00:17:41,200 --> 00:17:45,520
然后按Shift键并再次输入，您会看到我们只看到第一个

268
00:17:45,520 --> 00:17:49,360
三行，如果我输入四行，您会看到现在如何工作，我们得到四行，

269
00:17:49,360 --> 00:17:52,720
依此类推，如果我们在此处输入8，因为

270
00:17:52,720 --> 00:17:56,240
我们有八行零，索引为零

271
00:17:56,240 --> 00:17:59,280
七点，那么我们得到了全部内容，所以

272
00:17:59,280 --> 00:18:03,520
已经是熊猫的特定数据框功能

273
00:18:03,520 --> 00:18:08,160
但是我们有更多这样的例子，例如，我们可以看到这里没有数据

274
00:18:08,160 --> 00:18:11,200
显然不是我们专栏的正确标签

275
00:18:11,200 --> 00:18:14,480
我们可以轻松地在熊猫中重命名该名称

276
00:18:14,480 --> 00:18:20,400
我会再次将内容设置为等于某个值，而这仅仅是

277
00:18:20,400 --> 00:18:23,600
内容点现在再次点击标签，现在您可以看到

278
00:18:23,600 --> 00:18:26,240
我们可以做很多不同的事情

279
00:18:26,240 --> 00:18:30,240
与我们的内容一起向下滚动，一件有趣的事情在这里

280
00:18:30,240 --> 00:18:36,000
是我们可以像这样重命名，现在我们只需将括号打开一次

281
00:18:36,000 --> 00:18:38,799
再次，我们要重命名什么，我们

282
00:18:38,799 --> 00:18:43,600
要重命名某个列，我们只需键入列

283
00:18:43,600 --> 00:18:49,760
这样等于现在是大括号，现在我们需要两件事

284
00:18:49,760 --> 00:18:52,480
当前名称的名称

285
00:18:52,480 --> 00:18:56,960
标签，因此在我们的情况下这没有数据，现在我们添加一个冒号

286
00:18:56,960 --> 00:19:00,559
现在我们定义我们想要的新标签名称

287
00:19:00,559 --> 00:19:03,520
我们的情况，我想如果我们现在按

288
00:19:03,520 --> 00:19:06,960
转移并进入，我们什么也看不到，但是如果我们再次出现

289
00:19:06,960 --> 00:19:12,080
说内容哎呀像这样

290
00:19:12,080 --> 00:19:18,400
四五，您可以看到该年现在没有数据，因此我们可以

291
00:19:18,400 --> 00:19:21,440
还可以轻松访问数据并在此处进行更改

292
00:19:21,440 --> 00:19:25,440
现在在笔记本中，我们的数据看起来

293
00:19:25,440 --> 00:19:30,640
很好，现在我们要访问特定的行或列，让我们从

294
00:19:30,640 --> 00:19:34,240
特定的行，也许让我们开始吧，假设我们想要

295
00:19:34,240 --> 00:19:38,880
假设某年是一年

296
00:19:38,880 --> 00:19:43,600
例如，我们只想检索2012年的数据

297
00:19:43,600 --> 00:19:47,840
为此，我们可以说内容，因为这就是我们要访问的内容

298
00:19:47,840 --> 00:19:52,480
特别是我们要访问内容的年份列

299
00:19:52,480 --> 00:19:59,120
表格在我们的csv文件中，然后我们可以将年份设置为2012

300
00:19:59,120 --> 00:20:04,960
这样，现在按shift并输入，如果我们现在简单地说

301
00:20:04,960 --> 00:20:10,559
这样的一年，那么您可以看到我们检索了该年度的数据

302
00:20:10,559 --> 00:20:14,799
仅2012年，这是我们获取资源的一种方式

303
00:20:14,799 --> 00:20:18,720
现在是特定行，那么列呢？

304
00:20:18,720 --> 00:20:24,080
还可以说我们是否要访问单个列

305
00:20:24,080 --> 00:20:27,919
一种方法是直接在此处键入内容

306
00:20:27,919 --> 00:20:32,640
在内容之后，我们现在可以指定我们要访问的列

307
00:20:32,640 --> 00:20:36,559
在我们的情况下，如果我们现在按shift键并输入

308
00:20:36,559 --> 00:20:41,760
然后在此处输入单列，那么您会看到我们只得到了

309
00:20:41,760 --> 00:20:48,159
收入列的数据，例如100100，如果要访问

310
00:20:48,159 --> 00:20:51,520
顺便说一句，你也可以写这样的东西

311
00:20:51,520 --> 00:20:55,440
所以你打开花括号两次，现在说你想

312
00:20:55,440 --> 00:21:02,320
这样的收入和那样的利润

313
00:21:02,320 --> 00:21:05,600
您会看到我们有收入和利润列

314
00:21:05,600 --> 00:21:10,080
现在在我们的表中这两种访问数据的方式都是

315
00:21:10,080 --> 00:21:13,120
很好，但我认为这些内容并不十分清楚，

316
00:21:13,120 --> 00:21:16,159
真的很灵活，正如我所说的

317
00:21:16,159 --> 00:21:19,200
因此，我们还有另一个功能

318
00:21:19,200 --> 00:21:23,120
实施到大熊猫中，这使事情变得容易得多

319
00:21:23,120 --> 00:21:26,720
所谓的对数论证现在是什么意思

320
00:21:26,720 --> 00:21:32,640
好吧，我们可以简单地访问我们的内容，所以这里的内容一次

321
00:21:32,640 --> 00:21:37,280
再次输入内容时，现在我们向其中添加日志

322
00:21:37,280 --> 00:21:41,120
那，这只是让我们选择

323
00:21:41,120 --> 00:21:44,960
行和列的标签名称

324
00:21:44,960 --> 00:21:48,240
这使得它真的很容易使用，因为

325
00:21:48,240 --> 00:21:51,840
我们可以在这里看到，对于行，标签名称从0开始

326
00:21:51,840 --> 00:21:57,200
到4实际上不是4如果我们增加头部，我们可以看到它是

327
00:21:57,200 --> 00:22:02,880
零到七，实际上我们有列标签

328
00:22:02,880 --> 00:22:06,000
命名年度收入成本和利润等

329
00:22:06,000 --> 00:22:09,760
现在这意味着什么，让我也许先添加另一个

330
00:22:09,760 --> 00:22:13,039
上方的单元格，让我们再打印一次头部

331
00:22:13,039 --> 00:22:19,039
现在在这里看到我们的整个桌子我在这里可以说的是

332
00:22:19,039 --> 00:22:23,200
喜欢有标签名称的行

333
00:22:23,200 --> 00:22:29,600
两个，我想让带有标签名称的列收益

334
00:22:29,600 --> 00:22:34,080
像这样，如果我这样做，你可以看到我们得到

335
00:22:34,080 --> 00:22:38,159
130正是我们在这里看到的，因为这一年的收入

336
00:22:38,159 --> 00:22:43,440
2012年是130岁，但我们可以做得更多，比如说我们

337
00:22:43,440 --> 00:22:47,600
想要添加2015年。为此，我们可以

338
00:22:47,600 --> 00:22:51,200
只需在此处添加5，但现在将这两个都放

339
00:22:51,200 --> 00:22:54,640
放入花括号中，否则将无法正常工作

340
00:22:54,640 --> 00:22:57,840
这样，我们基本上想要拥有的是

341
00:22:57,840 --> 00:23:01,360
想要显示收入列或

342
00:23:01,360 --> 00:23:05,679
基本上带有标签2和5的年份的收入。因此

343
00:23:05,679 --> 00:23:09,520
2012年和2015年。如果我们现在按shift键并输入

344
00:23:09,520 --> 00:23:14,640
好吧，您会看到我们在这里得到130，在那儿得到179

345
00:23:14,640 --> 00:23:18,640
相同的逻辑当然也适用于列标签

346
00:23:18,640 --> 00:23:22,159
因此，如果我们在此处添加方括号，然后

347
00:23:22,159 --> 00:23:26,640
只需将收入放在这里，现在还添加利润

348
00:23:26,640 --> 00:23:30,240
这样，然后按Shift键并输入，您可以看到我们得到了

349
00:23:30,240 --> 00:23:33,679
该行的第二和第五个标签名称

350
00:23:33,679 --> 00:23:37,039
和两列用于收入和利润

351
00:23:37,039 --> 00:23:41,039
您也可以说您想拥有特定数据

352
00:23:41,039 --> 00:23:44,720
几年的范围，所以假设您要从2012年开始

353
00:23:44,720 --> 00:23:49,039
并且您想要到2017年的数据。为此，您可以说您想要

354
00:23:49,039 --> 00:23:53,039
从标签名称角度来看，最多有2到7

355
00:23:53,039 --> 00:23:57,600
这可以摆脱这里的方括号，只需键入2

356
00:23:57,600 --> 00:24:01,520
像这样重要的7

357
00:24:01,520 --> 00:24:06,080
标签名称，因此包括所有这些行，因此如果我输入shift

358
00:24:06,080 --> 00:24:08,960
然后输入现在，您可以看到我们得到

359
00:24:08,960 --> 00:24:13,520
从2012年到2017年的所有数据

360
00:24:13,520 --> 00:24:17,440
就在那里的专栏，当然我们也可以包括

361
00:24:17,440 --> 00:24:21,279
例如，那里的一年，以确保我们可以实际看到

362
00:24:21,279 --> 00:24:24,640
如果您想拥有，我们指的是哪一年

363
00:24:24,640 --> 00:24:28,320
所有列都包含在这里，那么您还可以

364
00:24:28,320 --> 00:24:32,559
像这样删除它，并在该位置添加冒号

365
00:24:32,559 --> 00:24:36,400
您可以看到我们添加了所有列和选定的行

366
00:24:36,400 --> 00:24:39,679
正如我们在这里定义的那样，您也可以这样

367
00:24:39,679 --> 00:24:43,279
这也可以工作，但这不是来自python的最佳实践代码

368
00:24:43,279 --> 00:24:46,720
透视，因为您应该始终保持精确

369
00:24:46,720 --> 00:24:49,600
尽可能清楚地知道我们要实现的目标

370
00:24:49,600 --> 00:24:52,880
代码，因此请务必确保在此处添加冒号

371
00:24:52,880 --> 00:24:56,720
结果相同，但最终代码更好，所以我们可以这样做

372
00:24:56,720 --> 00:25:01,440
基本上定制我们要显示的列和行

373
00:25:01,440 --> 00:25:05,919
在这里我也想向您展示另一个功能，这不是

374
00:25:05,919 --> 00:25:09,760
记住这一点的锁定参数是指

375
00:25:09,760 --> 00:25:13,600
标签名称，所以这就是这里和标签

376
00:25:13,600 --> 00:25:16,400
在这里命名我们针对不同的索引

377
00:25:16,400 --> 00:25:22,000
行，但我们也有我这样的样子，我登录只是指

378
00:25:22,000 --> 00:25:25,039
您可以说这些的整数

379
00:25:25,039 --> 00:25:27,760
现在不同的行和列是什么意思

380
00:25:27,760 --> 00:25:31,279
好吧，我们只需添加ilok，然后

381
00:25:31,279 --> 00:25:36,320
只需按shift并输入，就可以看到我们的表格的方式

382
00:25:36,320 --> 00:25:40,559
所显示的列更改为保留的列

383
00:25:40,559 --> 00:25:44,960
相同，因为我们要显示所有列，但要显示行

384
00:25:44,960 --> 00:25:49,120
这里仍然包含2012年，但我们没有

385
00:25:49,120 --> 00:25:53,840
您可以说的数字7因此，2017年已包括在此处

386
00:25:53,840 --> 00:25:58,159
现在的原因是该锁引用了标签名称

387
00:25:58,159 --> 00:26:02,240
我们想在这里包含标签名称，所以它在那里

388
00:26:02,240 --> 00:26:08,559
现在也将其放入我们的输出以进行ilock行为是不同的

389
00:26:08,559 --> 00:26:12,080
ilock在这里排除了最后一个值，所以我们基本上

390
00:26:12,080 --> 00:26:15,760
包括第二个标签，但我们排除最后一个

391
00:26:15,760 --> 00:26:18,799
这是您必须记住的重要事情，这仅仅是

392
00:26:18,799 --> 00:26:23,120
这两个不同的参数如何表现，您在这里也可以做的是

393
00:26:23,120 --> 00:26:26,320
您可以添加诸如收入之类的内容，然后

394
00:26:26,320 --> 00:26:32,159
访问不起作用的收入，为什么不起作用，因为正如我所说

395
00:26:32,159 --> 00:26:35,200
我登录是指整数，所以你必须

396
00:26:35,200 --> 00:26:38,960
在这里写数字索引号可以访问

397
00:26:38,960 --> 00:26:42,240
现在不同的数据对收入意味着什么

398
00:26:42,240 --> 00:26:46,880
好吧，这里的收入具有索引一，为什么具有

399
00:26:46,880 --> 00:26:50,080
索引一，因为索引在索引中从零开始

400
00:26:50,080 --> 00:26:53,279
第一列，然后是年份，然后在其中继续

401
00:26:53,279 --> 00:26:57,760
第二个三分是二个四分之一是三等，依此类推，如果我输入

402
00:26:57,760 --> 00:27:01,520
现在在这里一个，然后按Shift输入您可以

403
00:27:01,520 --> 00:27:03,760
看到我们的收入列正确

404
00:27:03,760 --> 00:27:07,200
在那里，我们从特定行之前就知道了

405
00:27:07,200 --> 00:27:11,919
根据我们的索引号定义，我们还可以添加

406
00:27:11,919 --> 00:27:16,000
一个冒号，可能是三个，所以这将是零

407
00:27:16,000 --> 00:27:19,200
一二三，但如果我们按shift键并输入

408
00:27:19,200 --> 00:27:22,640
好，您会看到不包含利润列

409
00:27:22,640 --> 00:27:26,080
再次由于这种行为，我登录不

410
00:27:26,080 --> 00:27:31,360
正如我所说的那样，在结果中包括最后一个索引号

411
00:27:31,360 --> 00:27:35,520
您必须牢记，所以让我们也许再次添加年份

412
00:27:35,520 --> 00:27:38,159
认为这是替换数据的更好方法

413
00:27:38,159 --> 00:27:41,840
所以说这是我们现在的决赛桌

414
00:27:41,840 --> 00:27:44,880
其中包括我们要显示的所有数据

415
00:27:44,880 --> 00:27:50,159
因此，现在让我们将内容设置为等于我们在此处拥有的内容

416
00:27:50,159 --> 00:27:56,080
因此，如果我们现在按shift并输入并说出内容

417
00:27:56,080 --> 00:28:00,960
再次进入并输入八个，您会看到我们没有显示

418
00:28:00,960 --> 00:28:04,480
一开始是八行，但只有五行

419
00:28:04,480 --> 00:28:08,960
以及我们现在在此处为内容定义的三列

420
00:28:08,960 --> 00:28:13,120
这样，我们现在可以继续执行最后两个步骤，我想向您展示

421
00:28:13,120 --> 00:28:16,480
在此视频中，一件事是describe参数

422
00:28:16,480 --> 00:28:18,880
因为它可以使您变得很大

423
00:28:18,880 --> 00:28:23,279
或快速了解一些与您的数据相关的统计信息

424
00:28:23,279 --> 00:28:27,200
所以只需在这里输入内容点描述

425
00:28:27,200 --> 00:28:31,120
还有咖喱和方括号，如果您现在按shift键并输入

426
00:28:31,120 --> 00:28:35,440
您可以看到有关数据的一些非常基本的统计信息

427
00:28:35,440 --> 00:28:39,360
您可以看到我们有五个不同的年份，所以有五个不同的收入数据

428
00:28:39,360 --> 00:28:44,240
和成本数据，您可以看到平均值，您可以看到标准差

429
00:28:44,240 --> 00:28:47,360
您可以看到一个最小值和一个最大值

430
00:28:47,360 --> 00:28:50,720
所以我不会太深入，我认为这很简单

431
00:28:50,720 --> 00:28:53,919
我只是想确保您知道此功能

432
00:28:53,919 --> 00:28:57,279
也包括在大熊猫里

433
00:28:57,279 --> 00:29:01,360
现在在这里，描述论点让我结束这段视频

434
00:29:01,360 --> 00:29:05,120
通过绘制快速图表，我说我们将需要

435
00:29:05,120 --> 00:29:08,240
matplotlib库，并且我们已经安装了它

436
00:29:08,240 --> 00:29:13,919
作为anaconda导航器的一部分，因此在创建该快速图表之前，让我们

437
00:29:13,919 --> 00:29:17,200
转到matplotlib页面，看看有什么matplotlib

438
00:29:17,200 --> 00:29:21,120
实际上就是这样，我们在matplotlib.org上

439
00:29:21,120 --> 00:29:24,480
以及您可以在这里阅读的内容matplotlib

440
00:29:24,480 --> 00:29:27,840
基本上可以让我们快速创建漂亮的

441
00:29:27,840 --> 00:29:31,200
和量身定制的个性化图表

442
00:29:31,200 --> 00:29:34,640
用于我们的python代码和我们的数据

443
00:29:34,640 --> 00:29:38,559
现在，我将不在本视频中介绍整个文档

444
00:29:38,559 --> 00:29:42,640
很高兴看到的是此示例页面在这里

445
00:29:42,640 --> 00:29:46,799
因为例如如果您转到堆栈条形图，则可以看到图表类型和

446
00:29:46,799 --> 00:29:51,200
它在python中看起来像什么，您还可以看到我们有一些

447
00:29:51,200 --> 00:29:53,919
此处的示例代码，因此可以随意使用

448
00:29:53,919 --> 00:29:58,720
代码并创建自己的图表，您也可以通过此导入看到

449
00:29:58,720 --> 00:30:03,760
我们将在与pi plot结合使用时很好地使用matplotlib

450
00:30:03,760 --> 00:30:06,720
在这里找到基本上可以提供类似matlab的功能

451
00:30:06,720 --> 00:30:11,679
用于python代码的绘图框架，我们现在不再深入探讨

452
00:30:11,679 --> 00:30:13,679
重要的是我们可以简单地

453
00:30:13,679 --> 00:30:17,919
在这里执行此命令并在那里快速创建图表

454
00:30:17,919 --> 00:30:22,080
折线图这样回到我们的jupyter笔记本中

455
00:30:22,080 --> 00:30:29,760
现在，我们可以导入matplotlib点pi图，就像将其视为plt一样

456
00:30:29,760 --> 00:30:33,120
能够在此处绘制图表非常重要

457
00:30:33,120 --> 00:30:36,559
在我们的jupyter笔记本中，我们必须输入

458
00:30:36,559 --> 00:30:42,880
像这样的哑光情节唇膏

459
00:30:42,880 --> 00:30:46,640
像这样一行，所以如果我们现在按shift并输入

460
00:30:46,640 --> 00:30:53,360
我们应该准备好将这些数据放入图表中

461
00:30:53,360 --> 00:30:57,679
再次打印头以确保我们可以看到

462
00:30:57,679 --> 00:31:00,960
我们实际上要在此处打印哪些数据

463
00:31:00,960 --> 00:31:04,080
现在我们如何才能做到这一点呢，现在我们可以参考我们的

464
00:31:04,080 --> 00:31:10,320
好的pi图在这里作为plt，所以我们键入plt点

465
00:31:10,320 --> 00:31:15,039
情节是第一件事，现在我们必须指定

466
00:31:15,039 --> 00:31:19,200
我们到底要在此图表中显示什么数据

467
00:31:19,200 --> 00:31:22,960
在我们的情况下，我会说x轴可能是年份

468
00:31:22,960 --> 00:31:29,279
所以内容点年，对于我们的y轴，我会说

469
00:31:29,279 --> 00:31:32,320
基本上只是想显示我们的收入，所以说

470
00:31:32,320 --> 00:31:37,120
这样的内容点收入，这就是我们要正确显示的数据

471
00:31:37,120 --> 00:31:40,640
这里我们需要的是一些标签

472
00:31:40,640 --> 00:31:45,919
让我们输入一次plt xlabel并为其命名

473
00:31:45,919 --> 00:31:49,440
好年，然后我们需要

474
00:31:49,440 --> 00:31:52,559
标签也应该有好名字

475
00:31:52,559 --> 00:31:55,919
收入，现在我们终于要确定

476
00:31:55,919 --> 00:32:00,559
我们可以显示该图表，因此我们只需键入plt.show就可以了

477
00:32:00,559 --> 00:32:04,240
然后按下shift并进入，由此我们可以看到

478
00:32:04,240 --> 00:32:08,720
现在我们创建了第一个图表，我们可以看到y轴的名称

479
00:32:08,720 --> 00:32:11,840
x轴，我们可以看到我们有一些问题

480
00:32:11,840 --> 00:32:16,559
虽然我们有约会，但这是我们现在不打算将2d潜入的东西

481
00:32:16,559 --> 00:32:19,760
我们还可以看到我们的收入显示在这里

482
00:32:19,760 --> 00:32:23,440
现在肯定不是最漂亮的图表，但是我们仍然

483
00:32:23,440 --> 00:32:26,720
从python安装到

484
00:32:26,720 --> 00:32:30,320
从我们甚至连接或读取csv文件中的数据

485
00:32:30,320 --> 00:32:35,360
我们选择或访问特定列的重命名列标签

486
00:32:35,360 --> 00:32:38,720
和行，我们最终创造了一口井

487
00:32:38,720 --> 00:32:41,440
美丽的图表在这里，这就是它

488
00:32:41,440 --> 00:32:45,200
您可以想象的入门视频，我们只是在

489
00:32:45,200 --> 00:32:50,159
python及其数据分析功能的非常基础的知识，但是

490
00:32:50,159 --> 00:32:52,960
这些仍然是第一步

491
00:32:52,960 --> 00:32:57,919
帮助您掌握与数据分析有关的python，因此我希望

492
00:32:57,919 --> 00:33:00,640
您喜欢这部影片，对您有帮助

493
00:33:00,640 --> 00:33:04,000
我当然希望在下一个视频中见到您

494
00:33:04,000 --> 00:33:07,440
也与python和数据分析有关

495
00:33:07,440 --> 00:33:12,799
非常感谢您的观看，并在接下来的视频之一中见到您

496
00:33:12,840 --> 00:33:15,840
再见


