小言_互联网的博客

Jupyter Notebook:让编程就像搭积木

375人阅读  评论(0)

Jupyter Notebook:让编程就像搭积木

1. 为何选择 Jupyter Notebook?

当我们想要进行类似机器学习、大数据这样的分析编程时,如果是在例如 PyChram 这样的编译器上写,一般是要把整个代码文件写完,然后再运行。这样的缺点就是如果中间某行出现了 Bug,我们就要排除,然后再重新运行整个文档,或者是 Debug。

但是如果是在 Jupyter Notebook 上,我们就可以一小块一小块的去运行,碰到不合预期的结果,可以很方便的回到特定的单元,去输出各种变量,排查错误。

这种感觉就像是搭积木,一小块一小块的去写,这样慢慢一步一步地把整个代码写完整,再一齐运行。而且在代码的各个单元之间,还能插入 Markdown 文本,对于一些框架的学习,和代码阅读也是很方便的。

这篇文章,浅显地讲一下 Jupyter 的一些特性,安装的部分也很简单,但是这里没有讲,可以容易地在网上就找到教程。

2. 常用技巧1

2.1. 遇到不懂?—— 抛问号(?)

即使是大神,也会碰到不懂或者不熟悉的函数或者类。在使用 Python 的时候,我们常常利用 help() 函数来获得关于函数的信息。

但是在 Jupyter 上,我们只需要使用问号符 ?,就可以迅速地获得这些信息。如果想要获得源码的时候,可以利用双问号符 ??

注:如果双问号符 ?? 并没有显示源码,通常是因为该对象并没有在 Python 中执行,而使用 C 或其他编程语言。这种情况下会输出与单问号符 ? 一样的结果。

2.2. 不想逐个字母的敲?—— Tab 帮你自动补全

我们在使用 PyCharm 或者类似的编译器时,都能够利用 <Tab> 来补全对象、模块或者函数、类、变量的名词,这样就大大的加快了我们的速度。每一次敲击 <Tab> 都会带来一种莫名的酸爽。

在 Jupyter Notebook 上面也可以,当你习惯了如此编写代码,你会感觉不能用 <Tab> 的时候连写代码都了无生趣了。

通配符匹配:当我们知道首字母时,就可以直接用 <Tab> 让 Jupyter 帮我们匹配后面的字母。但是当只知道结尾的字母时,我们可以使用通配符(*)问号符 ?来找到各种组合:

通配符(*)可以放在任意的位置

2.3. 更多的操作 —— 特殊命令

在 Jupyter 上还有一种被称为 Magic Commands 的命令,是为了方便我们高效地进行数据分析的工作而设计的。它使用一个前缀符号 % 来修饰,其中一个百分号 % 代表只影响接下来的一行代码,而两个百分号 %% 代表对当前单元的影响。

(1)代码运行效率 %time 和 %timeit

平时使用 PyCharm 时,想要测试不同代码的执行速度,我们会使用 time 模块来赋值两个变量,通过输出两者之差来获得代码的执行时间。但是在 Jupyter 上,我们可以很简单的执行这种操作,通过利用 %time 和 %timeit:

In[1]: %timeit sum(range(100))

1.6 µs ± 52 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

# Jupyter 会自动根据代码运行的时间花费,调整重复的次数。
In[2]: %%timeit
	   total = 0
	   for i in range(1000):
	       for j in range(1000):
	           total += i * (-1) ** j

561 ms ± 6.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

不过,有时候重复执行代码的时间花费相差巨大,例如排序算法,当第二次执行的时候,数组已经是排好序的,代码的执行时间就会变很少。对于这种情况,我们使用 %time

In[1]: import random
   	   L = [random.random() for i in range(100000)]
	   %timeit L.sort()
	   
3.3 ms ± 316 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In[2]: L = [random.random() for i in range(100000)]
	   print("排序乱序列表:")
	   %time L.sort()

排序乱序列表:
Wall time: 35 ms
    
In[3]: print("排序顺序列表:")
	   %time L.sort()
    
排序顺序列表:
Wall time: 3 ms
    
In[4]: %%time
	   total = 0
	   for i in range(1000):
	       for j in range(1000):
    	       total += i * (-1) ** j
            
Wall time: 691 ms

此外,还有很多的 Magic Command,可以使用 %magic 命令来,查看文档。


  1. Python Data Science Handbook, Jake VanderPlas ↩︎


转载:https://blog.csdn.net/weixin_39679367/article/details/104971699
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场