ASP源码.NET源码PHP源码JSP源码JAVA源码DELPHI源码PB源码VC源码VB源码Android源码
当前位置:首页 >> 网络编程 >> Python教程 >> python爬虫 python 进程

python爬虫 python 进程(1/2)

来源:网络整理     时间:2017-12-06     关键词:python爬虫

本篇文章主要介绍了"python爬虫 python 进程",主要涉及到python爬虫方面的内容,对于Python教程感兴趣的同学可以参考一下: 参考博客:https://www.cnblogs.com/vamei/archive/2012/10/12/2721484.html一、前言  Python的线...

参考博客:https://www.cnblogs.com/vamei/archive/2012/10/12/2721484.html

一、前言

  Python的线程或进程都是调用操作系统的原生线程或进程,但是由于GIL的存在,python多线程并不能利用cpu多核的优势。而python的进程是不存在GIL的,各个进程间的数据是独立的安全的,所有python多进程可以利用多核优势。

  各自适用情况:

  python多线程: I/O 操作密集型任务

  python多进程: CPU密集型任务

二、multiprocessing  

multiprocessing is a package that supports spawning processes using an API similar to the threading module.

The multiprocessing package offers both local and remote concurrency, 
effectively side-stepping the Global Interpreter Lock by using subprocesses instead of threads. 

Due to this, the multiprocessing module allows the programmer to fully leverage multiple processors on a given machine. 
It runs on both Unix and Windows.


multiprocessing包是Python中的多进程管理包,用类似于线程模块的API来创建进程(multiprocessing的很大一部份与threading使用同一套API,只不过换到了多进程的情境)。

多进程管理包提供本地和远程的并发,通过使用子进程而不是线程有效的避开了GIL

由于这个原因,multiprocessing允许程序员充分利用给定机器上的多个处理器。
它可以在Unix和Windows上运行。

  与threading.Thread类似,它可以利用multiprocessing.Process对象来创建一个进程。该进程可以运行在Python程序内部编写的函数。该Process对象与Thread对象的用法相同,也有start(), run(), join()的方法。此外multiprocessing包中也有Lock/Event/Semaphore/Condition类

但在使用这些共享API的时候,我们要注意以下几点:

  • 在UNIX平台上,当某个进程终结之后,该进程需要被其父进程调用wait,否则进程成为僵尸进程(Zombie)。所以,有必要对每个Process对象调用join()方法 (实际上等同于wait)。对于多线程来说,由于只有一个进程,所以不存在此必要性。
  • multiprocessing提供了threading包中没有的IPC(比如Pipe和Queue),效率上更高。应优先考虑Pipe和Queue,避免使用Lock/Event/Semaphore/Condition等同步方式 (因为它们占据的不是用户进程的资源)。
  • 多进程应该避免共享资源。在多线程中,我们可以比较容易地共享资源,比如使用全局变量或者传递参数。在多进程情况下,由于每个进程有自己独立的内存空间,以上方法并不合适。此时我们可以通过共享内存和Manager的方法来共享资源。但这样做提高了程序的复杂度,并因为同步的需要而降低了程序的效率。

Process.PID中保存有PID,如果进程还没有start(),则PID为None。

三、事例

  3.1 定义进程

python爬虫相关图片

python爬虫相关文章