当前位置:首页 > 科技 > 正文

python多线程面试题,多线程面试题及答案

python多线程面试题,多线程面试题及答案

大家好,今天给各位分享python多线程面试题的一些知识,其中也会对多线程面试题及答案进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就...

大家好,今天给各位分享python多线程面试题的一些知识,其中也会对多线程面试题及答案进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧!

php多线程能利用多核吗

PHP本身是单线程执行的编程语言,由于其设计原因,不支持多线程。这意味着在传统的PHP环境下,无法直接利用多核处理器的优势。

然而,虽然PHP本身不支持多线程,但可以通过一些方法和技术来实现并发和利用多核处理器的能力,例如:

1.多进程:在PHP中,可以通过fork()函数创建子进程来实现并发处理。每个子进程可以利用不同的CPU核心来执行任务,从而实现多核利用。

2.外部进程/服务:可以通过与其他支持多线程或多进程的语言(如Python、Java等)配合,将一些并发密集或需要大量计算的任务委托给这些外部进程或服务处理。

3.扩展和库:PHP中也有一些扩展和库,例如pthread和Parallel等,提供了对多线程的支持,可以在某些情况下实现PHP的多线程编程。

需要注意的是,使用多线程或多进程编程需要谨慎处理共享资源、同步和数据安全等问题,以避免竞态条件和死锁等并发问题。

总结来说,在传统的PHP环境下,直接利用多核处理器的能力是有限的。但可以通过使用多进程、外部进程/服务或一些扩展和库,间接实现并发处理和多核利用。

python爬虫怎么做

大到各类搜索引擎,小到日常数据采集,都离不开网络爬虫。爬虫的基本原理很简单,遍历网络中网页,抓取感兴趣的数据内容。这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据,然后会一步步逐渐完善爬虫的抓取功能。

工具安装

我们需要安装python,python的requests和BeautifulSoup库。我们用Requests库用抓取网页的内容,使用BeautifulSoup库来从网页中提取数据。

安装python

运行pipinstallrequests

运行pipinstallBeautifulSoup

抓取网页

完成必要工具安装后,我们正式开始编写我们的爬虫。我们的第一个任务是要抓取所有豆瓣上的图书信息。我们以https://book.douban.com/subject/26986954/为例,首先看看开如何抓取网页的内容。

使用python的requests提供的get()方法我们可以非常简单的获取的指定网页的内容,代码如下:

提取内容

抓取到网页的内容后,我们要做的就是提取出我们想要的内容。在我们的第一个例子中,我们只需要提取书名。首先我们导入BeautifulSoup库,使用BeautifulSoup我们可以非常简单的提取网页的特定内容。

连续抓取网页

到目前为止,我们已经可以抓取单个网页的内容了,现在让我们看看如何抓取整个网站的内容。我们知道网页之间是通过超链接互相连接在一起的,通过链接我们可以访问整个网络。所以我们可以从每个页面提取出包含指向其它网页的链接,然后重复的对新链接进行抓取。

通过以上几步我们就可以写出一个最原始的爬虫。在理解了爬虫原理的基础上,我们可以进一步对爬虫进行完善。

写过一个系列关于爬虫的文章:https://www.toutiao.com/i6567289381185389064/。感兴趣的可以前往查看。

Python基本环境的搭建,爬虫的基本原理以及爬虫的原型

Python爬虫入门(第1部分)

如何使用BeautifulSoup对网页内容进行提取

Python爬虫入门(第2部分)

爬虫运行时数据的存储数据,以SQLite和MySQL作为示例

Python爬虫入门(第3部分)

使用seleniumwebdriver对动态网页进行抓取

Python爬虫入门(第4部分)

讨论了如何处理网站的反爬虫策略

Python爬虫入门(第5部分)

对Python的Scrapy爬虫框架做了介绍,并简单的演示了如何在Scrapy下进行开发

Python爬虫入门(第6部分)

Python不能利用多核的问题以后能被解决吗

我是米小乐小米,你的问题我来回答。

首先,更正一下你的问题中的说法,python并不是不能利用多核,而是,多核的利用效率很低。

其次,要回答这个问题,首先你要了解一个概念——全局解释器锁(GIL)。

转一篇关于PythonGIL的文章。

归纳一下,CPU的大规模电路设计基本已经到了物理意义的尽头,所有厂商们都开始转向多核以进一步提高性能。Python为了能利用多核多线程的的优势,但又要保证线程之间数据完整性和状态同步,就采用了最简单的加锁的方式(所以说Python的GIL是设计之初一时偷懒造成的!)。Python库的开发者们接受了这个设定,即默认Python是thread-safe,所以开始大量依赖这个特性,无需在实现时考虑额外的内存锁和同步操作。但是GIL的设计有时会显得笨拙低效,但是此时由于内置库和第三方库已经对GIL形成了牢不可破的依赖,想改革GIL反而变得困难了(晕!)。所以目前的现状就是,Python的多线程在多核CPU上,只对于IO密集型计算产生正面效果;而当有至少有一个CPU密集型线程存在,那么多线程效率会由于GIL而大幅下降。虽然Python社区也在不断为此努力改进,但恐怕短时间内不会有改变,所以想规避GIL的,可以使用多进程的multiprocessing或concurrent.futures模块,或者换个Python的解析器。

所以说,不管python的官方解释器在将来对这个问题有没有什么改进,现在你就可以有一些解决的办法。

可以使用一些没有GIL的Python的解析器有:JPython,IronPython等。

希望我的回答能够帮到你。

编程中,什么情况下多进程能解决的问题多线程无法解决

这个问题和特定的编程语言有关,有些语言,比如python,并不能实现真正的多线程(无法占用多个CPU核),要想更充分的发挥CPU性能,需要用多进程实现。Java,C++等更重的编程语言则没有这个问题。如果各位同行有更多的见解,不吝赐教??

如何使用Python的multiprocessing进行分布式计算

由于GIL的存在,python中的多线程其实并不是真正意义上的多线程,前面一篇文章Python中的多线程与多进程那些事中提到I/O密集型使用多线程并发执行提高效率、计算密集型使用多进程并行执行提高效率。

针对计算密集型的任务,我们如何通过多进程提高效率?

Window下的multiprocessing分布式计算

基于multiprocessing、queue等模块实现简易的分布式计算框架。服务节点负责任务的派发和任务结果的采集,工作节点分布在同一电脑的不同进程,或者其他电脑上,负责任务执行和结果反馈,服务节点与工作节点通过Queue实现数据共享(任务下发、结果反馈)。

其中包含Task、MaterWork、SlaveWork三个模块,大体介绍及源码如下:

Task模块

根据任务需求,将自己的任务单独封装在task模块中。

MaterWork(主节点/服务节点)

负责任务派发和结果采集,主从节点通过Queue实现任务、结果共享。代码中注释中已介绍的较清楚,这里不做赘述。

SlaveWork(从节点/计算节点)使用说明

3.1在Task.py添加任务函数。

3.2调整主从节点任务派发具体函数、次数或参数。一般情况分发次数等于任务数,即分发任务的参数。

#添加待处理任务,实际应用过程添加的任务可以为函数的参数

foriinrange(0,10):

task=Task(i).computer()

print'Dispatchjob:{0}'.format(i)

dispatched_jobs.put(task)

3.3启动主节点

3.3启动从节点

将从节点计算模块发送至不同电脑,启动从节点即实现分布式计算,即N个从节点消费服务节点分发任务,并返回任务执行状态、结果。

3.4启动从节点后,可以在主节点运行界面,看到任务完成情况。

若对你有帮助,点赞支持一下。

Python多进程和多线程是鸡肋嘛

GIL的存在一直是富有争议的,它导致Python程序无法真正利用现代操作系统的多进程特性。需要注意的是,对于I/O图形处理、NumPy数学计算这样的耗时操作都发生在GIL之外,实际上基本不受影响,真正受影响的都是Python字节码的执行,GIL会导致性能瓶颈的出现。总之,只有在使用纯Python做CPU密集的多线程运算时GIL会是问题。GIL是什么

Python的代码执行由Python虚拟机(也叫解释器主循环,CPython版本)来控制,Python在设计之初就考虑到在解释器的主循环中,同时只有一个线程在运行。即每个CPU在任意时刻只有一个线程在解释器中运行。对Python虚拟机访问的控制由全局解释锁GIL控制,正是这个锁来控制同一时刻只有一个线程能够运行。——在单核CPU下的多线程其实都只是并发,不是并行。

并发与并行区别

并发:两个或多个事件在同一时间间隔发生,或者说交替做不同事件的能力,或者说不同的代码块交替执行。并行:两个或者多个事件在同一时刻发生,或者说同时做不同事件的能力,或者说不同的代码块同时执行。

并发和并行的意义

并发和并行都可以处理“多任务”,二者的主要区别在于是否是“同时进行”多个的任务。但是涉及到任务分解(有先后依赖耦合度高的任务无法做到并行)、任务运行(可能要考虑互斥、锁、共享等)、结果合并。

Python下的多线程

在Python多线程下,每个线程的执行方式,如下:

获取GIL切换到这个线程去执行运行代码,这里有两种机制:指定数量的字节码指令(100个)固定时间15ms线程主动让出控制把线程设置为睡眠状态释放GIL再次重复以上步骤

在Python2中,在解释器解释执行任何Python代码时,都需要先获得这把锁才行(同一时间只会有一个获得了GIL的线程在跑,其它的线程都处于等待状态等着GIL的释放),在遇到I/O操作时会释放这把锁。如果是纯计算的程序,没有I/O操作,解释器会每隔100次操作就释放这把锁,让别的线程有机会执行(这个次数可以通过sys.setcheckinterval来调整)也正是这种设定,是的多线程的CPU密集型计算非常鸡肋,下面会讲到为何如此。

而在python3中,GIL不使用ticks计数(100次,释放GIL),改为使用计时器(执行时间达到15ms阈值后,当前线程释放GIL),使得执行计算的次数更多,释放次数减少,这样对CPU密集型程序更加友好,但依然没有解决GIL导致的同一时间只能执行一个线程的问题,所以效率依然不尽如人意。

那么是不是Python的多线程是鸡肋嘛?

CPU密集型(各种循环处理、计数等等),在这种情况下,ticks计数很快就会达到阈值,然后触发GIL的释放与再竞争(多个线程来回切换是需要消耗资源的),所以python下的多线程对CPU密集型代码并不友好,会触发相当频繁的线程切换。

IO密集型(文件处理、网络爬虫等),多线程能够有效提升效率(单线程下有IO操作会进行IO等待,造成不必要的时间浪费,而开启多线程能在线程A等待时,自动切换到线程B,可以不浪费CPU的资源,从而能提升程序执行效率,一个线程获得GIL发送消息,然后等待返回消息(阻塞),Python此时释放GIL,其他线程得到GIL发送消息,然后同样等待返回消息(阻塞)......,这样保证了IO传输过程时间的合理利用,减少了IO等待造成的资源浪费,提高IO传输效率)。所以python的多线程对IO密集型代码比较友好。

有哪些结论?

I/O密集型使用多线程并发执行提高效率、计算密集型使用多进程(multiprocessing)并行执行提高效率。通常程序既包含IO操作又包含计算操作,那么这种情况下,在开始并发任务之前,可以先进行测试,测试多线程、多进程哪个效率高就是用哪种方式。

请注意:多核多线程比单核多线程更差,多核多进程下,CPU1释放GIL后,其他CPU上的线程都会进行竞争,但GIL可能会马上又被CPU1拿到,CPU2释放GIL后……,导致其他几个CPU上被唤醒后的线程会醒着等待到切换时间后又进入待调度状态,这样会造成线程颠簸(thrashing),导致效率更低。

多线程下的CPU密集型计算也不是无药可医,可以利用ctypes绕过GIL,ctypes可以使py直接调用任意的C动态库的导出函数。所要做的只是把关键部分用C/C++写成Python扩展。而且,ctypes会在调用C函数前释放GIL。

同时,可以了解下协程,又称微线程。

协程最大的优势就是协程极高的执行效率。因为子程序切换不是线程切换,而是由程序自身控制,因此,没有线程切换的开销,和多线程比,线程数量越多,协程的性能优势就越明显。

第二大优势就是不需要多线程的锁机制,因为只有一个线程,也不存在同时写变量冲突,在协程中控制共享资源不加锁,只需要判断状态就好了,所以执行效率比多线程高很多。

因为协程是一个线程执行,那怎么利用多核CPU呢?最简单的方法是多进程+协程,既充分利用多核,又充分发挥协程的高效率,可获得极高的性能。

好了,本文到此结束,如果可以帮助到大家,还望关注本站哦!

最新文章