import urllib2

源地址

在python3.3里面,用urllib.request代替urllib2

import urllib.request as urllib2

import cookielib

源地址

Python3中,import  cookielib改成 import  http.cookiejar

import  http.cookiejar as cookielib

from urlparse import urlparse

源地址

from urllib.parse import urlparse

PermissionError: [WinError 5] 拒绝访问

这是在进程之间通信中使用windows过程中出现的问题。参阅:https://blog.csdn.net/m0_37422289/article/details/80186288

原代码:

import queue
from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support task_number=1
task_queue=queue.Queue(task_number)
result_queue=queue.Queue(task_number) def win_run():
BaseManager.register('task',callable=lambda :task_queue)
BaseManager.register('result',callable=lambda :result_queue)
manager=BaseManager(address=('127.0.0.1',8001),authkey='123')
manager.start() if __name__=="__main__":
freeze_support()
win_run()

问题探讨:

在Unix/Linux下,multiprocessing模块封装了fork()调用。

Windows没有fork调用,因此,multiprocessing需要“模拟”出fork的效果,父进程所有Python对象都必须通过pickle序列化再传到子进程去。

pickling序列化中对匿名函数的不支持,导致创建进程失败

解决方案:

修改匿名函数为普通函数

为了实现windows平台对于python多进程实现的要求,并区分是自身运行还是被调用导入而运行,加入if __name__的判断。参阅:https://blog.csdn.net/qq_27017791/article/details/80212016

现代码:

import queue
from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support task_number=1
task1=queue.Queue(task_number)
result1=queue.Queue(task_number) def task_queue():
return task1
def result_queue():
return result1 def win_run():
BaseManager.register('task',callable=task_queue)
BaseManager.register('result',callable=result_queue)
manager=BaseManager(address=('127.0.0.1',8001),authkey='123')
manager.start() if __name__=="__main__":
freeze_support()
win_run()

PermissionError: [WinError 5] 拒绝访问

这是在进程使用过程中windows系统下出现的问题。

出现问题的代码部分如下:

问题出现在最后一行。

import time
import queue
from DistributedSpider.control.UrlManager import UrlManager
from multiprocessing import freeze_support,Process
from multiprocessing.managers import BaseManager
from BaseSpider import DataOutput url_q=queue.Queue()
result_q=queue.Queue()
store_q=queue.Queue()
conn_q=queue.Queue() def url_manager_proc(url_q,conn_q,root_url):
url_manager=UrlManager()
url_manager.add_new_url(root_url)
while True:
while(url_manager.get_new_url()):
new_url=url_manager.get_new_url()
url_q.put(new_url)
print(url_manager.old_url_size())
if(url_manager.old_url_size()>2000 or not url_manager.has_new_url()):
url_q.put('end')
print('end')
url_manager.save_process('new_url.txt',url_manager.new_urls)
url_manager.save_process('old_url.txt',url_manager.old_urls)
return
try:
if not conn_q.empty():
urls=conn_q.get()
url_manager.add_new_urls(urls)
except BaseException:
time.sleep(0.1) if __name__=='__main__':
freeze_support()
url='https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin'
url_manager=Process(target=url_manager_proc,args=(url_q,conn_q,url,))

处理方案:参阅:https://blog.csdn.net/weixin_41935140/article/details/81153611

将创建进程的函数参数中涉及到自定义的类,修改到函数内部而不是作为参数传递。

def url_manager_proc(root_url):
url_manager=UrlManager()
url_manager.add_new_url(root_url)
while True:
while(url_manager.get_new_url()):
new_url=url_manager.get_new_url()
url_q.put(new_url)
print(url_manager.old_url_size())
if(url_manager.old_url_size()>2000 or not url_manager.has_new_url()):
url_q.put('end')
print('end')
url_manager.save_process('new_url.txt',url_manager.new_urls)
url_manager.save_process('old_url.txt',url_manager.old_urls)
return
try:
if not conn_q.empty():
urls=conn_q.get()
url_manager.add_new_urls(urls)
except BaseException:
time.sleep(0.1) url='https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin'
url_manager=Process(target=url_manager_proc,args=(url,))

import cPickle

源地址:https://blog.csdn.net/zcf1784266476/article/details/70655192

import pickle

TypeError: a bytes-like object is required, not 'str'

存储前使用str.encode()

源地址:https://www.fujieace.com/python/str-bytes.html

python网络爬虫(3)python爬虫遇到的各种问题(python版本、进程等)的更多相关文章

  1. Python网络数据采集PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书

    点击获取提取码:jrno 内容提要 本书采用简洁强大的 Python 语言,介绍了网络数据采集,并为采集新式网络中的各种数据类 型提供了全面的指导.第一部分重点介绍网络数据采集的基本原理:如何用 Py ...

  2. Python网络数据采集7-单元测试与Selenium自动化测试

    Python网络数据采集7-单元测试与Selenium自动化测试 单元测试 Python中使用内置库unittest可完成单元测试.只要继承unittest.TestCase类,就可以实现下面的功能. ...

  3. Python网络请求urllib和urllib3详解

    Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urlli ...

  4. [Python] 网络爬虫和正则表达式学习总结

    以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...

  5. Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)

    1. 项目背景 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...

  6. 关于Python网络爬虫实战笔记③

    Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则 也就是, http://blog.sina ...

  7. 关于Python网络爬虫实战笔记①

    python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...

  8. python 网络爬虫(二) BFS不断抓URL并放到文件中

    上一篇的python 网络爬虫(一) 简单demo 还不能叫爬虫,只能说基础吧,因为它没有自动化抓链接的功能. 本篇追加如下功能: [1]广度优先搜索不断抓URL,直到队列为空 [2]把所有的URL写 ...

  9. python网络爬虫学习笔记

    python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

  10. Python网络爬虫

    http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...

随机推荐

  1. python3 基本数据类型转换

    '''基本数据类型1:虽然python中的变量不需要声明,但使用时必须赋值 1.整形变量 2.浮点型变量 3.字符型2:可以一个给多个变量赋值,也可以多个给多个变量赋值3:python3中有6个标准数 ...

  2. JAVA异常及其异常处理方式

    异常处理 异常是程序中的一些错误,但并不是所有的错误都是异常,并且错误有时候是可以避免的.比如说,你的代码少了一个分号,那么运行出来结果是提示是错误 java.lang.Error:如果你用Syste ...

  3. CentOS yum安装软件时保留安装包及依赖包或者自动下载安装包及相关依赖包

    CentOS上安装某个软件一般都有很多相关的依赖包,当然,这也与我们安装时software selection步骤中选择的版本有关系,我们服务器在安装CentOS时一般选择Basic Web Serv ...

  4. 如何利用css进行网页布局

    一.单列布局(类似于搜狐网站) 如: 代码为: 二.两列布局 1.固定宽度 代码为: 2.自适应 代码为: 三.三列布局 代码为: 四.混合布局 就是在前面的基础上,在进行划分块 如: 代码为:

  5. [windows菜鸟]C#中调用Windows API参考工具

    很多windows API都不知道签名,可以从下面几种方式进行查询 1.微软出的工具 P/Invoke Interop Assistant version 1.0 2.网站 pinvoke.net 3 ...

  6. 数据库开源框架之litepal

    主页: [https://github.com/LitePalFramework/LitePal](https://github.com/LitePalFramework/LitePal) 中文文档地 ...

  7. FAQ_2

    FAQ-2 1.LoadRunner超时错误: 在录制Web服务器端,如果超过120秒服务器协议脚本回放时超时情况经常出现,产生错误的原因也有很多,解决的方法也不同. 错误现象1:Action.c(1 ...

  8. "UICollectionView实现带头视图和组的头视图同时存在"实现

    实现效果如下: 以前做这效果的界面,总是实现的是section的头视图,因为我一直觉得collectionView是不像UITableView那样有tableHeaderView的,所以每次实现只能是 ...

  9. Datafactory 实际使用案例

    Datafactory 实际使用案例 一.       简介 QuestDataFactory 是一种快速的.易于产生测试数据工具,它能建模复杂数据关系,且有带有GUI界面.DataFactory是一 ...

  10. Linux C/C++基础——二级指针做形参

    1.二级指针做形参 #include<stdio.h> #include<stdlib.h> void fun(int **temp) { *temp=(int*)malloc ...