1.抓取目录页后用lxml进行页面解析,获取抓取列表 python3.6 urlparse模块变为urllib.parse 2.Python中有一个专门生成各类假数据的库:Faker 3.python类中函数调用要加self 基于OO方法,指向类自身的实例化,方便方法调用   4.网页编码问题 解码:decode("gbk") 编码:encode("utf-8")   5.回调函数 需要回调函数的场景: 进程池中任何一个任务一旦处理完了,就立即告知主进程:我好了额,…
1.beautifulsoap4 和 scrapy解析和下载网页的代码区别 bs可以离线解释html文件,但是获取html文件是由用户的其他行为的定义的,比如urllib或者request : 而scrapy是一个完整的获取程序,只需要把网址贴上去,就会自动去爬. 省去很多用户需要关注的细节. 轮子和车子的区别. 前者要依附于一个程序,后者自己就能跑. beautifulsoap4 的性能比lxml要差   2.mongodb非关系型数据库对网页的存储 mongodb安装注意:不用选中compa…
chromedriver禁用图片,禁用js,切换UA selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢.如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法.         from selenium import webdriver   from fake_useragent import UserAgent         ua = UserAgent().ra…
1.头信息检查是否频繁相同 随机产生一个headers, #user_agent 集合 user_agent_list = [  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '   'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',  'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8;…
from urllib.request import quote import urllib.request from bs4 import BeautifulSoup import re import multiprocessing import os import time   def start():     for txt in range(0, 999):         start = int(input("请输入开始章节(从1开始):"))-1         if st…
实现功能:代理.限速.深度.反爬 import re import queue import urllib.parse import urllib.robotparser import time from urllib import request from datetime import datetime   def download(url, user_agent="wsap", num=2):     print("Downloading:"+url)    …
python 全栈开发之路 day1   本节内容 计算机发展介绍 计算机硬件组成 计算机基本原理 计算机 计算机(computer)俗称电脑,是一种用于高速计算的电子计算机器,可以进行数值计算,又可以进行逻辑计算,还具有存储记忆功能.是能够按照程序运行,自动.高速处理海量数据的现代化智能电子设备.由硬件系统和软件系统所组成,没有安装任何软件的计算机称为裸机. 计算机发明者约翰·冯·诺依曼.计算机是20世纪最先进的科学技术发明之一,对人类的生产活动和社会活动产生了极其重要的影响,并以强大的生命力…
昨日内容回顾 1. 为什么要做前后端分离? - 前后端交给不同的人来编写,职责划分明确. - API (IOS,安卓,PC,微信小程序...) - vue.js等框架编写前端时,会比之前写jQuery更简单快捷. 2. 简述http协议? - 基于socket - 数据格式: "GET /index?name=123&age=19 http1.1\r\nhost:www.luffyciti.com\r\ncontent-type:application/json...\r\n\r\n&q…
一.html介绍 1.web标准 web准备介绍: w3c:万维网联盟组织,用来制定web标准的机构(组织) web标准:制作网页遵循的规范 web准备规范的分类:结构标准.表现标准.行为标准. 结构:html.表示:css.行为:Javascript. web准备总结: 结构标准:相当于人的身体.html就是用来制作网页的. 表现标准: 相当于人的衣服.css就是对网页进行美化的. 行为标准: 相当于人的动作.JS就是让网页动起来,具有生命力的 二.浏览器介绍 浏览器是网页运行的平台,常用的浏…
Python全栈开发/人工智能公开课_腾讯课堂 https://ke.qq.com/course/190378 https://github.com/haoran119/ke.qq.com.python/tree/master/src/python-fullstack Python — 爬虫.数据分析 python — 数据分析之旅,Numpy 数据获取 公开数据集(Mnist),爬虫 数据存储 数据库SQL 数据预处理 噪声,重复,缺失,空值,异常值,分组,合并,随机取样(pandas) 数据…