通过登录失败,快速找到登录接口 获取hidden隐藏域中的id的value值 # 通过登陆 然后进入到主页面 # 通过找登陆接口我们发现 登陆的时候需要的参数很多 # _VIEWSTATE: /m1O5dxmOo7f1qlmvtnyNyhhaUrWNVTs3TMKIsm1lvpIgs0WWWUCQHl5iMrvLlwnsqLUN6Wh1aNpitc4WnOt0So3k6UYdFyqCPI6jWSvC8yBA1Q39I7uuR4NjGo= # __VIEWSTATEGENERATOR: C93BE…
  import requests from queue import Queue import threading from lxml import etree import re import csv class Producer(threading.Thread): headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440…
通过requests.re(正则表达式) 爬取"古诗文"网页数据. 详细代码如下: #!/user/bin env python # author:Simple-Sir # time:2019/7/31 22:01 # 爬取古诗文网页数据 import re import requests def getHtml(page): ''' 获取网页数据 :param page: 页数 :return: 网页html数据(文本格式) ''' headers = { 'user-agent':…
Session  保存状态是在 登陆窗口  检查用户密码的动作上执行 .Models namespace 注册与登陆以及Session.Models { public class UserBF { private MyDBDataContext _context = new MyDBDataContext(); public bool Select(string username,string password) //验证用户名和密码是否正确(登陆) { var query = _context…
控制器 <?php // 本类由系统自动生成,仅供测试用途 class IndexAction extends Action { public function index(){ $this->display(); } } images放入public里 模板/index/里 images全部替换为__PUBLIC__/images 生成验证码函数 public function verify(){ import('ORG.Util.Image'); Image::buildImageVeri…
近年来,12306的反爬越来越来严重,从一年前的 获取tk参数后到现在增加了 JS.CSS等加密方式! 目前大部分人利用的登陆方式都是利用selenium ,此文也不例外. 环境:        Windows python 3.6.5 模块:      selenium pyautogui      time 第一步: 实例化一款浏览器,并进入到12306官网 driver = webdriver.Chrome() driver.get('https://kyfw.12306.cn/otn/r…
Cookie的机制 Cookie是浏览器(User Agent)访问一些网站后,这些网站存放在客户端的一组数据,用于使网站等跟踪用户,实现用户自定义功能. Cookie的Domain和Path属性标识了这个Cookie是哪一个网站发送给浏览器的:Cookie的Expires属性标识了Cookie的有 效时间,当Cookie的有效时间过了之后,这些数据就被自动删除了. 如果不设置过期时间,则表示这个Cookie生命周期为浏览器会话期间,只要关闭浏览器窗口,Cookie就消失了.这种生命期为浏览会话…
一:restful用户视图 #!/usr/bin/env python # -*- coding:UTF-8 -*- # Author:Leslie-x from users import models from rest_framework.decorators import action from rest_framework.response import Response from rest_framework import viewsets from rest_framework im…
代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml import etree import cPickle import os # reload(sys) # sys.setdefaultencoding('utf-8') class Zhihu: def __init__(self,homeurl): self.homeurl = homeurl…
在xshell中文件-->新建菜单,打开新建会话属性,填写堡垒机的IP端口和账号密码后,进入登录脚本 : 勾选"执行以下的期望和发送组合对(X) " (1)添加: 期望: 发送: :ssh root@10.3.8.211  (2)添加:期望:root@10.3.8.211:22’s password    这个期望就是ssh root@10.3.8.211 后弹出的那段让输入的密码的英文 发送:password    …
log.html <html> <head><title>Home Page</title></head> <body> <form action="login.php" method="post"> <input type="text" name="name"> <input type="submit"…
一 . 模拟登陆案例(识别验证码)  1 . 打码平台 - 云打码 : www.yundama.com  使用步骤 : - 注册两个账户,普通用户和开发者用户 : - 登陆 普通用户查看余额 登陆开发者用户 : 创建一个软件: 我的软件 -> 创建软件 下载示例代码: 开发者中心 -> 下载最新云打码DLL -> PythonHTTP示例下载 - 下载后解压缩,如下 :                              import http.client, mimetypes,…
需求文档的定制 糗事百科的段子内容和作者(xpath的管道符)名称进行爬取,然后存储到mysql中or文本 http://sc.chinaz.com/jianli/free.html爬取简历模板 HTTPConnectionPool(host:XX)Max retries exceeded with url. 原因: 1.当你在短时间内发起高频请求的时候,http的连接池中的连接资源被耗尽. Connection:keep-alive 2.ip被封 解决: Connection:'close'…
代理操作 代理的目的 为解决ip被封的情况 什么是代理 代理服务器:fiddler 为什么使用代理可以改变请求的ip 本机的请求会先发送给代理服务器,代理服务器会接受本机发送过来的请求(当前请求对应的ip就是本机ip),然后代理服务器会将该请求进行转发,转发之后的请求对应的ip就是代理服务器的ip. 提供免费代理的平台 www.goubanjia.com 快代理 西祠代理 代理精灵:http://http.zhiliandaili.cn 代理ip的匿名度 透明:使用了透明的代理ip,则对方服务器…
卷 TOSHIBA EXT 的文件夹 PATH 列表卷序列号为 AE86-8E8DF:.│ python就业班-淘宝-目录.txt│ ├─01 网络编程│ ├─01-基本概念│ │ 01-网络通信概述.flv│ │ 02-IP地址.flv│ │ 03-Linux.windows查看网卡信息.flv│ │ 04-ip地址的分类-ipv4和ipv6介绍.flv│ │ 05-(重点)端口.mp4│ │ 06-端口分类:知名端口.动态端口.flv│ │ 07-socket介绍.mp4│ │ │ ├─02…
目录 爬虫-基础知识+requests库 1. 状态返回码 2. URL各个字段解释 2. requests库 3. requests库爬虫的基本流程 爬虫-基础知识+requests库 关于html的知识,可以到w3school中进行了解学习.http://www.w3school.com.cn/html/index.asp,水平有限,这里不多提及. 1. 状态返回码 标志这这一次的请求状态,成功或失败,失败原因大概是什么 200:请求正常,服务器正常返回数据. 不代表爬去到正确信息了 301…
爬取搜狗首页页面数据 import urllib.request # 1.指定url url = r'https://www.sogou.com/' # 2.发起请求 # urlopen()参数内部可以指定填写url,且返回一个函数对象 res = urllib.request.urlopen(url=url) # 3.获取页面数据 # 响应对象中会获取存储的数据,read()函数中返回的就是响应对象存储的页面数据 page_text = res.read() print(page_text)…
选择器的作用:选中标签 1.基本选择器  标签选择器 id选择器 class选择器 *通配符选择器 权重:行内样式 1000 > id选择器 100 > 类选择器10 > 标签选择器 1 1.1 标签选择器  标签选择器可以选中所有的标签元素,比如div,ul,li ,p等等,不管标签藏的多深,都能选中,选中的是所有的,而不是某一个,所以说 "共性" 而不是 "特性" <!DOCTYPE html> <html lang=&quo…
目录 requests模块 高级应用 HttpConnectinPool 问题解决 IP代理 简单使用代理 代理池 cookie的处理 页面中验证码识别 使用 multiprocessing.dummy Pool 线程池 单线程+多任务异步协程 requests模块 高级应用 HttpConnectinPool 问题解决 - HttpConnectinPool: - 原因: - 1.短时间内发起了高频的请求导致ip被禁 - 2.http连接池中的连接资源被耗尽 - 解决: - 1.使用代理 -…
requests高级部分 代理 cookie 验证码的识别 模拟登陆 代理 代理概念:代理服务器. 作用:接受请求==>请求转发. 代理和爬虫之间的关联: 可以使用请求转发的机制使得目的服务器接收到的请求对应ip的一个改变. 为什么要使用代理改变请求的ip地址? 爬虫程序在短时间内对指定的服务器发起了一个高频的请求,则请求对应的ip可能会被目的服务器禁止. 代理的一些基础知识: 代理的匿名度: 透明代理:目的服务器知道你使用了代理机制并且也知道你的真实IP 匿名代理:知道使用了代理机制,但是不知…
目标网站:古诗文网 登录界面显示: 打开控制台工具,输入账号密码,在ALL栏目中进行抓包 数据如下: 登录请求的url和请求方式 登录所需参数 参数分析: __VIEWSTATE和__VIEWSTATEGENERATOR可以在登录界面获取,code为验证码,email为账号,pwd为密码,from为空,denglu为固定参数 分析__VIEWSTATE和__VIEWSTATEGENERATOR 可通过解析登录界面获取 整体代码如下: # 引入各种库 import requests from lx…
爬虫03 /代理.cookie处理.模拟登录.提升爬虫效率 目录 爬虫03 /代理.cookie处理.模拟登录.提升爬虫效率 1. 代理 2. cookie处理 3. 模拟登录 4. 如何提升爬取数据的效率 总结: 1. 代理 代理概念:代理服务器. 作用:接收请求==>请求转发. 代理和爬虫之间的关联: 可以使用请求转发的机制使得目的服务器接收到的请求对应ip的一个改变. 为什么要使用代理改变请求的ip地址? 爬虫程序在短时间内对指定的服务器发起了一个高频的请求,则请求对应的ip可能会被目的服…
爬虫Ⅰ:爬虫的基础知识 爬虫的基础知识使用实例.应用技巧.基本知识点总结和需要注意事项 爬虫初始: 爬虫: + Request + Scrapy 数据分析+机器学习 + numpy,pandas,matplotlib jupyter: + 启动:到你需要进去的文件夹,然后输入jupyter notebook cell是分为不同模式的:(Code:编写代码.markdown:编写笔记) jupyter的快捷键: 添加cell: a, b (a向前添加,b先后添加) 删除cell: x 执行:shi…
一.爬虫爬取失败的几个原因 1.在短时间内向网站发起了一个高频的请求 解决办法:使用代理 2.连接池(http)中的资源被耗尽 解决办法:立即将请求断开:Connection:close 3.高清图片: 图片懒加载:在img标签中应用了伪属性 二.代理 代理服务器:实现请求转发,从而可以实现更换请求的ip地址 在requests中如何将请求的ip进行更换 代理的匿名度: 透明:服务器知道你使用了代理并且知道你的真实ip 匿名:服务器知道你使用了代理,但是不知道你的真实ip 高匿:服务器不知道你使…
1.古诗文网直接登录时,用浏览器F12抓取登录接口的入参,我们可以看到框起来的key对应的value是动态参数生成的,需获取到: 2.登录接口入参的值一般是登录接口返回的原数据值,若刷新后接口与对应源码(element)的值存在一个为空一个有值,那么久看下是否存在ajax请求,再获取动态参数的值 3.我们获取动态参数的值,使用到etree中的xpath进行解析 from TestCase.Api_Review.ClassCode import Chaojiying_Clientfrom lxml…
1.简介 其实re在基本模块里已经介绍过,但是在爬虫中re是非常重要的,所以在这里再进行详细描述. re在解析html内容时是效率最高的,但是也是最难的,一般来说,都是结合xpath和re使用,这样解析html文件会事半功倍 2.单个字符串的匹配 # -*-coding:utf8 -*- import re #本节匹配单个字符 #1.匹配某个字符串 # text="hello" # text2="ahello" #match只能从开头开始匹配 # ret=re.ma…
题都城南庄_古诗文网 题都城南庄 唐代:崔护 去年今日此门中,人面桃花相映红.去年春天,就在这扇门里,姑娘脸庞,相映鲜艳桃花.人面:指姑娘的脸.第三句中“人面”指代姑娘. 人面不知何处去,桃花依旧笑春风.今日再来此地,姑娘不知去向何处,只有桃花依旧,含笑怒放春风之中.不知:一作“秖(zhǐ)今”.去:一作“在”.笑:形容桃花盛开的样子. 参考资料: 1. 彭定求 等.全唐诗(上).上海:上海古籍出版社,1986:919 2. 于海娣 等.唐诗鉴赏大全集.北京:中国华侨出版社,2010:235-2…
临江仙·送钱穆父_古诗文网 临江仙·送钱穆父 宋代:苏轼 一别都门三改火,天涯踏尽红尘.依然一笑作春温.无波真古井,有节是秋筠.自从我们在京城分别一晃又三年,远涉天涯你奔走辗转在人间.相逢一笑时依然像春天般的温暖.你心如古井水不起波澜,高风亮节象秋天的竹竿.父:是对有才德的男子的美称.都门:是指都城的城门.改火:古代钻木取火,四季换用不同木材,称为“改火”,这里指年度的更替.春温:是指春天的温暖.古井:枯井.比喻内心恬静,情感不为外界事物所动.筠:竹. 惆怅孤帆连夜发,送行淡月微云.尊前不用翠眉…
南歌子词二首 / 新添声杨柳枝词_古诗文网 南歌子词二首 / 新添声杨柳枝词 唐代:温庭筠(yún) 一尺深红胜曲尘,天生旧物不如新.(胜曲尘 一作:蒙曲尘)一袭深红色的长裙日子久了便蒙上了淡黄色,自古以来旧的东西就比不得新的东西讨人喜欢.一尺深红:即一块深红色丝绸布.古代妇人之饰:或即女子结婚时盖头的红巾,称“盖头”.曲尘:酒曲上所生菌,因色微黄如尘,亦用以指淡黄色.此处意谓,红绸布蒙上了尘土,呈现出酒曲那样的暗黄色. 合欢桃核终堪恨,里许元来别有人.你我原本应该像合欢核桃一样坚贞不移,哪里想…
离思五首·其四_古诗文网 离思五首·其四 唐代:元稹 曾经沧海难为水,除却巫山不是云.曾经到临过沧海,别处的水就不足为顾:除了巫山,别处的云便不称其为云.曾经:曾经到临.经:经临,经过.难为:这里指“不足为顾”“不值得一观”的意思.除却:除了,离开.这句意思为:相形之下,除了巫山,别处的云便不称其为云.此句与前句均暗喻自己曾经接触过的一段恋情. 取次花丛懒回顾,半缘修道半缘君. 仓促地由花丛中走过,懒得回头顾盼:这缘由,一半是因为修道人的清心寡欲,一半是因为曾经拥有过的你.取次:草草,仓促,随意…