Python版本:3.5.2 日期:2018/1/21 __Author__ = "Lance#" # -*- coding = utf-8 -*- from urllib import request from urllib import parse from http import cookiejar from aip.ocr import AipOcr import re class Hust(object): def __init__(self, stu_id, passwd)…
分享一个爬SQL注入的工具 本文转自:i春秋社区由团队核心成员若间开发把工具放到E盘的一个文件夹 他会自动生成一个文本文件 Result.txt  最大页数 自己想弄填多少就填多少关键词 注入点关键词我会给大家打包的 爬行后软件会自动关闭 将爬行的注入点都保存到Result.txt sql注入漏洞工具免费下载地址:http://bbs.ichunqiu.com/thread-9865-1-1.html…
这两天有基友要php中curl抓取教务处成绩的源码,用于微信公众平台的开发.下面笔者只好忍痛割爱了.php中CURL技术模拟登陆抓取数据实战,抓取沈阳工学院教务处学生成绩. 首先,教务处登录需要验证码.我们寻找验证码的链接地址http://218.61.108.163/ACTIONVALIDATERANDOMPICTURE.APPPROCESS,来进行数据的抓取.下面看下主要代码-index.php <?php $ch=curl_init("http://218.61.108.163/AC…
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是“选择器”.“选择器”指明了{}中的“样式”的作用对象,也就是“样式”作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asphttp://www.ruanyifeng.com/blog/2009/…
内容简要 1分析网站 2简单爬取 3进阶自定义爬取 4保存进数据库 学校基础设施太差,宿舍电量过低提醒虽然贴在楼下,但是作为低头一族,经常忘记看提醒导致宿舍酣战时突然黑屏,为了避免这种尴尬的场景以及强化PY学习,我决定制作一个简单的爬虫. 首先我通过学校的微信公众号找到了一个十分隐蔽的查低电量提醒网站.它的界面是这样的: 手机适应的页面当然在电脑上会有一些崩=.=,但是不要介意,我们要的是功能.下面是查询到的界面 虽然看起来low而且经常不更新,但是它至少能用.于是我决定用它来制作低电量提醒查询…
简单介绍: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API.仅仅需少量代码就可以实现一个功能强大的爬虫. 怎样将WebCollector导入项目请看以下这个教程: JAVA网络爬虫WebCollector深度解析--爬虫内核 參数: WebCollector无需繁琐配置.仅仅要在代码中给出以下几个必要參数,就可以启动爬虫: 1.种子(必要): 种子即爬虫的起始页面.一个爬虫可加入一个或多个种子. 2.正则(可选): 正则是约束爬取范围的一些正…
1. 背景 Bing搜索每天的背景图片有些比较适合做桌面,但是有的提供下载有的不提供下载.每天去点击下载又不太方便,所以第一次学习了一下python爬虫怎么写,写的很简单. 2. 相关技术 2.1 Python爬虫参考 参考:一个Python小白5个小时爬虫经历:爬取博客园博客列表 参考:Python爬虫实战系列教程 参考:python爬虫从入门到放弃 2.2 Python正则表达式 参考:Python正则表达式指南 2.3 解决登录问题 一些网站需要登录操作,应该是大部分网站都是登录操作的.…
背景 软件测试的最后有一道比较繁琐的工作,就是编写测试报告.手写测试报告在数据统计和分析上面要耗费比较大的事件和精力.之前工作室使用mantis管理bug缺陷.公司有内部有个系统,可以直接从mantis上面获取数据并进行统计,生成一份测试报告.后来换了一个工作室,bug缺陷管理平台也从原来的mantis 换成了redmine (http://www.redmine.org/ ). 然后走上了一条手写测试报告的不归路(测试人员前期还是推荐手写测试报告的).搞游戏的都知道,平时加班加点压力就够大的.…
今天在java爬取天猫的时候因为ssl报错,所以从网上找了一个可以爬取https和http通用的工具类.但是有的时候此工具类爬到的数据不全,此处不得不说python爬虫很厉害. package cn.qlq.craw.Jsoup; import java.io.File; import java.io.FileWriter; import java.io.Writer; import java.net.MalformedURLException; import java.net.URL; imp…
show the code: [peter@localhost savvy]$ vi lativ.py # -*- coding:utf-8 -*- import requests,lxml,os from bs4 import BeautifulSoup as sb def get_html(): url = 'https://www.lativ.com/Style' headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus…