python练习---小脚本

一.爬子域名

#!/usr/bin/python

# -*- coding: utf-8 -*-

import requests

import re

import sys

def get(domain):

        url = 'http://i.links.cn/subdomain/'

#        payload = ("domain=ycxy.com&b2=1&b3=1&b4=1")

        payload = ("domain={domain}&b2=1&b3=1&b4=1".format(domain=domain))

        r = requests.post(url=url,params=payload)

        con = r.text

        a =re.compile('value="(.+?)"><input')   #正则匹配引号里的任何字符，非贪婪

        result = a.findall(con)

        for i in result:

            print i

if __name__ == '__main__':

    command =sys.argv[1:]                       #取所有后面的参数

    f ="".join(command)                          #用空格连接

    get(f)

二.爬I春秋精华页标题

#!/usr/bin/python

#coding=GBK

import requests

import re

def gethtml():

    url = 'https://bbs.ichunqiu.com/portal.php'

    headers = {

        'Host': 'bbs.ichunqiu.com',

        'Connection': 'close',

        'Cache-Control': 'max-age=0',

        'Upgrade-Insecure-Requests': '1',

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',

        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'Accept-Language': 'zh-CN,zh;q=0.8',

    }

    r = requests.get(url=url,headers=headers)

    html = r.content

    title = re.findall(r'target="blank" class="ui_colorG" style="color: #555555;">(.*?)</a></h3>', html)

    for i in title:

        print i

    # return html

s =gethtml()

# a =re.findall(r'target="blank" class="ui_colorG" style="color: #555555;">(.*?)</a></h3>',s)

# for i in a:

#     print(i)

三.爬妹子图片

#!/usr/bin/python

# -*- coding: utf-8 -*-

import requests,re,sys

import urllib

def getimg():

    for x in range(1,298):

        url = 'http://www.7160.com/xingganmeinv/list_3_'+str(x)+'.html'

        r =requests.get(url=url)

        con = r.content

        # result = re.findall(r'<span class="bom_z">(.*?)</span></a></li>',con)

        tu = re.findall(r'<img src="(.+?)" alt="',con)

        # for i in result:

        #     print i

        # for j in tu:

        #     print j

        xx = 0

        for n in tu:

            tu.append(n)

            urllib.urlretrieve(n,'d:/meinv/%s.jpg'%xx)

            xx=xx+1

if __name__ == '__main__':

    getimg()

三.百度URL采集

#!/usr/bin/python

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

import sys

import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

headers={

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0",

    'Accept-Language' : 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

    'Connection' : 'keep-alive',

    'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

    'X-Forwarded-For':'120.239.169.74'

}

def url(key):

    for i in range(0,10,10):

        bd_search="https://www.baidu.com/s?word=%s=&pn=%s"% (key,str(i))

        # bd_search = "https://bbs.ichunqiu.com/thread-40592-1-1.html"

        r =requests.get(bd_search,headers=headers,verify=False,timeout=2)

        s= r.text

        # result = re.findall(r'.t > a',s)

        # print s.encode('utf-8')

        soup=BeautifulSoup(s,"lxml")

        url_list=soup.select(".t > a")   #对请求回来的内容进行查找，找出a标签里（URL链接）

        # print url_list

        for url in url_list:

            real_url=url['href']   #遍历循环，并且打印

            try:

                r=requests.get(real_url,headers=headers,verify=False,timeout=2)  #再次请求

                print(r.url)  #打印出URL链接

                print key

            except Exception as e:

                print(e)

# url('sss')

if __name__ == '__main__':

    command = sys.argv[1:]

    canshu = "".join(command)#加上参数

    url(canshu)

python练习---小脚本的更多相关文章

Python刷票小脚本——网络人气奖？不好意思，我要了
零.前言最近参加微软的kinect大赛,报名之后发现有一个网络投票,票数最多的项目可以得到网络人气奖. 这种事,必然是要搞一搞! 说干就干. 说明:由于本人过于懒惰,所以就不截图了,让大家失望了! ...
分享一个刷网页PV的python小脚本
下面分享一个小脚本,用来刷网页PV. [root@huanqiu ~]# cat www.py #!/usr/bin/python# coding: UTF-8import webbrowser as ...
分享几个python小脚本
by 梁凯今天我想给大家分享几个python脚本,分别是: 1.公司访问外网认证脚本(最初有同事写过,我优化了一下). 2.统计周报系统所有同事的最近一篇周报. 3.统计测试技术分享里指定一个月所有 ...
python 小脚本升级-- 钉钉群聊天机器人
一则小脚本(工作中用) 在这篇文章中写的监控的脚本,发送监控的时候是利用的邮箱,其实在实际,邮箱查收有着不方便性,于是乎升级, 我们工作中,经常用钉钉,那么如果要是能用到钉钉多好,这样我们的监控成功 ...
python xss相关的编码解码小脚本
1.功能分析: 实际工作中经常会遇到alert()之类的函数被防火墙过滤,而把alert()转化为ascii码放到String.fromCharCode()中就可以绕过,之前会一个一个查ascii表, ...
Python简单的CTF题目hash碰撞小脚本
Python简单的CTF题目hash碰撞小脚本 import hashlib for num in range(10000,9999999999): res = hashlib.sha1(str(nu ...
Python脚本生成可执行文件&（恋爱小脚本）
Python脚本生成可执行文件&(恋爱小脚本) 参考文献: http://c.biancheng.net/view/2690.html; https://blog.csdn.net/qq_39 ...
用Python实现一个爬取XX大学电费通知的小脚本
内容简要 1分析网站 2简单爬取 3进阶自定义爬取 4保存进数据库学校基础设施太差,宿舍电量过低提醒虽然贴在楼下,但是作为低头一族,经常忘记看提醒导致宿舍酣战时突然黑屏,为了避免这种尴尬的场景以及强 ...
python小脚本（18-11.10）-修改excle后批量生成，作用：导入数据时，系统做了不能导入重复数据时的限制时使用 -本来是小白，大神勿扰
from testcase.test_mokuai.operation_excle import OperationExcleimport shutil class test_daoru(): #一个 ...

随机推荐

关于UWB技术：DecaWave公司的DW1000芯片资料
关于人在隧道工作时都需要准确的精确度确定精准的位置.DecaWave公司的DW1000芯片,对定位上的精确度更是再适合不过了.符合IEEE802.15.4-2011超宽带标准.按照数据手册上应该最小误 ...
在Java中使用Maven配置的版本信息
我们在使用maven开发一些项目的时候需要知道当前的版本状态,但版本状态储存在pom.xml文件中,可以采用以下2种方式进行获取: 1. 采用xml解析的方式去获取pom文件的{project.ver ...
利用maven开发springMVC项目——开发环境搭建(版本错误解决)
申明:部分内容参见别人的博客,没有任何的商业用途,只是作为自己学习使用.(大佬博客) 一.相关环境 - eclipse :eclipse-jee-oxygen-3-win32-x86_64(下载地址) ...
linux性能指标及分析工具
一.CPU 1.良好状态指标 CPU利用率:User Time <= 70%,System Time <= 35%,User Time + System Time <= 70%. 上 ...
Shell笔记-01
打开文本编辑器,新建一个文件,扩展名为sh(sh代表shell),扩展名并不影响脚本执行,见名知意就好,如果你用php写shell 脚本,扩展名就用php好了. 输入一些代码: #!/bin/bash ...
指定Android adb的启动端口
串口执行: setprop service.adb.tcp.port stop adbd start adbd 一般机器默认是5555为adb端口,但是今天遇到的一台机器以5037为默认端口,开发机器 ...
阅读 CloudDPI：Cloud+DPI+Reversible Sketch
CloudDPI: Cloud-Based Privacy-Preserving Deep Packet Inspection via Reversible Sketch 与sketch的结合点:将修 ...
为什么我们要做三份 Webpack 配置文件
时至今日,Webpack 已经成为前端工程必备的基础工具之一,不仅被广泛用于前端工程发布前的打包,还在开发中担当本地前端资源服务器(assets server).模块热更新(hot module re ...
Beyond Compare 命令行生成目录下所有文件比对的Html网页report
MAC环境下,使用Beyond Compare命令行生成两个文件夹差异的html,按目录递归生成. #1. 创建compare #2. 创建compare/old #3. compare/new #4 ...
Docker 常用命令——容器
1.新建并启动容器 docker run [option] images [command][arg] #根据镜像新建容器并运行.如果本地没有镜像则从docker hub上拉取. --name ...

python练习---小脚本

一.爬子域名

二.爬I春秋精华页标题

三.爬妹子图片

三.百度URL采集

python练习---小脚本的更多相关文章

随机推荐

热门专题