python爬虫简介

一、什么是网络爬虫？

　　网络爬虫，是一种按照一定规则，自动的抓取万维网信息的程序或者脚本。

二、python网络爬虫，

　　需要用到的第三方包 requests和BeautifulSoup4

　　pip install requests

　　pip install BeautifulSoup4

　　常用方法总结：

response = requests.get('URL') #获取网

response.text     #文本内容（字符串

response.content  #文件内容，比如图

response.encoding  #设置编

response.aperant_encoding  #显示下载时候的编

response.status_code #状态码

response.cookies.get_dict()

requests.get('http://www.autohome.com.cn/news/',cookie={'xx':'xxx'})

　　beautifulsoup4模块　　

soup = BeautifulSoup('htmlstr',features='html.parser')

v1 = soup.find('div')

v1 = soup.find(id = 'i1')

v1 = soup.find('div',id = 'i1')

v2 = soup.find_all('div')

v2 = soup.find_all(id = 'i1')

v2 = soup.find_all('div',id = 'i1')

v1.text  #字符串

v1.attr #属性

#v2是个列表

v2[0].attr

三、初始demo

import requests

from bs4 import BeautifulSoup

response = requests.get(url = 'https://www.autohome.com.cn/news/') #下载页面

response.encoding = response.apparent_encoding

soup = BeautifulSoup(response.text,features='html.parser') #创建Beautisoup对象

target = soup.find(id='auto-channel-lazyload-article') #找到新闻栏

#print(target)

li_list = target.find_all('li')

for i in li_list:

    a = i.find('a')

    if a:

        print(a.attrs.get('href'))

        txt = a.find('h3').text

        imagurl = a.find('img').attrs.get('src')

        print(imagurl)

        img_response = requests.get(url = 'https:'+imagurl)

        import uuid

        file_name = str(uuid.uuid4())+'.jpg'

        with open(file_name,"wb") as f:

            f.write(img_response.content)

四、抽屉登录并点赞

'''

抽屉小套路，用户认证的cookie不是登录用户密码返回的cookie

而是第一次get返回的cookie，然后登陆的时候把这个cookie带过去进行授权操作

'''

import requests

headers = {

    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

}

post_data = {

    'phone':'8615191481351',

    'password':'11111111',

    'oneMonth':1

}

ret1 = requests.get(

    url = 'https://dig.chouti.com',

    headers = headers

)

cookie1 = ret1.cookies.get_dict()

print(cookie1)

ret2 = requests.post(

    url = 'https://dig.chouti.com/login',

    data = post_data,

    headers = headers,

    cookies = cookie1

)

cookie2 = ret2.cookies.get_dict()

print(cookie2)

ret3 = requests.post(

    url = 'https://dig.chouti.com/link/vote?linksId=21910661',

    cookies = {

        'gpsd':cookie1['gpsd']

        #'gpsd': 'f59363bb59b30fe7126b38756c6e5680'

    },

    headers = headers

)

print(ret3.text)

ret = requests.post(

    url = 'https://dig.chouti.com/vote/cancel/vote.do',

    cookies = {

        'gpsd': cookie1['gpsd']

    },

    data = {'linksId': 21910661},

    headers = headers

)

print(ret.text)

更多关于request参数的介绍：http://www.cnblogs.com/wupeiqi/articles/6283017.html

python爬虫简介的更多相关文章

python 爬虫简介
初识Python爬虫互联网简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现 ...
python 爬虫简介以及使用方法
阶段大纲: 一. 爬虫 1. 基本操作 - 登录任意网站(伪造浏览器的任何行为) 2. 性能相关 - 并发方案: - 异步IO: gevent/Twisted/asyncio/aiohttp - 自定 ...
Python爬虫入门
Python爬虫简介(来源于维基百科): 网络爬虫始于一张被称作种子的统一资源地址(URLs)列表.当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张＂待访列表＂,即 ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-04-response简介
Spider-04-response简介本小节介绍urlopen的返回对象,和简单调试方法案例v3 研究request的返回值,输出返回值类型,打印内容 geturl:返回请求对象的url inf ...
Python爬虫教程-20-xml 简介
本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xml 可以到 w3school 查看 xml 文档 xml 文档链接:http://www.w3school.com.cn/xmld ...
Python 网络爬虫 001 (科普) 网络爬虫简介
Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的我举几个生活中的例子: 例子一: 我平时会将学到的知识和积累的经验写成博客发送到CSDN博客网站上,那么对于我 ...
Python爬虫和情感分析简介
摘要这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果. 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着 ...
Python爬虫教程-21-xpath 简介
本篇简单介绍 xpath 在python爬虫方面的使用,想要具体学习 xpath 可以到 w3school 查看 xpath 文档 xpath文档:http://www.w3school.com.cn ...

随机推荐

VS下创建网站发布到IIS
http://www.51zxw.net/show.aspx?id=27297&cid=410
koa 基础（二十二）封装 DB 库 --- 测试
1.根目录/module/config.js /** * 配置文件 */ var app = { dbUrl: 'mongodb://127.0.0.1:27017/?gssapiServiceNam ...
AutoItLibrary测试Windows GUI
AutoItLibrary库关键字 AutoItLibrary 的对象操作大体上有几大主要部分,Window 操作.Control 操作.Mouse 操作.Process操作.Run 操作.Reg 操 ...
vue画图运用echarts
<template> <div class="tubiao"> <div id="main" style="width: ...
Log4J日志组件
Log4j, log for java, 开源的日志组件! 使用步骤: 1. 下载组件,引入jar文件; log4j-1.2.11.jar 2. 配置 : src/log4j.properties ...
开源的图片查看库之PhotoView
PhotoView是一个开源的图片查看库,可以实现图片的浏览,手势放大缩小等操作,以及支持在ViewPager中翻页浏览图片等功能.PhotoView使用简单,还可以对缩放模式进行设置, 其开源地址为 ...
MySQL数据表列转行
简单例子数据结构如下 use dataTest create table t_score ( name ) , subject ), grade ,) ) INSERT INTO `t_score` ...
动态初始化swiper时，轮播图划不动得各种bug解决方法
var mybanner = new Swiper('.i-gd-banner', { speed: 500, loop: true, observer:true,//修改swiper自己或子元素时, ...
Django FBV CBV以及使用django提供的API接口
FBV 和 CBV 使用哪一种方式都可以,根据自己的情况进行选择看看FBV的代码 URL的写法: from django.conf.urls import url from api import v ...
koa cookie使用
1 .Koa 中设置 Cookie 的值 ctx.cookies.set(name, value, [options]) 通过 options 置设置 cookie name 的 value : ...

python爬虫简介

python爬虫简介的更多相关文章

随机推荐

热门专题