【Python爬虫】之爬取页面内容、图片以及用selenium爬取

下面不做过多文字描述：

首先、安装必要的库

# 安装BeautifulSoup

pip install beautifulsoup4

# 安装requests

pip install requests

其次、上代码！！！

①重定向网站爬虫h4文字

import requests

from bs4 import BeautifulSoup

from selenium import webdriver

from selenium.webdriver.common.by import By

from PIL import Image

# 重定向爬虫h4

url = "http://www.itest.info/courses"

soup = BeautifulSoup(requests.get(url).text,'html.parser')

for courses in soup.find_all('p'):

    print(courses.text)

    print("\r")

②v2ex爬取标题

import requests

from bs4 import BeautifulSoup

# v2ex爬虫标题

url = "https://www.v2ex.com"

v2ex = BeautifulSoup(requests.get(url).text,'html.parser')

for span in v2ex.find_all('span',class_='item_hot_topic_title'):

    print(span.find('a').text,span.find('a')['href'])

for title in v2ex.find_all("a",class_="topic-link"):

    print(title.text,url+title["href"])

③煎蛋爬虫图片

import requests

from bs4 import BeautifulSoup

headers = {

    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'

}

def download_file(url):

    '''下载图片'''

    print('Downding %s' %url)

    local_filename = url.split('/')[-1]

    # 指定目录保存图片

    img_path = "/Users/zhangc/Desktop/GitTest/project_Buger_2/Python爬虫/img/" + local_filename

    print(local_filename)

    r = requests.get(url, stream=True, headers=headers)

    with open(img_path, 'wb') as f:

        for chunk in r.iter_content(chunk_size=1024):

            if chunk:

                f.write(chunk)

                f.flush()

    return img_path

url = 'http://jandan.net/drawings'

soup = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')

def valid_img(src):

    '''判断地址符不符合关键字'''

    return src.endswith('jpg') and '.sinaimg.cn' in src

for img in soup.find_all('img', src=valid_img):

    src = img['src']

    if not src.startswith('http'):

        src = 'http:' + src

    download_file(src)

④爬取知乎热门标题

import requests

from bs4 import BeautifulSoup

headers ={

    "user-agent":"user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"

}

url = "https://www.zhihu.com/explore"

zhihu = BeautifulSoup(requests.get(url,headers=headers).text,"html.parser")

for title in zhihu.find_all('a',class_="ExploreSpecialCard-contentTitle"):

    print(title.text)

⑤selenium爬虫知乎热门标题

import requests

from bs4 import BeautifulSoup

# selenium爬虫

url = "https://www.zhihu.com/explore"

driver = webdriver.Chrome("/Users/zhangc/Desktop/GitTest/project_Buger_2/poium测试库/tools/chromedriver")

driver.get(url)

info = driver.find_element(By.CSS_SELECTOR,"div.ExploreHomePage-specials")

for title in info.find_elements(By.CSS_SELECTOR,"div.ExploreHomePage-specialCard > div.ExploreSpecialCard-contentList > div.ExploreSpecialCard-contentItem > a.ExploreSpecialCard-contentTitle"):

    print(title.text,title.get_attribute('href'))

【Python爬虫】之爬取页面内容、图片以及用selenium爬取的更多相关文章

[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
python爬虫之快速对js内容进行破解
python爬虫之快速对js内容进行破解今天介绍下数据被js加密后的破解方法.距离上次发文已经过去半个多月了,我写文章的主要目的是把从其它地方学到的东西做个记录顺便分享给大家,我承认自己是个懒猪.不 ...
【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）
package 网络编程; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileOutpu ...
如何使用angularjs实现抓取页面内容
<html ng-app="myApp"> <head> <title>angularjs-ajax</title> <scr ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
Python爬虫简单实现之Q乐园图片下载
根据需求写代码实现.然而跟我并没有什么关系,我只是打开电脑望着屏幕想着去干点什么,于是有了这个所谓的“需求”. 终于,我发现了Q乐园——到底是我老了还是我小了,这是什么神奇的网站,没听过啊,就是下面酱 ...
Python爬虫 | Beautifulsoup解析html页面
引入大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据.因此,在聚焦爬虫中使用数据解析.所以,我们的数据爬取的流程为: 指定url 基于reque ...
python爬虫18 | 就算你被封了也能继续爬，使用IP代理池伪装你的IP地址，让IP飘一会
我们上次说了伪装头部 ↓ python爬虫17 | 听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部让自己的 python 爬虫假装是浏览器小帅b主要是想让你知道在爬取网站的时候 ...

随机推荐

VBA-合并多个工作簿
'合并多个工作薄,并以工作薄的名字给sheet表命名(每个工作薄只有一张表) Sub test() Dim str As String Dim wb As Workbook str = Dir(&qu ...
【Playwright+Python】系列教程（四）Pytest 插件在Playwright中的使用
一.命令行使用详解使用Pytest插件在Playwright 中来编写端到端的测试. 1.命令行执行测试 pytest --browser webkit --headed 2.使用 pytest.i ...
P1387
#include<iostream> #include<utility> using namespace std; typedef long long ll; #define ...
EXPLAIN sql优化方法
select A . id , A . title , B . title from jos_content A left join jos_categories B on A . catid = ...
oeasy教您玩转vim - 69 - # 折叠folding入门
折叠入门回忆上次上次学习了一种新的容器 tabs选项卡 tabs选项卡包含多个选项卡tab 可以列两个tab 一个编写文件一个执行指令互不影响每个 tab选项卡还可以对应多个wind ...
Figma数值输入框支持拖拽调整功能实现
最近再研究Figma的一些功能设计, 对其中的数值输入框可以直接鼠标拖拽的这个设计印象非常深刻. 这里用了其他网友的一张动态截图演示一下效果. 实际这个拖拽的功能不止看到的这么简单, 在深度研究使用之 ...
JMeter Sampler-http请求之KeepAlive使用总结
Sampler-http请求之KeepAlive使用总结测试环境 apache-jmeter-2.13 KeepAlive使用介绍说明: 1.Use KeepAlive 勾上,则表示为求连接设置请 ...
Jmeter二次开发函数之入门
背景:Jmeter不能满足我们的参数需求,如生成手机号码.身份证号码等业务,固对jmeter进行二次函数开发. jmeter提供了接口供用户进行二次开发,我们只需引入包进行编辑.从jmeter规范上, ...
对比python学julia（第一章）--（第五节）八十天环游地球
5.1. 问题描述 <八十天环游地球>是法国作家儒勒·凡尔纳创作的一部长篇小说,讲述了这样一个神奇的故事. 在1872年的伦敦,英国绅士福格跟俱乐部的朋友以巨资打赌他能在80天实现环游地 ...
DirectX9(D3D9)游戏开发：高光时刻录制和共享纹理的踩坑
共享纹理老游戏使用directx9无法直接与cc高光sdk(d3d11)对接,但是d3d9ex有共享纹理,我们通过共享纹理把游戏画面共享给cc录制,记录一些踩坑的笔记. 共享纹理示例: // 初始化 ...

【Python爬虫】之爬取页面内容、图片以及用selenium爬取

首先、安装必要的库

其次、上代码！！！

【Python爬虫】之爬取页面内容、图片以及用selenium爬取的更多相关文章

随机推荐

热门专题