Python_爬虫

1.urllib 和 Xpath的区别与联系

from urllib import request

from lxml import etree

from bs4 import BeautifulSoup

url = "https://www.zhipin.com/job_detail/1418671405.html?ka=search_list_1"

req = request.urlopen(url).read().decode("utf8")

sel=etree.HTML(req) #实例化

job_desc = sel.xpath(r'//*[@id="main"]/div[3]/div/div[2]/div[3]/div[1]/div/text()')[0]

company_desc = sel.xpath(r'//*[@id="main"]/div[3]/div/div[2]/div[3]/div[2]/div/text()')[0]

print(job_desc)

print(company_desc)

# -------------------------------------------------------------------------------------------------

from urllib import request

from bs4 import BeautifulSoup

url = "https://www.zhipin.com/job_detail/1418671405.html?ka=search_list_1"

req = request.urlopen(url).read().decode("utf8")

soup = BeautifulSoup(req,'html.parser')

job_desc = soup.find().find_all()    #直接写筛选条件，不能用xpath等

print(job_desc)

Urllib 和 Xpath

Python_爬虫_基础的更多相关文章

Python_爬虫_案例汇总：
1.豆瓣采集 1 #coding:utf-8 2 #采集豆瓣书信息和图片,写进数据库 3 4 from urllib import request 5 # from bs4 import Beauti ...
Python_爬虫_百度图片
百度图片有些有编码问题,暂时不能爬取,多试几个 #思路:抓取图片地址,根据地址转存图片(注意名称):难点:转码 # -*- coding:utf-8 -*- from urllib import re ...
Python_爬虫笔记_2018.3.19
Python_爬虫_笔记 1.前言 1.1爬虫用途: 网站采集.接口采集(地图(jis 热力学屋里端口/协议).微信.知乎.) 1.2基本流程:网页下载(requests)+网页解析+爬虫调度网页 ...
web前端学习python之第一章_基础语法(二)
web前端学习python之第一章_基础语法(二) 前言:最近新做了一个管理系统,前端已经基本完成, 但是后端人手不足没人给我写接口,自力更生丰衣足食, 所以决定自学python自己给自己写接口哈哈哈 ...
web前端学习python之第一章_基础语法(一)
web前端学习python之第一章_基础语法(一) 前言:最近新做了一个管理系统,前端已经基本完成, 但是后端人手不足没人给我写接口,自力更生丰衣足食, 所以决定自学python自己给自己写接口哈哈哈 ...
Python 爬虫四基础案例-自动登陆github
GET&POST请求一般格式爬取Github数据 GET&POST请求一般格式很久之前在讲web框架的时候,曾经提到过一句话,在网络编程中“万物皆socket”.任何的网络通信归根 ...
SSM整合_年轻人的第一个增删改查_基础环境搭建
写在前面 SSM整合_年轻人的第一个增删改查_基础环境搭建 SSM整合_年轻人的第一个增删改查_查找 SSM整合_年轻人的第一个增删改查_新增 SSM整合_年轻人的第一个增删改查_修改 SSM整合_年 ...
python_爬虫基础学习
——王宇阳—根据mooc课程总结记录笔记(Code_boy) Requests库:自动爬去HTML页面.自动网络请求提交 robots.txt:网络爬虫排除标准 Beautiful Soup库:解析H ...
零基础学习python_爬虫（53课）
1.Url的格式简单介绍,如下图: 2.我们要对网站进行访问,需要用到python中的一个模块或者说一个包吧,urllib(这个在python2中是urllib+urllib2,python3将这两个 ...

随机推荐

centos8平台编译安装nginx1.18.0
一,nginx的官网: http://nginx.org/ 说明:刘宏缔的架构森林是一个专注架构的博客,地址:https://www.cnblogs.com/architectforest 对应的源码 ...
Spring官方都推荐使用的@Transactional事务，为啥我不建议使用！
GitHub 17k Star 的Java工程师成神之路,不来了解一下吗! GitHub 17k Star 的Java工程师成神之路,真的不来了解一下吗! GitHub 17k Star 的Java工 ...
第十一章 LNMP架构基础介绍
一.LNMP架构 1.简介 oLNMP是一套技术的组合,L=Linux.N=Nginx.M~=MySQL.P~=PHP不仅仅包含这些,还有redis/ELK/zabbix/git/jenkins/ka ...
vscode按下F5黑窗口显示的是乱码
找了很多方法,powershell修改了也变不了最后找到了这个链接的方法:https://blog.csdn.net/weixin_40040107/article/details/10372155 ...
LeetCode 45跳跃游戏&46全排列
原创公众号:bigsai,回复进群加入力扣打卡群. 昨日打卡:LeetCode 42字符串相乘&43通配符匹配跳跃游戏题目描述: 给定一个非负整数数组,你最初位于数组的第一个位置. 数组中 ...
脑桥Brain-Pons
date: 2014-02-01 15:30:11 updated: 2014-02-01 15:30:11 [一] "2025.7.3.Brain-Pons?Expeiment?Under ...
Java网关服务-AIO（一）
Java网关-AIO(一) aio:声明一个byteBuffer,异步读,读完了之后回调,相比于Future.get(),可以减少阻塞.减少线程等待,充分利用有限的线程 nio:声明一个byteBuf ...
还在本地安装MySQL/RabbitMQ/MongoDB 吗 ? 或许你可以试试这个【附下载】
我们经常在Windows开发的时候,需要在本地进行调试.当然也免不了安装数据库.消息队列等一些开发软件.等什么时候我们重新安装了这边软件.如此的繁琐. 尤其是安装RabbitMQ 消息队列的时候,居 ...
ERROR: No matching distribution found for cv2
ImportError: No module named cv2和No matching distribution found for cv2的问题原因这个是由于没有导入opencv库导致的解决 ...
[论文阅读] RNN 在阿里DIEN中的应用
[论文阅读] RNN 在阿里DIEN中的应用 0x00 摘要本文基于阿里推荐DIEN代码,梳理了下RNN一些概念,以及TensorFlow中的部分源码.本博客旨在帮助小伙伴们详细了解每一步骤以及为什 ...

Python_爬虫_基础

Python_爬虫_基础的更多相关文章

随机推荐

热门专题