Python_爬虫_urllib解析库

简介：提取网页保存到txt文件中 + 解析txt文件内容，取出内容

from urllib import request

import re.json

url="http://www.163.com"

response = request.urlopen(url).read().decode("gbk")

# 写入一个txt文件

with open("163/163.txt","w",encoding="gbk")as f:

    f.write(str(response))

# 读取,用json序列化后遍历出来，取出键里面的值

with open("163/163.txt",'r+',encoding="utf-8")as f:

    content=f.read()

c1=content.replace(" ",'').replace("\n",'') #去掉空格、换行

c2="["+c1+"]"

cc=json.loads.(c2)  #序列化

for i in cc:

    print(x['title'])   #取出每个项里面“title”键的值

    print(x['docurl'])

简介：提取美团链接保存在一个txt文件中

#coding=utf-8

from urllib import request

from bs4 import BeautifulSoup

req=request.urlopen("http://hotel.meituan.com/xian/")

content=req.read().decode("utf8")

bsObj=BeautifulSoup(content,"html.parser")

pcontent=bsObj.findAll("a",{"class":"poi-title"})

i=1

with open("meituan/url.txt","a+",encoding="utf8") as f:

        for x in pcontent:

                f.write(x['href']+"\n")    #取出 标签 里面的信息

                f.write(x.get_text())    #取出正文

                print("第"+'int(%s)'%(i)+"条url")

                i+=1

范例：功能实现后提高代码质量

#coding=utf-8

#获取当前地址下的所有酒店url地址

from urllib import request,error

from bs4 import BeautifulSoup

import json

for page in range(3):

        url="https://ihotel.meituan.com/hbsearch/HotelSearch?utm_medium=pc&version_name=999.9&cateId=20&attr_28=129&uuid=12B729E22135402D5CBC1432A179A735CF81DF50626153919EC2C66D46DCB233%401517811001478&cityId=42&offset="+str(page*20)+"&limit=20&startDay=20180205&endDay=20180205&q=&sort=defaults"

        try:

                req=request.urlopen(url)

                content=req.read().decode("utf8")

##                bsObj=BeautifulSoup(content,"html.parser")

##                pcontent=bsObj.findAll("a",{"class":"poi-title"})

                content_dict=json.loads(content)

                with open("meituan/url.txt","a+",encoding="utf8") as f:

                        for x in content_dict['data']['searchresult']:

                                print(x['poiid'])

                                hotel_url="http://hotel.meituan.com/%s/"%x['poiid']

                                f.write(hotel_url+"\n")

        except error.URLError as e:

                print(e.reason)

urllib添加代理IP

# -*- coding: UTF-8 -*-

from urllib import request

if __name__ == "__main__":

    #访问网址

    url = 'http://2017.ip138.com/ic.asp'

    #url = 'http://www.whatismyip.com.tw'

    #这是代理IP

    proxy = {'http':'113.124.226.174:808'}

    #创建ProxyHandler

    proxy_support = request.ProxyHandler(proxy)

    #创建Opener

    opener = request.build_opener(proxy_support)

    #添加UserAngent

    opener.addheaders = [

        ('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'),

        ('Host','www.whatismyip.com.tw')    #这个网站能检测IP地址，所以用这个作为示例

    ]

    #安装OPener

    request.install_opener(opener)

    #使用自己安装好的Opener

    response = request.urlopen(url)

    #读取相应信息并解码

    html = response.read().decode("gbk")

    #打印信息

    print(html)

Python_爬虫_urllib解析库的更多相关文章

Python爬虫【解析库之beautifulsoup】
解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulS ...
Python爬虫【解析库之pyquery】
该库跟jQuery的使用方法基本一样 http://pyquery.readthedocs.io/ 官方文档解析库的安装 pip3 install pyquery 初始化 1.字符串初始化 htm ...
python爬虫三大解析库之XPath解析库通俗易懂详讲
目录使用XPath解析库 @(这里写自定义目录标题) 使用XPath解析库 1.简介 XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言. ...
python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
python爬虫之解析库正则表达式
上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性 @href @class span 抑或是p节点里 ...
爬虫之解析库-----re、beautifulsoup、pyquery
一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
爬虫之解析库BeautifulSoup
介绍 Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等 ...
爬虫之解析库Xpath
简介 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言. XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力.起初XPat ...
爬虫之解析库pyquery
初始化安装: pip install pyquery 字符串的形式初始化 html = """ <html lang="en"> < ...

随机推荐

这玩意比ThreadLocal叼多了，吓得why哥赶紧分享出来。
这是why哥的第 70 篇原创文章从Dubbo的一次提交开始故事得从前段时间翻阅 Dubbo 源码时,看到的一段代码讲起. 这段代码就是这个: org.apache.dubbo.rpc.RpcCo ...
npm install 几种不同后缀安装模式的区别
--save/--save --dev/nothing / -g 区别,及package.json基本目录结构介绍 https://www.jianshu.com/p/e10f981972ff
通俗的讲解Python中的__new__()方法
2020-3-17更新本文,对本文中存争议的例子进行了更新! 曾经我幼稚的以为认识了python的__init__()方法就相当于认识了类构造器,结果,__new__()方法突然出现在我眼前,让我突然 ...
org.apache.rocketmq.client.exception.MQClientException: No route info of this topic, TopicTest异常解决
使用RocketMQ发送消息抛出异常,异常如下: 原因: Broker 禁止自动创建Topic,且用户没有通过手动创建此Topic,或者broker 和 Nameserver网络不通: 解决方案: 1 ...
LeetCode 45跳跃游戏&46全排列
原创公众号:bigsai,回复进群加入力扣打卡群. 昨日打卡:LeetCode 42字符串相乘&43通配符匹配跳跃游戏题目描述: 给定一个非负整数数组,你最初位于数组的第一个位置. 数组中 ...
python定义函数后跟->的意义
举例 def xxx(x) 后面跟着一个->数据类型比如->int:(别忘了冒号) 作用很简单挺流氓的直接让函数返回值为这个类型非常方(liu)便(mang)
mysql幻读、MVCC、间隙锁、意向锁(IX\IS)
IO即性能顺序主键写性能很高,由于B+树的结构,主键如果是顺序的,则磁盘页的数据会按顺序填充,减少数据移动,随机主键则可能由于记录移动产生很多io 查询二级索引时,会再根据主键id获取数据页,产生一 ...
R语言学习网站（分享）
1. https://www.r-bloggers.com/ 2. https://www.kaggle.com/datasets 3. RStudio download: https://www.r ...
vue-cli axios ie9 问题
vue在ie9中碰到的问题最近我们的项目选择用vue来做开发,在这个过程我们还要兼容ie9这个坑,在这里我写一点我碰到的坑开发选用:vue+vue-cli+axios+router+iview+m ...
F2. Same Sum Blocks (Hard) 解析(思維、前綴和、貪心)
Codeforce 1141 F2. Same Sum Blocks (Hard) 解析(思維.前綴和.貪心) 今天我們來看看CF1141F2(Hard) 題目連結題目給你一個數列\(a\),要你 ...

Python_爬虫_urllib解析库

简介：提取网页保存到txt文件中 + 解析txt文件内容，取出内容

简介：提取美团链接保存在一个txt文件中

范例：功能实现后提高代码质量

urllib添加代理IP

Python_爬虫_urllib解析库的更多相关文章

随机推荐

热门专题