吴裕雄--天生自然PYTHON爬虫：使用BeautifulSoup解析中国旅游网页数据

import requests

from bs4 import BeautifulSoup

url = "http://www.cntour.cn/"

strhtml = requests.get(url)

soup = BeautifulSoup(strhtml.text,"lxml")

#下面的参数由网站开发者模式中Copy->copy selector复制而来

data = soup.select("#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a")

print(data)

import requests

from bs4 import BeautifulSoup

url = "http://www.cntour.cn/"

strhtml = requests.get(url)

soup = BeautifulSoup(strhtml.text,"lxml")

#下面的参数由网站开发者模式中Copy->copy selector复制而来,获取该网站所有超链接内容,删掉：:nth-child(1),如下：

data = soup.select("#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a")

print(data)

#清洗和组织爬取到的数据

import requests

from bs4 import BeautifulSoup

url = "http://www.cntour.cn/"

strhtml = requests.get(url)

soup = BeautifulSoup(strhtml.text,"lxml")

#下面的参数由网站开发者模式中Copy->copy selector复制而来,获取该网站所有超链接内容,删掉：:nth-child(1),如下：

data = soup.select("#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a")

for item in data:

    result={

        "title":item.get_text(),

        "link":item.get("href")

    }

    print(result)

#清洗和组织爬取到的数据,获取每个链接后面的ID

import re

import requests

from bs4 import BeautifulSoup

url = "http://www.cntour.cn/"

strhtml = requests.get(url)

soup = BeautifulSoup(strhtml.text,"lxml")

#下面的参数由网站开发者模式中Copy->copy selector复制而来,获取该网站所有超链接内容,删掉：:nth-child(1),如下：

data = soup.select("#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a")

for item in data:

    result={

        "title":item.get_text(),

        "link":item.get("href"),

        "ID":re.findall("\d+",item.get("href"))

    }

    print(result)

吴裕雄--天生自然PYTHON爬虫：使用BeautifulSoup解析中国旅游网页数据的更多相关文章

吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情
Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫.Scrapy是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理.下载器(多线程的Do ...
吴裕雄--天生自然PYTHON爬虫：使用Selenium爬取大型电商网站数据
用python爬取动态网页时,普通的requests,urllib2无法实现.例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests.urll ...
吴裕雄--天生自然PYTHON爬虫：爬取某一大型电商网站的商品数据（效率优化以及代码容错处理）
这篇博文主要是对我的这篇https://www.cnblogs.com/tszr/p/12198054.html爬虫效率的优化,目的是为了提高爬虫效率. 可以根据出发地同时调用多个CPU,每个CPU运 ...
吴裕雄--天生自然PYTHON爬虫：爬虫攻防战
我们在开发者模式下不仅可以找到URL.Form Data,还可以在Request headers 中构造浏览器的请求头,封装自己.服务器识别浏览器访问的方法就是判断keywor是否为Request h ...
吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中
1.下载MongoDB 官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮上面这张图直接Next 把bin路径添加 ...
吴裕雄--天生自然PYTHON爬虫：用API爬出天气预报信息
天气预报网址:https://id.heweather.com/,这个网站是需要注册获取一个个人认证后台密钥key的,并且每个人都有访问次数的限制,这个key就是访问API的钥匙. 这个key现在是要 ...
吴裕雄--天生自然python爬虫：使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据
import requests url = 'http://www.cntour.cn/' strhtml = requests.get(url) print(strhtml.text) URL='h ...
吴裕雄--天生自然python学习笔记：pandas模块删除 DataFrame 数据
Pandas 通过 drop 函数删除 DataFrarne 数据,语法为: 例如,删除陈聪明(行标题)的成绩: import pandas as pd datas = [[65,92,78,83,7 ...
吴裕雄--天生自然python学习笔记：抓取网络公开数据
当前,有许多政府或企事业单位会在网上为公众提供相关的公开数据.以 http://api.help.bj.cn/api/均 .cn/api /网站为例,打开这个链接,大家可以看到多种可供调用的数据 . ...

随机推荐

js将相除结果百分比 ,四舍五入函数 toFixed（）
function percentNum(num, num2) { return (Math.round(num / num2 * 10000) / 100.00 + "%"); } ...
mysql中utf8字符集的设置及character_set_database属性修改
mariadb配置文件修改字符集: [mysqld] atadir=/usr/local/mysql/datasocket=/tmp/mysql.sock # Disabling symbolic-l ...
js中ES6的Set的基本用法
ES6 提供了新的数据结构 Set.它类似于数组,但是成员的值都是唯一的,没有重复的值. const s = new Set(); [2,3,5,4,5,2,2].forEach(x => s. ...
使用电脑热点和Fiddler对Android app进行抓包
如果没有路由器,怎么对app抓包?如果你的电脑可以开热点的话也可以. 打开Fiddler,菜单栏选择Tools->Options->Connections,勾选Allow remote c ...
python两个_多个字典合并相加
这只是符合比较正常的需求和场景. #一.适用合并两个字典(key不能相同否则会被覆盖),简单,好用. A = {'a': 11, 'b': 22} B = {'c': 48, 'd': 13} #up ...
C#中equals和==的区别有哪些
本文导读:C# 中==是用来判断变量的值是否相等,相等返回true,不相等返回false.Equals是用来判断两个对象(除string类型外)是否相等,相等的条件是:值,地址,引用全相等,因为St ...
duv中内容不换行的解决办法
<div style='width: 100px;display:block;word-break: break-all;word-wrap: break-word;'> 内容超出div宽 ...
【代码审计】XDCMS 报错注入
审计的都是之前很老的一些的CMS,把学习的过程分享出来,如果有正在和我一起学习的兄弟们,希望看到文章之后会有所收获 ------------------------------------------ ...
pycharm 右键无法显示unittest框架&&解决右键只有unittest 运行如何取消右键显示进行普通run
上面是普通文件和unittest 导入的文件右键快捷键显示情况,可以看出两者快捷键都是ctr+shift+F10,如果你是右键模式想运行unitest,但是又不知道哪里配置unittest直接运行快捷 ...
Mybatis遇到的报错
MyBatis遇到的报错: 1.Caused by: org.xml.sax.SAXParseException; lineNumber: 35; columnNumber: 17; 元素类型为 &q ...

吴裕雄--天生自然PYTHON爬虫：使用BeautifulSoup解析中国旅游网页数据

吴裕雄--天生自然PYTHON爬虫：使用BeautifulSoup解析中国旅游网页数据的更多相关文章

随机推荐

热门专题