Python之抓取网页元素

import urllib.request

from bs4 import BeautifulSoup

url = "http://www.wal-martchina.com/walmart/store/14_hubei.htm"

user_agent = "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36"

request = urllib.request.Request(url)

request.add_header("User-Agent", user_agent)

content = urllib.request.urlopen(request)

soup = BeautifulSoup(content,from_encoding="gb18030")

#店名

shopname = soup.find_all('td', {"class": "xl714445"})

#地址

addresss = soup.find_all('td', {"class": "xl684445"})

#联系电话

phones = soup.find_all('td', {"class": "xl744445"})

for shop in shopname:

    print("店铺名称:"+shop.text.lstrip().rstrip())

print("----------------------------------------------")

for address in addresss:

      print("店铺地址:"+address.text.lstrip().rstrip())

sum = 0

for phone in phones:

    if sum % 2 == 0:

        print("联系电话：" + phone.text.lstrip().rstrip())

    else:

        print("交通路线：" + phone.text.lstrip().rstrip())

        print('---------------------------------------------------')

    sum += 1

Python之抓取网页元素的更多相关文章

python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...
python 解决抓取网页中的中文显示乱码问题
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来 ...
python分布式抓取网页
呵呵,前两节好像和python没多大关系..这节完全是贴代码, 这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧. 对于编码格式确实搞得我头大..取下来页面不知道是什么编码,所以先找c ...
python 处理抓取网页乱码问题一招鲜
FROM: http://my.oschina.net/012345678/blog/122355 相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找 ...
python多线程抓取网页信息
#!/usr/env python #-*- coding: utf-8 -*- import urllib import urllib2 import random import requ ...
python 简单抓取网页并写入excel实例
# -*- coding: UTF-8 -*- import requests from bs4 import BeautifulSoup import xlwt import time #获取第一页 ...
（转）用python实现抓取网页、模拟登陆
涉及一系列内容,部分已在前面转载,仍转自crifan: http://www.crifan.com/how_to_use_some_language_python_csharp_to_implemen ...
python多线程实现抓取网页
Python实现抓取网页以下的Python抓取网页的程序比較0基础.仅仅能抓取第一页的url所属的页面,仅仅要预定URL足够多.保证你抓取的网页是无限级别的哈,以下是代码: ##coding:utf ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

随机推荐

Node原生demo
1.=>创建配置模块,作用是先判断是开发环境还是生产环境,并将开发或生产环境的数据库信息和http信息分别筛开,便于选择 2.=>创建数据库模块,作用是连接数据库 3.=>创建路由模 ...
Springboot Actuator之一：执行器Actuator入门介绍
介绍 Spring Boot有四大神器,分别是auto-configuration.starters.cli.actuator,本文主要讲actuator.actuator是spring boot提供 ...
luffy前台配置
目录 axios前后台交互 cokies操作 element-ui页面组件框架 bootstrap页面组件框架前端主页图片准备页头组件:components/Header.vue 轮播图组件:c ...
Selenium 基本使用
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.c ...
spark内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文旨在梳理出 ...
js之语句——案例
以下为js语句的案例题,虽然简单,但是里面涉及到语句的嵌套,多个参数,需要好好分析. 1.求出1-100之间所有奇/偶数之和 <script> var sum = 0; for (var ...
vue入门：（v-for指令与列表渲染）
v-for渲染列表维护状态数组变异方法与替换数组 $set.$remove 对象属性实现列表渲染一.v-for渲染列表语法:v-for="item in items" 先来 ...
阿里云 elasticsearch 增删改查
kibana 控制台 # 查询所有数据 GET /yixiurds_dev/_search { "query": { "match_all": { } } } ...
HttpClient的GET请求（post）请求
一.不带参数的GET请求 // 创建Httpclient对象 CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建ht ...
latex公式居中环境
一般能够用到的环境是 \begin{equation} \begin{aligned} ... \end{aligned} \end{equation} 然而,这种环境用&只能够保证左对齐或者 ...

Python之抓取网页元素

Python之抓取网页元素的更多相关文章

随机推荐

热门专题