第一个python抓取单网页的例子

#!/usr/bin/env python

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import pymysql

import sys, io

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') # Change default encoding to utf8

print('连接到mysql服务器...')

db = pymysql.connect("localhost","root","root","python")

print('连接上了!')

cursor = db.cursor()

hdrs = {'User-Agent':'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)'}

url = "http://www.xxx.com/tezgcmp/1303.html"

r = requests.get(url, headers = hdrs)

soup = BeautifulSoup(r.content.decode('gbk', 'ignore'), 'lxml')

title=soup.find("h1")

title=title.string.encode("utf-8")

intro=soup.select(".intro")

rintro=intro[0].string.encode("utf-8")

content=soup.select(".content")

rcontent=content[0].encode("utf-8")

insert = ("INSERT INTO article(title,intro,content)" "VALUES(%s,%s,%s)")

data = (title, rintro, rcontent)

cursor.execute(insert, data)

db.commit()

print('爬取数据并插入mysql数据库完成...')

备注:页面内容有h1,intro,content的

顺便写点心得

BeautifulSoup中的 find_all() 的返回是个list
find()返回的是单个值
.select() 返回的也是list
如果去第一个元素请用[0]这种方式

第一个python抓取单网页的例子的更多相关文章

python抓取中文网页乱码通用解决方法
注:转载自http://www.cnpythoner.com/ 我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法. 首页我们需 ...
Python抓取单个网页中所有的PDF文档
Github博文地址,此处更新可能不是很及时. 1.背景最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
python抓取网页图片
本人比较喜欢海贼王漫画,所以特意选择了网站http://www.mmonly.cc/ktmh/hzw/list_34_2.html来抓取海贼王的图片. 因为是刚刚学习python,代码写的不好,不要喷 ...
用Python抓取网页并解析
软件版本 python:2.7.12 网页抓取库网页抓取库为requests, github地址为:https://github.com/requests/requests, 文档地址为:http: ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...

随机推荐

HDU2476 String painter
题意 String painter Time Limit: 5000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others ...
stenciljs 学习二 pwa 简单应用开发
stenciljs 介绍参考官方网站,或者 https://www.cnblogs.com/rongfengliang/p/9706542.html demo 项目使用脚手架工具创建项目使用脚手架 ...
php递归函数return会出现无法正确返回想要值的情况
php递归函数中使用return的时候会碰到无法正确返回想要的值得情况,如果不明白其中的原因,很难找出错误的,就下面的具体例子来说明一下吧: 1 2 3 4 5 6 7 8 9 function te ...
多线程安全问题之Lock显示锁
package com.hls.juc; import java.util.concurrent.locks.Lock;import java.util.concurrent.locks.Reentr ...
centos下yum安装pip失败
[root@wfm ~]# yum -y install pip Loaded plugins: fastestmirror, refresh-packagekit, securityLoading ...
01.ubuntu14.04安装HI3518EV200 SDK的过程
转载,侵删 1.海思SDK安装编译 Hi3518EV200_SDK是基于Hi3518EV200_DMEB的软件开发包,包含了在Linux相关应用开发时使用的各种工具及其源代码,是用户开发中最基本的软件 ...
revit API 生成墙图元
由于Revit的版本问题,在网上找的生成墙图元的代码,在我机器上的Revit 2016中编译不能通过,通过多次调试,终于找到在revit 2016中使用API生成墙图元的代码,现在贴出来. 下面的代码 ...
好强大的vim配置文件
原文链接 http://www.cnblogs.com/ma6174/archive/2011/12/10/2283393.html
C/C++基础----表达式
1 基本概念类型转换,小整型通常会被提升. 运算符重载,运算对象的个数.运算符的优先级和结合律都是无法改变的. 左值右值,对象被用做右值时,使用的是对象的值(内容):用做左值时,使用的是对象的身份( ...
springMVC学习(4)-商品修改(RequestMapping解释、controller返回值)
一.需求: 操作流程: 1.进入商品查询列表页面 2.点击修改,进入商品修改页面,页面中显示了要修改的商品(从数据库查询) 3.在商品修改页面,修改商品信息,修改后,点击提交代码: ItemsMap ...

第一个python抓取单网页的例子

第一个python抓取单网页的例子的更多相关文章

随机推荐

热门专题