python+mysql抓取百度新闻的标题存到数据库

#!usr/bin/python
# -*- coding:utf-8 -*-
import urllib2

import re

import MySQLdb

class BaiDuNews:

    def __init__(self):
        self.baseurl = 'http://news.baidu.com/'

    def getPage(self):
        request = urllib2.Request(self.baseurl)
        response = urllib2.urlopen(request)
        # print response.read()
        return response.read().decode('gbk')

    def getContents(self,page):
        pattern = re.compile('<li class="hd.*?<a.*?>(.*?)</a>', re.S)
        items = re.findall(pattern, page)
        contents = []
        for item in items:
            print item
            contents.append(item.encode('utf-8'))
        return contents

    def saveDB(self, contents):
        db = MySQLdb.connect(host='127.0.0.1',user='root',passwd='',db='test',charset='utf8')
        cur = db.cursor()
        # sql = 'CREATE TABLE baidunews (`id` INT NOT NULL PRIMARY ,`text` VARCHAR(255))'
        # cur.execute(sql)
        sql2 = """INSERT INTO baidunews VALUES (NULL ,"%s")"""
        for  content in contents:
            cur.execute(sql2 % (content))   
        cur.close()
        db.commit()
        db.close()

news = BaiDuNews()
news.saveDB(news.getContents(news.getPage()))

python+mysql抓取百度新闻的标题存到数据库的更多相关文章

Python：抓取百度SERP搜索结果页的网站标题信息
比如,你想采集标题中包含“58同城”的SERP结果,并过滤包含有“北京”或“厦门”等结果数据. 该Python脚本主要是实现以上功能. 其中,使用BeautifulSoup来解析HTML,可以参考我的 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...
Python抓取学院新闻报告
Python案例 scrapy抓取学院新闻报告任务抓取四川大学公共管理学院官网(http://ggglxy.scu.edu.cn)所有的新闻咨询. 实验流程 1.确定抓取目标.2.制定抓取规则.3 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
Python爬虫之小试牛刀——使用Python抓取百度街景图像
之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...
Python爬虫——抓取贴吧帖子
抓取百度贴吧帖子按照这个学习教程,一步一步写出来,中间遇到很多的问题,一一列举首先, 获得标题和贴子总数 # -*- coding:utf-8 -*- #!/user/bin/python ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...

随机推荐

C语言_愤怒的小鸟
// ConsoleApplication4.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<stdio.h> ...
selenium 百度登陆
using System;using OpenQA.Selenium;using OpenQA.Selenium.Firefox;//引用命名空间using System.IO; using Syst ...
Chapter 1 First Sight——37
"Never mind, then," he said hastily in a voice like velvet. 别介意,他用天鹅绒般的声音急切的说道 "I can ...
Web开发人员不要错过的60款用户界面设计工具（下）
41. Snipplr 包含最新的脚本和jQuery技术资源库. 42. Midori Midori是一个超轻量级的JavaScript框架,可使用CSS选择器快速访问页面上对应的元素. 43. ro ...
LeetCode OJ 236. Lowest Common Ancestor of a Binary Tree
Given a binary tree, find the lowest common ancestor (LCA) of two given nodes in the tree. According ...
mysql日志详细解析【转载】
转自:http://pangge.blog.51cto.com/6013757/1319304 MySQL日志: 主要包含:错误日志.查询日志.慢查询日志.事务日志.二进制日志: 日志是mysql数据 ...
字符函数库 cctype
<cctype> (ctype.h) Character handling functions This header declares a set of functions to cla ...
ASP MVC之参数传递
1.URL获取参数 Request.QueryString["XqType"]; 2.表单提交,control层获取参数:Request.Form["XXX" ...
关于tag,viewWithTag
iOS SDK内置了一套搜寻机制,可通过tag来查找子视图. **苹果公司很少给子视图设置tag.笔者所知范围的唯一例外出现在UIAlertView中,该类会给按钮分别设置值为1.2的标签 viewW ...
Windows下MySQL分步安装图解及问题总结
MySQL是一个出色的开源数据库,在易用性和性能方面都有相当不错的表现.就作者发帖为止, MySQL官方发布的所有版本中(4.1/5.0/5.1/6.0),推荐使用稳定的MySQL5.0版本(商用). ...

python+mysql抓取百度新闻的标题存到数据库

python+mysql抓取百度新闻的标题存到数据库的更多相关文章

随机推荐

热门专题