python爬取数据保存入库

import urllib2

import re

import MySQLdb

class LatestTest:
    #初始化
    def __init__(self):
        self.url="https://toutiao.io/latest"
        self.UserAgent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36'
        self.header={'User-Agent':self.UserAgent}

    #获取URL、标题、邮箱 保存到list
    def getDate(self):

        request=urllib2.Request(self.url,headers=self.header)
        respone=urllib2.urlopen(request).read()
        #print respone
        content=re.compile(r'<div class="post">.*?class="title">.*?href="(.*?)">(.*?)</a>.*?<div class="meta">.*?<span>(.*?)</span>',re.S)
        urls=re.findall(content,respone)
        namelist=[]

        for url in urls:
                #print url[0],url[1],url[2]
            namelist.append([url[0].strip(),url[1].strip(),url[2].strip()])
            if len(namelist)>=10:
                break

        return namelist
    #保存数据到mysql数据库
    def savaDateMysql(self,url,title,email):
        sql="insert into content(url,title,email)values('%s','%s','%s')" %(url,title,email)
        try: 

            conn=MySQLdb.connect('192.168.200.23','root','g6s8m3t7s','mysql',charset='utf8')
            cursor=conn.cursor()
           # cursor.execute('create table IF NOT EXISTS content(id int AUTO_INCREMENT PRIMARY KEY,url varchar(100),title varchar(100),email varchar(100))')
            #cursor.execute('drop table IF EXISTS content')
            cursor.execute(sql)
            conn.commit()
        except Exception,e:
            print e
        finally:
            conn.close()

if __name__=='__main__':
    lat=LatestTest()
    contentlist=lat.getDate()
    try:
        for tent in contentlist:
            url=tent[0].strip()
            title=tent[1].strip()
            email=tent[2].strip()
            print url,title,email
            lat.savaDateMysql(url,title,email)
    except Exception,e:
        print e

python爬取数据保存入库的更多相关文章

python爬取数据需要注意的问题
1 爬取https的网站或是接口的时候,如果是不受信用的SSL证书,会报错,需要添加如下代码,如下代码可以保证当前代码块内所有的请求都自动屏蔽ssl证书问题: import ssl # 这个是爬取ht ...
python爬取数据保存到Excel中
# -*- conding:utf-8 -*- # 1.两页的内容 # 2.抓取每页title和URL # 3.根据title创建文件,发送URL请求,提取数据 import requests fro ...
Python 爬取数据入库mysql
# -*- enconding:etf-8 -*- import pymysql import os import time import re serveraddr="localhost& ...
ASP.NET网络爬虫小研究 HtmlAgilityPack基础，爬取数据保存在数据库中再显示再自己的网页中
1.什么是网络爬虫关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些 ...
scrapy爬取数据保存csv、mysql、mongodb、json
目录前言 Items Pipelines 前言用Scrapy进行数据的保存进行一个常用的方法进行解析 Items item 是我们保存数据的容器,其类似于 python 中的字典.使用 item ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python 爬取天猫美的评论数据
笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...
【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地
>>>内容基本框架: 1.爬虫目的 2.爬取过程 3.代码实现 4.爬取结果 >>>实验环境: python3.6版本,pycharm,电脑可上网. [一爬虫目 ...

随机推荐

easyUI + swfupload 多附件上传功能
public void UPLOADFILED() { Date dt = new Date(System.currentTimeMillis()); SimpleDateFormat sdf = n ...
jQuery学习笔记（三）jQuery中的事件
目录加载DOM 事件绑定合成事件事件冒泡移除事件一．加载DOM Javascript 与HTML之间的交互是通过用户操作浏览器页面引发的事件来处理的.jQuery提供了丰富的事件处理机制.从 ...
关于ř与画面的集成---- k均值聚类
1.利用R内置数据集iris: 2.通过Rserve 包连接tableau,服务器:localhost,默认端口6311: 3.加载数据集iris: 4.编辑字段:Cluster <span s ...
Dom中的继承关系
首先声明,一些内容基于个人猜测,如果哪里有错误,请立即联系在下! 我们用js操作Dom时,会经常用到一些个方法比如基于获取到的元素选择其子元素: <!DOCTYPE html> <h ...
[OC]UILabel 文字长的截断方式
Tip: 参考文档:http://blog.csdn.net/reylen/article/details/21012859 @property(nonatomic) NSLineBreakMode ...
jquery插件 - 学习笔记（插件参数及函数的调用）
今天研究的是jquery插件的基本写法: 比如我打算写一个名为 ImageZoom 的插件前台调用: <script src="ImageZoom.js"></ ...
Strus2第一次课：dom4j解析xml文档
xml文本标记语言: 常用于交换数据:独立于操作系统.编程语言数据存储:xml数据配置:灵活性强,可读性高可以使用css样式改变xml样式 xml解析技术:dom解析xml技术: sax解析xml技术 ...
jquery on 绑定多个事件多个元素
$('.wrap').on({ click:function(){ //事件1 ...... }, keyup:function() { //事件2 ....... }, keydown:functi ...
VB检测按键CTRL+C的次数
Private Declare Function GetAsyncKeyState Lib "user32" (ByVal vkey As Long) As IntegerPriv ...
第四周作业-yjw
运动策略分析首先我们可以得到我方击球手质心的位置,球的质心的位置,对方球门中心位置.同时以桌面边缘为坐标轴,建立笛卡尔坐标系.可以明确的一点是,击球手的运动为曲线,球进框的运动为直线,或者折线. 击 ...

python爬取数据保存入库

python爬取数据保存入库的更多相关文章

随机推荐

热门专题