【原创】python 豆瓣采集

新手今天刚学python~~~ 有点凌乱~勉强看吧只能算是给新手看看，见谅

简单版本的豆瓣采集美图~~~~~~ 美女天天有有木有~~~

python 3.4

sqlite3

BeautifulSoup 4.4

 from bs4 import BeautifulSoup

 import urllib.request

 import time,sched,os

 import sqlite3

 import sys

 #sys.exit()

 cx = sqlite3.connect('c:\\sqlite\\test.db')

 global cu

 cu=cx.cursor()

 cu.execute('select name from sqlite_master where type=\'table\' order by name;')

 for ds in cu.fetchall():

     #print(ds[0])

     if ds[0] != 'caiji':

         print("表不存在，开始创建")

         cu.execute("create table caiji (id INTEGER PRIMARY KEY AUTOINCREMENT,pid integer,nickname text NULL); ")

     else:

         print("存在")

         break

 #t=('grmlmgjsadf',)

 #cx.execute("insert into caiji(nickname) values(?)",t)

 #cx.commit()

 #cu.execute('select * from caiji where nickname=\''+'grmlmgjsadf'+'\'')

 #if cu.fetchall():

 #    print('dsa')

 #cu.close()

 #cx.close()

 path="d:\\imgs\\"

 ISOTIMEFORMAT='%Y%m%d'

 def dwonloadimg(uri):

     temp=time.strftime(ISOTIMEFORMAT, time.localtime())

     isexists=os.path.exists(path+temp)

     if not isexists:

         os.makedirs(path+temp)

     conn=urllib.request.urlopen(uri)

     pos=uri.rfind("/")

     name=uri[pos+1:]

     f=open(path+temp+'\\'+name,'wb')

     f.write(conn.read())

     conn.close()

     f.close()

 def Getarticle1(uri):

     res=urllib.request.urlopen(uri)

     html=res.read()

     res.close()

     str(html,'utf-8')

     bs=BeautifulSoup(html)

     imgs=bs.find_all('div',class_="topic-figure cc")

     for s in imgs:

         strc=s.find('img').attrs['src']

         print('图片：',strc)

         dwonloadimg(strc)

 def init():

     print('开始抓取')

     url="http://www.douban.com/group/haixiuzu/"

     temp=urllib.request.urlopen(url)

     html=temp.read()

     str(html,'utf-8')

     bs=BeautifulSoup(html)

     divs=bs.find_all('td',class_='title')

     for s in divs:

         uri=s.a["href"]

         #print(s.a.string,"\n",uri)

         cu.execute('select * from caiji where nickname=\''+uri+'\'')

         global cu

         if not cu.fetchall():

             print("新文章")

             cx.execute("insert into caiji(nickname) values(?)",(uri,))

             cx.commit()

             Getarticle1(uri)

        # else:

         #    print("文章存在")

     print("结束")

 while True:

     init()

     time.sleep(60)

【原创】python 豆瓣采集的更多相关文章

python 豆瓣采集
新手今天刚学python~~~ 有点凌乱~勉强看吧只能算是给新手看看,见谅简单版本的豆瓣采集美图~~~~~~ 美女天天有有木有~~~ python 3.4 sqlite3 BeautifulS ...
13行代码实现：Python实时视频采集（附源码）
一.前言本文是<人脸识别完整项目实战>系列博文第3部分:程序设计篇(Python版),第1节<Python实时视频采集程序设计>,本章内容系统介绍:基于Python+open ...
python爬虫采集
python爬虫采集最近有个项目需要采集一些网站网页,以前都是用php来做,但现在十分流行用python做采集,研究了一些做一下记录. 采集数据的根本是要获取一个网页的内容,再根据内容筛选出需要的数 ...
[原创]python MySQLdb在windows环境下的安装、出错问题以及解决办法
版权声明:本文为博主原创文章,未经博主允许不得转载. 问题:windows下安装MySQLdb的方法解析:python没有php那种集成环境,比如wamp那种集成软件直接把所有需要的东西全部一次性搭 ...
[Python]豆瓣用户读书短评下载工具
简介朋友问我能不能做一个下载他在豆瓣读书上的短评的工具,于是就做了这个“豆瓣用户读书短评下载工具”. GitHub链接:https://github.com/xiaff/dbc-downloader ...
python 豆瓣图片的爬取
豆瓣图片的抓取:在python中实现生产者和消费者模型的实现,大家可以参考这篇文章 http://www.bkjia.com/Pythonjc/978391.html 个人认为是讲的比较易懂的,只要看 ...
Python实现采集wordpress整站数据的爬虫
最近爱上了python,就非常喜欢使用python来练手,在上次的基础上完善一下代码,实现采集wordpress程序的网站的整站数据的爬虫程序,本站也是采用的wordpress,我就拿吾八哥网(htt ...
Python 豆瓣源
国内的pythoner强烈建议使用豆瓣的pypi源 https://pypi.douban.com/simple/ sudo pip install -i https://pypi.douban.co ...
[Python] 通过采集两万条数据，对《无名之辈》影评分析
一.说明本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/Python3.5. 分析工具:jieba.wordcloud.pyecharts.m ...

随机推荐

关于Mac的rootless问题
由于在OS X 10.11版本添加了rootless,使得root用户在DOS命令下无法操作系统文件并提示无权限. 解决办法: 首先确认升级到最新版本重新启动电脑,持续按住Command-R直到看见 ...
sonar——Synchronized classes Vector, Hashtable, Stack and StringBuffer should not be used
It is better to use their new unsynchronized replacements: ArrayList or LinkedList instead of Vector ...
ansible笔记（12）：handlers的用法
ansible笔记():handlers的用法这篇文章会介绍playbook中handlers的用法. 在开始介绍之前,我们先来描述一个工作场景: 当我们修改了某些程序的配置文件以后,有可能需要重启 ...
前端----css的继承性和层叠性
css有两大特性; 继承性和层叠性继承性继承:给父级设置一些属性,子级继承了父级的该属性, 这就是我们的css中的继承, 需要注意的是有一些属性是可以继承下来的: color , font ...
Linux学习之CentOS(一)--CentOS6.4环境搭建
Linux学习之CentOS(一)--CentOS6.4环境搭建http://www.cnblogs.com/xiaoluo501395377/archive/2013/03/31/CentOs.ht ...
CSS基础入门
css基础语法一.CSS格式选择器{ 属性名:属性值; 属性名:属性值; } 选择器负责圈定范围,要修改的元素集合,花括号内的声明由属性名和属性值组成(key:value)的形式,用于设定具体样式 ...
iPhone内存溢出——黑白苹果
一旦iPhone内存长期占用过大,一关机即再难启动,如果你Home键加power键等都不行,那么可以要刷机了. 方式: 1.电脑下载ITunes,这个过程比较漫长,一系列逐渐大概3G,下载完成打开. ...
改造 Android 官方架构组件 ViewModel
前言 Android 官方架构组件在今年 5 月份 Google I/O 大会上被公布, 直到 11 月份一直都是测试版, 由于工作比较繁忙, 期间我只是看过类似的文章, 但没有在实际项目中使用过, ...
Modbus库开发笔记之十一：关于Modbus协议栈开发的说明
对于Modbus协议栈的整个开发内容,前面已经说得很清楚了,接下来我们说明一下与开发没有直接关系的内容. 首先,关于我为什么开发这个协议栈的问题.我们的初衷只是想能够在开发产品时不用每次都重写这一部分 ...
Confluence 6 后台中的选择站点首页
后台中的选择站点首页选择项. https://www.cwiki.us/display/CONFLUENCEWIKI/Configuring+the+Site+Home+Page

【原创】python 豆瓣采集

【原创】python 豆瓣采集的更多相关文章

随机推荐

热门专题