python爬虫代码

原创python爬虫代码

主要用到urllib2、BeautifulSoup模块

#encoding=utf-8

import re

import requests

import urllib2

import datetime

import MySQLdb

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

class Splider(object):

    def __init__(self):

    print u'开始爬取内容...'

    ##用来获取网页源代码

    def getsource(self,url):

    headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2652.0 Safari/537.36'}

    req = urllib2.Request(url=url,headers=headers)

    socket = urllib2.urlopen(req)

    content = socket.read()

    socket.close()

    return content

    ##changepage用来生产不同页数的链接

    def changepage(self,url,total_page):

        now_page = int(re.search('page/(\d+)',url,re.S).group(1))

    page_group = []

    for i in range(now_page,total_page+1):

        link = re.sub('page/(\d+)','page/%d' % i,url,re.S)

        page_group.append(link)

    return page_group

    #获取字内容

    def getchildrencon(self,child_url):

    conobj = {}

    content = self.getsource(child_url)

    soup = BeautifulSoup(content, 'html.parser', from_encoding='utf-8')

    content = soup.find('div',{'class':'c-article_content'})

    img = re.findall('src="(.*?)"',str(content),re.S)

    conobj['con'] = content.get_text()

    conobj['img'] = (';').join(img)

    return conobj

    ##获取内容

    def getcontent(self,html_doc):

    soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')

    tag = soup.find_all('div',{'class':'promo-feed-headline'})

    info = {}

    i = 0

    for link in tag:

        info[i] = {}

        title_desc = link.find('h3')

        info[i]['title'] = title_desc.get_text()

        post_date = link.find('div',{'class':'post-date'})

        pos_d = post_date['data-date'][0:10]

        info[i]['content_time'] = pos_d

        info[i]['source'] = 'whowhatwear'

        source_link = link.find('a',href=re.compile(r"section=fashion-trends"))

        source_url = 'http://www.whowhatwear.com'+source_link['href']

        info[i]['source_url'] = source_url

        in_content = self.getsource(source_url)

        in_soup = BeautifulSoup(in_content, 'html.parser', from_encoding='utf-8')

        soup_content = in_soup.find('section',{'class':'widgets-list-content'})

        info[i]['content'] = soup_content.get_text().strip('\n')

        text_con = in_soup.find('section',{'class':'text'})

        summary = text_con.get_text().strip('\n') if text_con.text != None else NULL

        info[i]['summary'] = summary[0:200]+'...';

        img_list = re.findall('src="(.*?)"',str(soup_content),re.S)

        info[i]['imgs'] = (';').join(img_list)

        info[i]['create_time'] = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

        i+=1

    #print info

    #exit()

    return info

    def saveinfo(self,content_info):

    conn = MySQLdb.Connect(host='127.0.0.1',user='root',passwd='',port=3306,db='test',charset='utf8')

    cursor = conn.cursor()

    for each in content_info:

        for k,v in each.items():

        sql = "insert into t_fashion_spider2(`title`,`summary`,`content`,`content_time`,`imgs`,`source`,`source_url`,`create_time`) values ('%s','%s','%s','%s','%s','%s','%s','%s')" % (MySQLdb.escape_string(v['title']),MySQLdb.escape_string(v['summary']),MySQLdb.escape_string(v['content']),v['content_time'],v['imgs'],v['source'],v['source_url'],v['create_time'])

        cursor.execute(sql)

    conn.commit()

    cursor.close()

    conn.close()

if __name__ == '__main__':

    classinfo = []

    p_num = 5

    url = 'http://www.whowhatwear.com/section/fashion-trends/page/1'

    jikesplider = Splider()

    all_links = jikesplider.changepage(url,p_num)

    for link in all_links:

    print u'正在处理页面：' + link

    html = jikesplider.getsource(link)

    info = jikesplider.getcontent(html)

    classinfo.append(info)

    jikesplider.saveinfo(classinfo)

python爬虫代码的更多相关文章

动态调整线程数的python爬虫代码分享
这几天在忙一个爬虫程序,一直在改进他,从一开始的单线程,好几秒一张图片(网络不好),,,到现在每秒钟十几张图片,,, 四个小时586万条数据,,,简直不要太爽先上图最终写出来的程序,线程数已经可以 ...
我不就是吃点肉，应该没事吧——爬取一座城市里的烤肉店数据（附完整Python爬虫代码）
写在前面的一点屁话: 对于肉食主义者,吃肉简直幸福感爆棚!特别是烤肉,看着一块块肉慢慢变熟,听着烤盘上"滋滋"的声响,这种期待感是任何其他食物都无法带来的.如果说甜点是" ...
爬取汽车之家新闻图片的python爬虫代码
import requestsfrom bs4 import BeautifulSouprespone=requests.get('https://www.autohome.com.cn/news/' ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
如何用Python爬虫实现百度图片自动下载？
Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或 ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
Python爬虫二
常见的反爬手段和解决思路 1)明确反反爬的主要思路反反爬的主要思路就是尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现;浏览器先请求了地址url1,保留了cookie在本地,之后请求地址u ...
利用python爬虫爬取图片并且制作马赛克拼图
想在妹子生日送妹子一张用零食(或者食物类好看的图片)拼成的马赛克拼图,因此探索了一番= =. 首先需要一个软件来制作马赛克拼图,这里使用Foto-Mosaik-Edda(网上也有在线制作的网站,但是我 ...
Python爬虫笔记技术篇
目录前言 requests出现中文乱码使用代理 BeautifulSoup的使用 Selenium的使用基础使用 Selenium获取网页动态数据赋值给BeautifulSoup Seleniu ...

随机推荐

HDU 1540 Tunnel Warfare（线段树+区间合并）
http://acm.hdu.edu.cn/showproblem.php?pid=1540 题目大意:抗日战争期间进行地道战,存在n个村庄用地道连接,输入D表示破坏某个村庄(摧毁与其相连的地道, 包 ...
Android Studio 初使用
Android Studio 更改Eclipse快捷键 Android Studio 更改编码 Android Studio 导包
洛谷P1738 洛谷的文件夹
原题目:点我题目是一个略水的题,我机制地用面向对象做了...所以代码量急剧加大,100行233 模拟即可,字符串处理麻烦点.如果没有找到子文件夹就新建文件夹,如果有就进入该文件夹. 提示:高能,指针 ...
第一章 git指令与设置
相关指令: 1.从远程的master分支上创建新的分支,此时新分支内容与master分支内容相同: git checkout master; git branch newbranch; git che ...
Centos7 php 5.6.19编译安装
0x01 前言在php官网下载php-5.6.19.tar.gz源代码(php7虽然说性能提升很大,但是小菜菜还是先用着这个先吧),解压后根目录有个INSTALL文件,里面有安装教程了,目录如下: ...
mysql 统计
每周: select count(*) as cnt,week(editdate) as weekflg from projects where year(editdate)=2007 group b ...
php中文截取无乱码方法
直接使用PHP函数substr截取中文字符可能会出现乱码,主要是substr可能硬生生的将一个中文字符“锯”成两半.解决办法: 1.使用mbstring扩展库的mb_substr截取就不会出现乱码了. ...
[转]moveTaskToback退后台
http://blog.csdn.net/dacainiao007/article/details/17352367 方法:public boolean moveTaskToBack(boolean ...
delphi常用快捷键（我自己经常使用的）
代码编辑器: Home 回到当前行的头部 End 回到当前行的尾部 Insert 插入代码,覆盖后面的代码,(按回车无效), 再按撤回效果 Delete 删除 F1 双击一个单词后,按F1调用自带的L ...
UISwitch（开关控件）、UISegmentedControl（分段控件）
一.UISwitch 1.初始化 UISwitch *s1 = [[UISwitch alloc]initWithFrame:CGRectMake(50, 170, 100, 200)]; 2.设 ...

python爬虫代码

python爬虫代码的更多相关文章

随机推荐

热门专题