爬虫（一）爬取鱼c淘贴信息

掏出了以前的小练习；

现在开始，每天复习下以前的爬虫练习，争取发现新的问题和可以优化的地方。

# -*- coding:utf-8 -*-

import requests

import chardet

import csv

from lxml import etree

import re

def get_page(url):

    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'

    header = {'User-Agent':user_agent}

    r = requests.get(url,headers=header)

    r.encoding = chardet.detect(r.content)['encoding']

    page = r.text

    return page

def parse_data(page):

    result = []

    html = etree.HTML(page)

    next_url = html.xpath('//a[@class="nxt"]/@href')

    if len(next_url) > 0:

        next_url = next_url[0]

        print(next_url)

    sites = html.xpath('//*[@class="xld xlda cl"]')

    for site in sites:

        title = site.xpath('.//a[@class="xi2"]/text()')[0]

        author = site.xpath('.//p[@class="xg1"]/a/text()')[0]

        theme = site.xpath('.//strong[@class="xi2"]/text()')[0]

        r = site.xpath('./dl/dd[2]/p[2]/text()')[0]

        sub_num,com_num =r.split(',')

        com_num = com_num.strip()

        sub_num = sub_num.strip()

        content = (title,author,theme,sub_num,com_num)

        result.append(content)

    return result,next_url

def main():

    url = 'http://bbs.fishc.org/forum.php?mod=collection'

    results = []

    page = get_page(url)

    result,next_url = parse_data(page)

    results.extend(result)

    q = True

    while q:

        if next_url:

            page = get_page(next_url)

            result,next_url = parse_data(page)

            results.extend(result)

        else:

            q = False

    headers = ['title','author','theme','sub_num','com_num']

    with open(r'taotie.csv','w',encoding = 'utf-8') as f:

        f_csv = csv.writer(f)

        f_csv.writerow(headers)

        try:

            f_csv.writerows(results)

        except UnicodeDecodeError as e:

            print(e)

if __name__ =="__main__":

    main()

爬虫（一）爬取鱼c淘贴信息的更多相关文章

零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.Wec ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...

随机推荐

<< 和>> 的计算公式
在java中,一个数左移n位,就是将这个数乘以2的n次方,右移就是将这个数除以2的n次方. 如: 8>>2 = 2 (8/2^2) 15 << 3 = 120 (15*(2 ...
NOIP2002 过河卒（DFS，DP）
https://www.luogu.org/problem/P1002 题目描述如图,A 点有一个过河卒,需要走到目标 B 点.卒行走规则:可以向下.或者向右.同时在棋盘上的任一点有一个对方的马(如 ...
sql表变量，临时表
@test是表变量,存在于内存中:#是临时表,存在于tempdb数据库空间.
for in 循环获取json中的键（key）与值（value）
一 .for in 循环 1.获取json中的键(key)与值(value): var data = {name:'张三',age:'20岁',sex:'男'}; for (var a in data ...
php启动后netstat看不到9000端口的问题
https://www.cnblogs.com/jonsea/p/5522018.html php-fpm配置文件详解其实就是PHP配置文件改一个参数 listen = 127.0.0.1: ...
FPGA时序分析
更新于20180823 时序检查中对异步复位电路的时序分析叫做()和()? 这个题做的让人有点懵,我知道异步复位电路一般需要做异步复位.同步释放处理,但不知道这里问的啥意思.这里指的是恢复时间检查和移 ...
96）PHP，文件上传（2）
(1)那么既然看到文件即使上传成功,但是只是在脚本周期内有效,脚本只要结束(脚本结束其实很快的),文件就会自动消失,那么怎么才能永久存储文件呢: 函数: Move_uploaded_file(上传临时 ...
ValidationUtil
package me.zhengjie.common.utils; import me.zhengjie.common.exception.BadRequestException; import ja ...
css样式表----------样式属性（背景与前景、边界和边框、列表与方块、格式与布局）
一.背景与前景 (1).背景 line-height: 1.5 !important;">90; /*背景色(以样式表为主,样式表优先.)*/ background-image:url ...
STL：map中的lower_bound和upper_bound
今天在做leetcode的Longest Increasing Subsequence题目时,需要用到二分查找,于是翻看了<STL源码剖析>这本书,发现map里面有lower_bound和 ...

爬虫（一）爬取鱼c淘贴信息

爬虫（一）爬取鱼c淘贴信息的更多相关文章

随机推荐

热门专题