Python每日一题 008

题目

基于多线程的网络爬虫项目，爬取该站点http://www.tvtv.hk 的电视剧收视率排行榜

分析

robots.txt

User-agent: Yisouspider

Disallow: /wp-admin

User-agent: ChinasoSpider

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: YandexBot

Disallow: /

一级URL：http://www.tvtv.hk/archives/category/dianshiju/page/1

二级URL格式：http://www.tvtv.hk/archives/8078.html

从一级URL页面中获取二级URL

分析二级URL页面下的内容获取数据：

代码

# coding:"utf-8"

import urllib.request

from bs4 import BeautifulSoup

import re

# 爬取网页内容

def download(url):

    print("正在爬取:", url)

    try:

        html = urllib.request.urlopen(url).read()

        html = BeautifulSoup(html, 'lxml')

    except urllib.request.URLError as e:

        print("爬取错误:", e.reason)

        html = None

    return html

# 获取下一级网页中的URL

def find_url(page, tag):

    page = str(page.find_all(tag))

    url_list = re.findall('<a href="(.*?)" rel="bookmark"', page)

    return url_list

# 爬取收视数据

def get_content(url_list):

    word_data = []

    for i in url_list:

        html = download(i)

        contents = html.find_all('p')

        word_data.extend(re.findall('<p>(.*?)</p>, <p>', str(contents)))

    return word_data

# 爬取图片

def img_data(url_list):

    img_src = []

    for j in url_list:

        html = download(j)

        contents = html.find_all('p')

        img_src.extend(re.findall('src="(.*?)"/></p>', str(contents)))

    return img_src

def write_content_tofile(filename1, filename2):

    # 保存文本内容

    with open(filename1, 'w+', encoding='utf-8') as f1:

        data = get_content(url_list)

        for i in data:

            f1.write(i + "\n")

    # 保存图片

    img = img_data(url_list)

    for j in range(len(img)):

        print('正在下载第'+str(j+1)+'张图片')

        path = str(j+1)

        with open(filename2 + path + '.jpg', 'wb') as f2:

            image_data = urllib.request.urlopen(img[j]).read()

            f2.write(image_data)

if __name__ == "__main__":

    url = "http://www.tvtv.hk/archives/category/dianshiju/page/1"

    filename1 = "E:\\1.txt"

    filename2 = "E:\\img\\"

    page = download(url)

    url_list = find_url(page, 'h2')

    write_content_tofile(filename1, filename2)

暂时只是爬取单个页面的内容，后续更新多线程以及批量爬取！

Python每日一题 008的更多相关文章

Python：每日一题008
题目: 判断101-200之间有多少个素数,并输出所有素数. 程序分析: 判断素数的方法:用一个数分别去除2到sqrt(这个数),如果能被整除,则表明此数不是素数,反之是素数. 个人思路及代码: li ...
Python每日一题 004
将 0001 题生成的 200 个激活码(或者优惠券)保存到 Redis 非关系型数据库中. 代码 import redis import uuid # 创建实例 r=redis.Redis(&quo ...
Python每日一题 003
将 002 题生成的 200 个激活码(或者优惠券)保存到 MySQL 关系型数据库中. 代码 import pymysql import uuid def get_id(): for i in ra ...
Python每日一题 002
做为 Apple Store App 独立开发者,你要搞限时促销,为你的应用生成激活码(或者优惠券),使用 Python 如何生成 200 个激活码(或者优惠券)? 在此生成由数字,字母组成的20位字 ...
Python每日一题 009
题目有个目录,里面是你自己写过的程序,统计一下你写过多少行代码.包括空行和注释,但是要分别列出来. 代码参照网络上代码 # coding: utf-8 import os import re # ...
Python每日一题 007
题目你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词. 很难客观的说每篇日记中最重要的词是什么,所以在这里就仅仅是将每篇日记中出 ...
Python每日一题 006
题目你有一个目录,装了很多照片,把它们的尺寸变成都不大于 iPhone5 分辨率的大小. 如果只是单纯的通过将图片缩放到iPhone5分辨率大小,显然最后呈现出来的效果会很糟糕.所以等比例缩放到长( ...
Python每日一题 005
任一个英文的纯文本文件,统计其中的单词出现的个数. 代码 # coding:utf-8 import re def get_word(filename): fp=open(filename," ...
Python每日一题 001
Github地址:https://github.com/Yixiaohan/show-me-the-code Talk is Cheap, show me the code. --Linus Torv ...

随机推荐

【HDOJ6608】Fansblog（威尔逊定理）
题意:给定质数p,求q!模p的值,其中q为小于p的最大质数 1e9<=p<=1e14 思路:根据质数密度近似分布可以暴力找q并检查找到q后根据威尔逊定理: 把q+1到p-1这一段的逆元移 ...
VC++ 创建及调用Dll
一._stdcall 被这个关键字修饰的函数,其参数都是从右向左通过堆栈传递的(__fastcall 的前面部分由ecx,edx传), 函数调用在返回前要由被调用者清理堆栈. 这个关键字主要见于Mic ...
BUUCTF | 摩丝
将得到的交上去居然不对: 然而大写却过了: flag{ILOVEYOU} 因为摩斯电码在设计的时候就没有区分大小写,而且从码表中可以看到,都是大写,所以在网站上解密出来的自己转成大写
BUUCTF | SQL COURSE 1
一开始还以为是在登录框进行注入,于是fuzzing了一下发现一个注入点都没有 1 and 1 1 and 0 1' and '1 1' and '0 1" and "1 1&quo ...
maven创建的quickstart项目生成可执行jar
maven创建的quickstart项目在打包成jar后,通过Java -jar 文件名.jar 会提示没有主清单属性. 为了生成可执行的jar,需要添加maven插件 maven-shade-plu ...
python练习题之计算字符串中所有字符得和
第二题:计算字符串中所有数字的和1.字符串中只有小写字母和数字2.数字可能连续,也可能不连续3.连续数字要当做一个数处s='1234adg3g11's1 = "" for i in ...
ACM中java的使用 (转)
ACM中java的使用这里指的java速成,只限于java语法,包括输入输出,运算处理,字符串和高精度的处理,进制之间的转换等,能解决OJ上的一些高精度题目. 1. 输入: 格式为:Scanner ...
【SpringBoot】理解Spirng中的IOC原理
前言前文已经介绍了Spring Bean的生命周期,在这个周期内有一个重要的概念就是: IOC容器大家也知道IOC是Sping 的重要核心之一,那么如何理解它呢,它又是产生什么作用呢?本文就IOC ...
MongoDB 3.6 开启慢查询
参考:Profiling Levels:支持一下级别.0 默认的profiler level,profiler 关闭并且不收集数据.1 profiler 收集超过slowms的操作数据.2 profi ...
selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取
代码要多敲注释要清晰哪怕再简单 #使用selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取 #地址:https://music.douban.com/chart #导入需要的模块 f ...

Python每日一题 008

题目

分析

代码

Python每日一题 008的更多相关文章

随机推荐

热门专题