正则爬取'豆瓣之乘风破浪的姐姐'的并存入excel文档

import requests

import re

import pandas as pd

def parse_page(url):

    headers = {

        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'

    }

    response = requests.get(url,headers=headers)

    text = response.text

    authors = re.findall(r'<div class="bg-img-green">.*?<h4>.*?<a.*?>(.*?)</a>',text,re.DOTALL)

    contents = re.findall(r'<p class=" reply-content">(.*?)</p>',text,re.DOTALL)

    commands = []

    for command in contents:

        x = re.sub(r'<.*?>',"",command)

        commands.append(x.strip())

    data={

        '作者':authors,

        '评论':commands

    }

    #print(contents)

    df=pd.DataFrame(data)

    df.to_excel('23333.xlsx',encoding='utf-8')

def main():

    url = 'https://www.douban.com/group/topic/184693273/'

    parse_page(url)

if __name__ == '__main__':

    main()

正则爬取'豆瓣之乘风破浪的姐姐'的并存入excel文档的更多相关文章

python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
正则爬取豆瓣Top250数据存储到CSV文件（6行代码）
利用正则爬取豆瓣TOP250电影信息电影名字电影年份电影评分评论人数 import requests import csv import re # 不算导包的话正式代码6行存储到csv文件 ...
Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
python爬虫：利用正则表达式爬取豆瓣读书首页的book
1.问题描述: 爬取豆瓣读书首页的图书的名称.链接.作者.出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目 ...
[超详细] Python3爬取豆瓣影评、去停用词、词云图、评论关键词绘图处理
爬取豆瓣电影<大侦探皮卡丘>的影评,并做词云图和关键词绘图第一步:找到评论的网页url.https://movie.douban.com/subject/26835471/comments ...
python 爬取豆瓣书籍信息
继爬取猫眼电影TOP100榜单之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言:pyth ...

随机推荐

vue 中表单数据为数组，v-for 循环表单数据
element-ui 中,表单数据一般为对象,但是也有是数组的情况,比如上面图示:账号和密码可以是多个,点击添加会增加一条,点击删除会删除一条表单数据为 form:{ accounts:[ { ac ...
BAPI_GOODSMVT_CREATE - 101 mvt. Message ERROR M7427
Message SAP M7427 - Entered batch &1 does not match batch &2 in the purchase order 639934 - ...
centos7上搭建Jenkins环境
选择在centos 上安装jdk和tomcat来搭建Jenkins 1.jdk安装查看有没有java环境:rpm -qa | grep java 如果没有java环境的话,接着就去查找java-1. ...
Java除法运算精度问题
结论:不要将两个int类型的变量直接相除,会出现精度丢失问题,最好将其中一个变量强制转化成浮点型现象: 两个int类型相除的结果要取整,如果相除得到0.53,那么结果会变成0,出现精度丢失的问题 D ...
PyQt5弹框定时关闭（python）
PyQt5使用QMessageBox,可以设置在几秒后关闭 (作者使用的python3) info_box = QMessageBox()# 因为没使用这种方式 QMessageBox.inform ...
必备技能，MySQL 查找并删除重复行
本文讲述如何查找数据库里重复的行.这是初学者十分普遍遇到的问题.方法也很简单.这个问题还可以有其他演变,例如,如何查找"两字段重复的行"(#mysql IRC 频道问到的问题) 如 ...
postgresql 之修改psql log信息级别
1.修改当前使用的postgresql.conf文件vim /var/lib/pgsql/10/data/postgresql.conf 2.vim 下使用\notice 找到待修改项 client_ ...
SSR,SSAO
3D Game Shaders For Beginners Screen Space Reflection (SSR)https://lettier.github.io/3d-game-shaders ...
【C++复习】第八章多态性（1）（多态类型、运算符重载）
1.多态性 1.1 什么是多态? 多态是指相同消息被不同对象接收后导致不同的行为,所谓消息是指对类成员函数的调用,不同的行为是指不同的实现,也就是调用了不同的函数. 消息在C++编程中指的是对类的成员 ...
Harbor离线安装
一.安装docker-compose 1-1. #安装方式一 curl -SL https://github.com/docker/compose/releases/download/v2.11.2/ ...

正则爬取'豆瓣之乘风破浪的姐姐'的并存入excel文档

正则爬取'豆瓣之乘风破浪的姐姐'的并存入excel文档的更多相关文章

随机推荐

热门专题