Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。

 # coding=utf-8

 import numpy as np

 import pandas as pd

 import sys

 from selenium import webdriver

 import time

 import requests

 import re

 from openpyxl.workbook import Workbook

 import matplotlib.pyplot as plt

 import matplotlib

 urls = []

 urls_new = []

 titles = []

 titles_new = []

 days = []

 comments = []

 authors = []

 sources = []

 comment = []

 ty = []

 def save_to_file(file_name, contents):

     fh = open(file_name, 'w')

     fh.write(contents)

     fh.close()

 url="https://www.ithome.com/"

 # headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'

 #                          '(KHTML,like Gecko) Chrome/50.0.2661.102 Safari/537.36 QIHU 360EE'}

 headers={'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"}

 rep = requests.get(url,headers=headers)

 rep.encoding="utf-8"

 strw=rep.text

 save_to_file('ithome.html', strw)

 p = re.compile(r'<div class="lst lst-1 new-list">(.*?)</div>\s*?</div>')

 m = p.findall(strw)

 print(len(m[0]))

 p = re.compile(r'<div class=\"block \d{4} new-list-\d{1}\"(?: style=\".*?\")?><ul>(.*?)</ul></div>')

 m2 = p.findall(m[0])

 print(len(m2))

 broswer = webdriver.Chrome('D:\谷歌\Google\Chrome\Application\chromedriver.exe')

 for i in m2:

     m2 = re.findall(r'</span><span class=\"title\">.*?href=\"(.*?)\">(?:<.*?>)?(.*?)(?:</font>)?</a></span></li>', i)

     for j in m2:

         urls.append(j[0])

         titles.append(j[1])

 print(len(urls))

 for i in range(len(urls)):

     print(u'读取中' + urls[i])

     broswer.get(urls[i])

     time.sleep(1)

     strw2 = broswer.page_source

     # print(strw2)

     p2 = re.compile(r'https://\w+?.ithome.com/(?:html/)?(.*?)/.*?')

     m2 = p2.findall(urls[i])

     print(m2)

     p = re.compile(u'<span id="pubtime_baidu">(\d*-\d*-\d*).*?</span><span id="source_baidu">'

                    u'来源：<a href=".*?" .*?>(.*?)</a></span><span id="author_baidu">'

                    u'作者：(?:<strong>)?(.*?)(?:</strong>)?</span>.*?<span id="commentcount">(.*?)</span>')

     m = p.findall(strw2)

     print(m)

     if len(m) > 0:

         days.append(m[0][0])

         sources.append(m[0][1])

         authors.append(m[0][2])

         urls_new.append(urls[i])

         comments.append(m[0][3])

         titles_new.append(titles[i])

         ty.append(m2[0])

 print("读取结束")

 data={'日期':days,'作者':authors,'来源':sources,'标题':titles_new,'链接':urls_new,'评论数量':comments,'新闻类型':ty}

 df = pd.DataFrame(data, columns=['日期', '作者', '来源','标题','链接','评论数量','新闻类型'])

 # print(df)

 df.to_excel(r'ShuJuPa.xlsx',sheet_name='数据爬取结果',encoding='gb2312')

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。的更多相关文章

Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
Python 爬取热词并进行分类数据分析-[数据修复]
日期:2020.02.01 博客期:140 星期六 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...

随机推荐

清北学堂—2020.1提高储备营—Day 1 morning（模拟、枚举、搜索）
qbxt Day 1 morning --2020.1.17 济南主讲:李佳实目录一览 1.模拟和枚举 2.基础搜索算法(DFS.BFS.记忆化搜索)以及进阶搜索算法(纯靠自学) 总知识点:基础算 ...
Python 【图片转字符画】
一.安装的第三方模块 $ sudo pip3 install --upgrade pip $ sudo pip3 install pillow //window pip3 install pillow ...
HQL查询 HQL Named parameter [xxx] not set 的解决办法
org.springframework.dao.InvalidDataAccessResourceUsageException: Named parameter [xxx] not set; nest ...
JN_0015：ping IP 地址
1,打开命令窗口 2,ping www.baidu.com
DOM节点的属性和方法
DOM DOM 是 JavaScript 操作网页的接口,全称为“文档对象模型”(Document Object Model).它的作用是将网页转为一个 JavaScript 对象,从而可以用脚本进行 ...
js微信禁用右上角的分享按钮，和vue中微信页面禁用右上角的分享按钮的问题
1.隐藏微信网页右上角的按钮 document.addEventListener('WeixinJSBridgeReady', function onBridgeReady() { // 通过下面这个 ...
ubuntu16.04更换成国内源
一.首先使用自带的vi编辑器安装完ubuntu后没有默认的root密码,如果要设置root密码需要进行如下步骤: 1 sudo passwd 2 连续输入两次新密码二.vi编辑器下使用[backs ...
【巨杉数据库SequoiaDB】SequoiaDB 巨杉数据库 v3.4 版本正式发布
深秋时节,SequoiaDB 巨杉数据库在深秋给大家带来了“一把火”.SequoiaDB v3.4 正式发布啦! 分布式交易场景性能大幅提升 SequoiaDB 巨杉数据库3.4版本正式发布,v3.4 ...
《深入理解java虚拟机》读书笔记七——第八章
第八章虚拟机字节码执行引擎 1.运行时栈帧结构概述: 栈帧是用于支持虚拟机进行方法调用的和方法执行的数据结构,他是虚拟机运行时数据区中的虚拟机栈的栈元素,栈帧存储了方法的局部变量,操作数栈,动态连 ...
Vue中封装axios
参考: https://www.jianshu.com/p/7a9fbcbb1114 https://www.cnblogs.com/dreamcc/p/10752604.html 一.安装axios ...

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。的更多相关文章

随机推荐

热门专题