Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。

 # coding=utf-8

 import numpy as np

 import pandas as pd

 import sys

 from selenium import webdriver

 import time

 import requests

 import re

 from openpyxl.workbook import Workbook

 import matplotlib.pyplot as plt

 import matplotlib

 urls = []

 urls_new = []

 titles = []

 titles_new = []

 days = []

 comments = []

 authors = []

 sources = []

 comment = []

 ty = []

 def save_to_file(file_name, contents):

     fh = open(file_name, 'w')

     fh.write(contents)

     fh.close()

 url="https://www.ithome.com/"

 # headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'

 #                          '(KHTML,like Gecko) Chrome/50.0.2661.102 Safari/537.36 QIHU 360EE'}

 headers={'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"}

 rep = requests.get(url,headers=headers)

 rep.encoding="utf-8"

 strw=rep.text

 save_to_file('ithome.html', strw)

 p = re.compile(r'<div class="lst lst-1 new-list">(.*?)</div>\s*?</div>')

 m = p.findall(strw)

 print(len(m[0]))

 p = re.compile(r'<div class=\"block \d{4} new-list-\d{1}\"(?: style=\".*?\")?><ul>(.*?)</ul></div>')

 m2 = p.findall(m[0])

 print(len(m2))

 broswer = webdriver.Chrome('D:\谷歌\Google\Chrome\Application\chromedriver.exe')

 for i in m2:

     m2 = re.findall(r'</span><span class=\"title\">.*?href=\"(.*?)\">(?:<.*?>)?(.*?)(?:</font>)?</a></span></li>', i)

     for j in m2:

         urls.append(j[0])

         titles.append(j[1])

 print(len(urls))

 for i in range(len(urls)):

     print(u'读取中' + urls[i])

     broswer.get(urls[i])

     time.sleep(1)

     strw2 = broswer.page_source

     # print(strw2)

     p2 = re.compile(r'https://\w+?.ithome.com/(?:html/)?(.*?)/.*?')

     m2 = p2.findall(urls[i])

     print(m2)

     p = re.compile(u'<span id="pubtime_baidu">(\d*-\d*-\d*).*?</span><span id="source_baidu">'

                    u'来源：<a href=".*?" .*?>(.*?)</a></span><span id="author_baidu">'

                    u'作者：(?:<strong>)?(.*?)(?:</strong>)?</span>.*?<span id="commentcount">(.*?)</span>')

     m = p.findall(strw2)

     print(m)

     if len(m) > 0:

         days.append(m[0][0])

         sources.append(m[0][1])

         authors.append(m[0][2])

         urls_new.append(urls[i])

         comments.append(m[0][3])

         titles_new.append(titles[i])

         ty.append(m2[0])

 print("读取结束")

 data={'日期':days,'作者':authors,'来源':sources,'标题':titles_new,'链接':urls_new,'评论数量':comments,'新闻类型':ty}

 df = pd.DataFrame(data, columns=['日期', '作者', '来源','标题','链接','评论数量','新闻类型'])

 # print(df)

 df.to_excel(r'ShuJuPa.xlsx',sheet_name='数据爬取结果',encoding='gb2312')

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。的更多相关文章

Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
Python 爬取热词并进行分类数据分析-[数据修复]
日期:2020.02.01 博客期:140 星期六 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...

随机推荐

MySQL优化(四)——读写分离
1.MySQL高可用主从复制一主多备多主多备读写分离减少IO开销,防止阻塞等等 2.主从复制参考 https://www.cnblo ...
atcoder Keyence Programming Contest 2020 题解
比赛地址 A 题意:给一个\(n*m\)的初始为白色的矩阵,一次操作可以将一行或一列染成黑色,问至少染出\(k\)个黑点的最少操作次数. \(n\),\(m\)<=100,\(k\)<= ...
P3768 简单的数学题 [杜教筛，莫比乌斯反演]
\[\sum_{i=1}^{n}\sum_{j=1}^{n} ij\gcd(i,j)\] \[=\sum_{d=1}^{n} d \sum_{i=1}^{n}\sum_{j=1}^{n} ij[\gc ...
pillow 模块
pillow模块图片处理中文文档安装 pip install Pillow 对图片旋转90度显示 from PIL import Image im=Image.open("t.jpg& ...
Java第五节课总结
继承是对现实生活中的“分类”概念的一种模拟. 通过surper调用的基类构造方法,必须是子类构造方法中的第一个语句. 构造函数(constructor)是一种特殊的方法 .主要用来在创建对象时初始化对 ...
Java（四）输出和输入函数
介绍一下Java里简单常用的输入输出方法. Java的输出函数很简单,直接调用System类的out对象的print函数即可. 代码: System.out.print(a);//输出变量a的值 Sy ...
openlayers轨迹匀速播放
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
在Windows启动pyspark shell：Failed to find Spark jars directory. You need to build Spark before running this program
D:\Develop tools\spark-2.2.0-bin-hadoop2.7\bin>pyspark2.cmd 'tools\spark-2.2.0-bin-hadoop2.7\bin\ ...
前端页面中：jsp和HTML的区别之处
JSP和HTML的区别 HTML页面是静态页面,也就是事先由用户写好放在服务器上,固定内容,不会变,由web服务器向客户端发送,平时上网看的网页都是大部分都是基于html语言的. JSP页面是有JSP ...
linux 搭建python虚拟环境
requirements.txt 包含paramiko,pysfp.setuptools,适用python版本3.6.6+ 前提编译安装python wget wget https://www.pyt ...

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。的更多相关文章

随机推荐

热门专题