C# 爬取猫眼电影数据

最近做了一个新项目，因为项目需要大量电影数据，猫眼电影又恰好有足够的数据，就上猫眼爬数据了。

1、先分析一下网页地址，发现电影都是被排好序号了，这就很简单了。

2、在分析页面，这次主要爬取黄色框中的内容。在浏览器中按F12检查元素，只要把Div获取出来就算完成了。

下面贴代码：

主函数

 static void Main(string[] args)

         {

             int errorCount = ;//计算爬取失败的次数

             int count = ;//结束范围

             for (int i = ; i <= count; i++)

             {

                 Thread.Sleep();//每隔两秒爬取一次，不要给服务器压力

                 try

                 {

                     HtmlWeb web = new HtmlWeb();

                     //https://maoyan.com/films/1

                     web.OverrideEncoding = Encoding.UTF8;

                     HtmlDocument doc = web.Load($"https://maoyan.com/films/{i}");//把url中的1替换为i

                     HtmlDocument htmlDoc = new HtmlDocument();

                     string url = $"https://maoyan.com/films/{i}";

                     //获取电影名

                     HtmlNode MovieTitle = doc.DocumentNode.SelectSingleNode("//div[@class='movie-brief-container']/h1[@class='name']");//分析页面结构后得到的div

                     if (MovieTitle == null)//如果是null，那么表明进入验证页面了，执行第二种方法

                     {

                         string urlResponse = URLRequest(url);

                         htmlDoc.LoadHtml(urlResponse);

                         MovieTitle = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='movie-brief-container']/h1[@class='name']");

                         if (MovieTitle == null)//如果是null，那么表明进入验证页面了。（第二种方法也失效）

                         {

 　　　　　　　　　　　　　　　　　　//此处需要进入浏览器手动完成验证 或者 自行分析验证页面实现自动验证

                         }

                     }

                     string title = MovieTitle.InnerText;

                     //Console.WriteLine(MovieTitle.InnerText);

                     //获取电影海报

                     HtmlNode MovieImgSrc = doc.DocumentNode.SelectSingleNode("//div[@class='celeInfo-left']/div[@class='avatar-shadow']/img[@class='avatar']");

                     if (MovieImgSrc == null)

                     {

                         MovieImgSrc = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='celeInfo-left']/div[@class='avatar-shadow']/img[@class='avatar']");

                     }

                     //Console.WriteLine(MovieImgSrc.GetAttributeValue("src", ""));

                     string imgurl = MovieImgSrc.GetAttributeValue("src", "");

                     //电影类型

                     HtmlNodeCollection MovieTypes = doc.DocumentNode.SelectNodes("//div[@class='movie-brief-container']/ul/li[@class='ellipsis']");

                     if (MovieTypes == null)

                     {

                         MovieTypes = htmlDoc.DocumentNode.SelectNodes("//div[@class='movie-brief-container']/ul/li[@class='ellipsis']");

                     }

                     string types = "", artime = "", releasetime = "";

                     foreach (var item in MovieTypes[].ChildNodes)

                     {

                         if (item.InnerText.Trim() != "")

                         {

                             //Console.WriteLine(item.InnerText.Trim());

                             types += item.InnerText.Trim() + "-";

                         }

                     }

                     artime = MovieTypes[].InnerText;

                     releasetime = MovieTypes[].InnerText;

                     //Console.WriteLine(MovieTypes[i].InnerText);

                     //剧情简介

                     string intro = "";

                     HtmlNode introduction = doc.DocumentNode.SelectSingleNode("//div[@class='mod-content']/span[@class='dra']");

                     if (introduction == null)

                     {

                         introduction = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='mod-content']/span[@class='dra']");

                     }

                     //Console.WriteLine(introduction.InnerText);

                     intro = introduction.InnerText;

                     //Console.WriteLine(i);

                     using (FileStream fs = new FileStream(@"d:\Sql.txt", FileMode.Append, FileAccess.Write))

                     {

                         fs.Lock(, fs.Length);

                         StreamWriter sw = new StreamWriter(fs);

                         sw.WriteLine($"INSERT INTO Movies VALUES('{title}','{imgurl}','{types}','{artime}','{releasetime}','{intro.Trim()}');");

                         fs.Unlock(, fs.Length);//一定要用在Flush()方法以前，否则抛出异常。

                         sw.Flush();

                     }

                 }

                 catch (Exception ex)

                 {

                     errorCount++;

                     Console.WriteLine(ex);

                 }

             }

             Console.WriteLine($"结束 成功:{count - errorCount}条,失败：{errorCount}条");

             Console.ReadLine();

         }

URLRequest方法

 static string URLRequest(string url)

         {

             // 准备请求

             HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

             // 设置GET方法

             request.Method = "GET";

             request.Timeout = ; //60 second timeout

             request.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36";

             string responseContent = null;

             // 获取 Response

             using (WebResponse response = request.GetResponse())

             {

                 using (Stream stream = response.GetResponseStream())

                 {

                     // 读取流

                     using (StreamReader streamreader = new StreamReader(stream))

                     {

                         responseContent = streamreader.ReadToEnd();

                     }

                 }

             }

             return (responseContent);

         }

先进入for循环，到时候把url中的 1 替换为 i ，就可以实现自动爬取所有电影了。

解析html代码我用的是第三方类库 HtmlAgilityPack，大家可以在Nuget中搜索到。

我将爬取的数据转换为Sql语句了，存在D盘根目录下 Sql.txt。

下面是结果

一共爬了200条数据

大家注意一下，程序报错如果是空异常，那么表明没有获取到相应的div，没有获取到相应的div就表明猫眼让你跳转到验证中心页面了，你要进入到浏览器验证一下，或者更换IP访问。

最后再提醒一下大家，要慢慢的获取数据，不然会403。

C# 爬取猫眼电影数据的更多相关文章

python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
Python 爬取猫眼电影最受期待榜
主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Python使用asyncio+aiohttp异步爬取猫眼电影专业版
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档并发访问能极大的提高爬虫的性能,但是requests访 ...

随机推荐

Django如何上传图片并对上传图片进行访问
通过一个示例的完整演示过程,来学习django如何上传图片,以及对于media文件夹中的上传图片进行请求: 1.配置settings.py MEDIA_URL = '/media/' MEDIA_RO ...
HDU - 3591 The trouble of Xiaoqian 题解
题目大意有 \(N\) 种不同面值的硬币,分别给出每种硬币的面值 \(v_i\) 和数量 \(c_i\).同时,售货员每种硬币数量都是无限的,用来找零. 要买价格为 \(T\) 的商品,求在交易中最 ...
给女朋友讲解什么是Git
前言在周六发现了Linus去Google演讲的一个视频,当时还发了一条朋友圈: 有兴趣的同学也可以去看看,一点儿也不无聊,在线看Linus大佬怼人 https://www.bilibili.com/ ...
DML_The OUTPUT Clause
DML_The OUTPUT Clause /**/ ------------------------------------------------------------------------- ...
（十三）exec-maven-plugin配置及使用
原文链接:https://www.cnblogs.com/lianshan/p/7358966.html 背景: 如果你想在项maven生命周期内,运行一段java代码,或者一段独立的程序,或者说我们 ...
http的几种请求方法
1.HTTP请求方法有以下8种方法:OPTIONS.GET.HEAD.POST.PUT.DELETE.TRACE和CONNECT. GET GET请求会显示请求指定的资源.一般来说GET方法应该只用于 ...
arduino连接12864LCD方法
arduino连接12864LCD方法,参考相关代码. https://blog.csdn.net/txwtech/article/details/95038386
TopK问题，数组中第K大(小)个元素问题总结
问题描述: 在未排序的数组中找到第 k 个最大的元素.请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素. 面试中常考的问题之一,同时这道题由于解法众多,也是考察时间复杂 ...
升级OPENSSH踩过的坑
安装三个必要依赖包yum install gcc zlib-devel openssl-devel上传安装包,创建一个/tmp目录下,然后解压,将/etc/ssh/目录移动到本地解压安装包,进入安装目 ...
MongoDB设计方法及技巧
MongoDB是一种流行的数据库,可以在不受任何表格schema模式的约束下工作.数据以类似JSON的格式存储,并且可以包含不同类型的数据结构.例如,在同一集合collection 中,我们可以拥有以 ...

C# 爬取猫眼电影数据

C# 爬取猫眼电影数据的更多相关文章

随机推荐

热门专题