C# 爬取猫眼电影数据
最近做了一个新项目,因为项目需要大量电影数据,猫眼电影又恰好有足够的数据,就上猫眼爬数据了。
1、先分析一下网页地址,发现电影都是被排好序号了,这就很简单了。
2、在分析页面,这次主要爬取黄色框中的内容。在浏览器中按F12检查元素,只要把Div获取出来就算完成了。

下面贴代码:

主函数
static void Main(string[] args)
{
int errorCount = ;//计算爬取失败的次数
int count = ;//结束范围
for (int i = ; i <= count; i++)
{
Thread.Sleep();//每隔两秒爬取一次,不要给服务器压力
try
{
HtmlWeb web = new HtmlWeb();
//https://maoyan.com/films/1
web.OverrideEncoding = Encoding.UTF8;
HtmlDocument doc = web.Load($"https://maoyan.com/films/{i}");//把url中的1替换为i HtmlDocument htmlDoc = new HtmlDocument();
string url = $"https://maoyan.com/films/{i}"; //获取电影名
HtmlNode MovieTitle = doc.DocumentNode.SelectSingleNode("//div[@class='movie-brief-container']/h1[@class='name']");//分析页面结构后得到的div
if (MovieTitle == null)//如果是null,那么表明进入验证页面了,执行第二种方法
{
string urlResponse = URLRequest(url);
htmlDoc.LoadHtml(urlResponse);
MovieTitle = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='movie-brief-container']/h1[@class='name']");
if (MovieTitle == null)//如果是null,那么表明进入验证页面了。(第二种方法也失效)
{
//此处需要进入浏览器手动完成验证 或者 自行分析验证页面实现自动验证
}
}
string title = MovieTitle.InnerText;
//Console.WriteLine(MovieTitle.InnerText); //获取电影海报
HtmlNode MovieImgSrc = doc.DocumentNode.SelectSingleNode("//div[@class='celeInfo-left']/div[@class='avatar-shadow']/img[@class='avatar']");
if (MovieImgSrc == null)
{ MovieImgSrc = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='celeInfo-left']/div[@class='avatar-shadow']/img[@class='avatar']");
}
//Console.WriteLine(MovieImgSrc.GetAttributeValue("src", ""));
string imgurl = MovieImgSrc.GetAttributeValue("src", ""); //电影类型
HtmlNodeCollection MovieTypes = doc.DocumentNode.SelectNodes("//div[@class='movie-brief-container']/ul/li[@class='ellipsis']");
if (MovieTypes == null)
{
MovieTypes = htmlDoc.DocumentNode.SelectNodes("//div[@class='movie-brief-container']/ul/li[@class='ellipsis']");
}
string types = "", artime = "", releasetime = ""; foreach (var item in MovieTypes[].ChildNodes)
{
if (item.InnerText.Trim() != "")
{
//Console.WriteLine(item.InnerText.Trim());
types += item.InnerText.Trim() + "-";
}
}
artime = MovieTypes[].InnerText;
releasetime = MovieTypes[].InnerText;
//Console.WriteLine(MovieTypes[i].InnerText); //剧情简介
string intro = "";
HtmlNode introduction = doc.DocumentNode.SelectSingleNode("//div[@class='mod-content']/span[@class='dra']");
if (introduction == null)
{
introduction = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='mod-content']/span[@class='dra']");
}
//Console.WriteLine(introduction.InnerText);
intro = introduction.InnerText;
//Console.WriteLine(i); using (FileStream fs = new FileStream(@"d:\Sql.txt", FileMode.Append, FileAccess.Write))
{
fs.Lock(, fs.Length);
StreamWriter sw = new StreamWriter(fs);
sw.WriteLine($"INSERT INTO Movies VALUES('{title}','{imgurl}','{types}','{artime}','{releasetime}','{intro.Trim()}');");
fs.Unlock(, fs.Length);//一定要用在Flush()方法以前,否则抛出异常。
sw.Flush();
} }
catch (Exception ex)
{
errorCount++;
Console.WriteLine(ex);
}
}
Console.WriteLine($"结束 成功:{count - errorCount}条,失败:{errorCount}条");
Console.ReadLine(); }
URLRequest方法
static string URLRequest(string url)
{
// 准备请求
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); // 设置GET方法
request.Method = "GET";
request.Timeout = ; //60 second timeout
request.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"; string responseContent = null; // 获取 Response
using (WebResponse response = request.GetResponse())
{
using (Stream stream = response.GetResponseStream())
{
// 读取流
using (StreamReader streamreader = new StreamReader(stream))
{
responseContent = streamreader.ReadToEnd();
}
}
} return (responseContent);
}
先进入for循环,到时候把url中的 1 替换为 i ,就可以实现自动爬取所有电影了。
解析html代码我用的是第三方类库 HtmlAgilityPack,大家可以在Nuget中搜索到。
我将爬取的数据转换为Sql语句了,存在D盘根目录下 Sql.txt。
下面是结果


一共爬了200条数据
大家注意一下,程序报错 如果是空异常,那么表明没有获取到相应的div,没有获取到相应的div就表明猫眼让你跳转到验证中心页面了,你要进入到浏览器验证一下,或者更换IP访问。
最后再提醒一下大家,要慢慢的获取数据,不然会403。
C# 爬取猫眼电影数据的更多相关文章
- python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取 猫眼电影TOP100榜单 数据 ...
- 爬虫系列(1)-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
- Python 爬取猫眼电影最受期待榜
主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...
- 一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
- 14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
- 50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
- 40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块 二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
- PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100(实战项目一)
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析 流程框架 爬虫实战 使用requests库获取top100首页: import requests def get_one_pag ...
- Python使用asyncio+aiohttp异步爬取猫眼电影专业版
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档 并发访问能极大的提高爬虫的性能,但是requests访 ...
随机推荐
- [原创][开源]SunnyUI.Net, C# .Net WinForm开源控件库、工具类库、扩展类库、多页面开发框架
SunnyUI.Net, 基于 C# .Net WinForm 开源控件库.工具类库.扩展类库.多页面开发框架 Blog: https://www.cnblogs.com/yhuse Gitee: h ...
- 大话计算机网络一 聊聊UDP
引言 UDP是一个简单的面向数据报的运输层协议 UDP不提供可靠性,它把应用程序传给IP层得数据发送出去,不保证它们能达到目的地 UDP首部 端口号表示发送进程和接受进程. UDP长度字段指的是UDP ...
- watch监听事件
Vue.js 监听属性 watch,可以通过 watch 来响应数据的变化.以下实例通过使用 watch 实现计数器: <div id="app"> ...
- [LOJ6569] 仙人掌计数
Statement 带标号仙人掌计数问题. \(n< 131072\). Solution 设\(x\)个点的仙人掌个数的生成函数为\(C(x)\) 对于与根相邻的块, 还是仙人掌, 生成函数为 ...
- 从字符串到常量池,一文看懂String类设计
从一道面试题开始 看到这个标题,你肯定以为我又要讲这道面试题了 // 这行代码创建了几个对象? String s3 = new String("1"); 是的,没错,我确实要从这里 ...
- SQL常用取整函数
1.Round(column_name,decimals):用于把数值字段舍入为指定的小数位数 2.Floor(column_name): 向下取整,主要用于获得小于等于数值表达式的最大整数. 3.C ...
- Docker数据管理与挂载管理
介绍如何在 Docker 内部以及容器之间管理数据:在容器中管理数据主要有两种方式:数据卷(Volumes).挂载主机目录 (Bind mounts) 镜像来源 [root@docker01 ~]# ...
- snprintf和sprintf区别分析
目录[-] snprintf函数的返回值 snprintf函数的字符串缓冲 今天在项目中使用snprintf时遇到一个比较迷惑的问题,追根溯源了一下,在此对sprintf和snprintf进行一下对比 ...
- 这样让你的 IDEA 好用到飞起来!
IDEA提高效率的配置项,每个开发者必须掌握的技能!下面这 32 条完美设置成功后,开发效率显著提升. 1.设置maven 1.在File->settings->搜索maven 2.Mav ...
- 完美解决asp.net core 3.1 两个AuthenticationScheme(cookie,jwt)共存在一个项目中
内容 在我的项目中有mvc controller(view 和 razor Page)同时也有webapi,那么就需要网站同时支持2种认证方式,web页面的需要传统的cookie认证,webapi则需 ...