前端js 爬取获取网页

孟繁贵 2024-10-23 16:19:26 原文

1、存在问题

same origin policy（同源策略）

页面中的Javascript只能读取，访问同域的网页。这里需要注意的是，Javascript自身的域定义和它所在的网站没有任何关系，只和该Javascript代码所嵌入的文档的域有关。如以下示例代码：

<!DOCTYPE HTML>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <title>This is a webpage came from http://localhost:8000</title>

  <script src="//ajax.googleapis.com/ajax/libs/jquery/1.8.3/jquery.min.js"></script>

</head>

<body>

  <div id="test">123</div>

  <script type="text/javascript">

    console.log($('#test').text());

  </script>

</body>

</html>

该HTML文档来源于http://localhost:8000，这意味着它的域为http://localhost:8000(域和端口也相关)，虽然页面中的jquery加载自ajax.googleapis.com，然而该JQuery的域只和它所处的HTML文档的域有关，从而可以访问该HTML文档的属性，因而以上代码可以正常运行。
附：使用上述代码的原因是，开发者将通用的Javascript库(如JQuery)地址指向公共相同的URL。当用户加载过一次该JS后，以后的加载将都通过浏览器缓存，从而加快了页面加载速度。

从这个角度看问题，假如提问者所知的远端指的是互联网上任意的页面，那么不能实现你所期望的功能；如果远端指的是提问者你所拥有控制权的网站，请看下面的Relaxing the same-origin policy；

Relaxing the same-origin policy

Document.domain：用于子域名的情况。对于多个windows(一个页面有多个iframe)，通过设置document.domain的值为相同的域，使得Javascript可以访问异域window；
Cross-origin resource sharing：通过在服务器端返回头增加Access-Control-

Allow-Origin，该头部包含了所有允许访问的域的列表。支持的浏览器将允许本页面Javascript访问这些域；

cross-document messaging：该方式和域无关，不同文档的Javascript可以相互发送接受消息而不受限制，然而不能主动趣读取，调用另一个文档的方法属性；

如果提问者拥有远端页面的控制权，可以尝试第二种方法。

服务器端抓取

根据提问者的需求，比较可行的方案应该是在服务器端进行处理。借助(http://phantomjs.org/)，你可以使用Javascript语法在服务器端进行DOM操作，同时你可以使用nodejs进行进一步的分析等，当然，你也可以使用Python, php ,Java语言进行后续操作。

结论：

（1）服务端将网页的跨域限制打开；

（2）使用服务度端请求页面

前端js 爬取获取网页的更多相关文章

Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...
node.js爬取数据并定时发送HTML邮件
node.js是前端程序员不可不学的一个框架,我们可以通过它来爬取数据.发送邮件.存取数据等等.下面我们通过koa2框架简单的只有一个小爬虫并使用定时任务来发送小邮件! 首先我们先来看一下效果图差不 ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
python使用requests库爬取网页的小实例：爬取京东网页
爬取京东网页的全代码: #爬取京东页面的全代码 import requests url="https://item.jd.com/2967929.html" try: r=requ ...
爬取指定网页的源代码显示在GUI中
建立一个GUI图形界面用来用来输入网址和代码显示的区域 #encoding=utf-8 __author__ = 'heng' #创建一个可以抓取输入网址源代码的GUI from urllib2 im ...
R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...

随机推荐

redis设置远程连接
1.修改redis服务器的配置文件本机安装的redis-4.0.14默认的配置文件 redis.conf 设置绑定本机地址:bind 127.0.0.1 开启保护模式:protected-mode ...
[LeetCode] 647. 回文子串 ☆☆☆(最长子串、动态规划、中心扩展算法)
描述给定一个字符串,你的任务是计算这个字符串中有多少个回文子串. 具有不同开始位置或结束位置的子串,即使是由相同的字符组成,也会被计为是不同的子串. 示例 1: 输入: "abc" ...
Flink Runtime核心机制剖析（转）
本文主要介绍 Flink Runtime 的作业执行的核心机制.本文将首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程,然后介绍在这个过程,Flink 是怎么进行资源管理. ...
使用 chroot 建立沙盒环境
使用 chroot 建立沙盒环境 chroot 提供了更改当前进程及其子进程的可见根目录的操作,运行在此隔离环境中的应用程序无法访问新的目录树之外的文件和命令.这样的隔离环境称作 chroot 监狱( ...
C语言中指针是什么？
学习交流可加微信读者交流①群 (添加微信:coderAllen) 程序员技术QQ交流①群:736386324 --- ==恶名昭著的指针究竟是什么== " 指针是一种保存变量地址的变量,在 ...
Pthon魔术方法（Magic Methods）-实例化
Pthon魔术方法(Magic Methods)-实例化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.实例化一个对象 __new__: 该方法需要返回一个值,如果该值不是cl ...
用Python添加写入数据到已经存在的Excel的xlsx文件
# coding:utf-8 from openpyxl import load_workbook import openpyxl # 写入已存在的xlsx文件第一种方法 # class Write_ ...
界面交互~Toast和模态对话框
界面交互名称功能说明 wx.showToast 显示消息提示框 wx.showModal 显示模态对话框 wx.showLoading 显示 loading 提示框 wx.showActionSh ...
background-image:url为空引发的两次请求问题
参考文章: https://blog.csdn.net/jsjhushilei/article/details/51101014 1.Nicholas 在 2009 年就开始推动各浏览器厂商,现在看起 ...
python的zip()函数
zip() 函数用于将可迭代对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的对象. 如果各个可迭代对象的元素个数不一致,则返回的对象长度与最短的可迭代对象相同. 利用 * 号 ...