C语言之socket获取网页源码

　　写爬虫也许你用的是python，类似urlopen(url).read()即可获得普通的网页的源码，或者用的java的网络库加上流操作，或者其他高级语言。但你有没有想过使用C语言来实现呢？我曾经以为用c来实现获取网页源码是很复杂的，要自己按照http等协议来构造包，再解析接受到的包，还要考虑三次握手。现在想来当时的想法真可怕啊！一个人最崇敬科技，最害怕科学的时候是期是何时呢？是当他懂了一些东西，但还有一大堆东西不懂的时候。也许脑筋转一个弯，他学的就快了。好了，下面进入正题：

　　通过socket与远程连接需要ip和端口号，通常我们写的socket程序都是一个server，一个client，两个配对，单一可以只写一方的程序来达到我们的目的：如端口扫描。我们把web服务器当成socket服务端（实际也的确如此，网络通信不都是socket的天下吗），端口设为80（开放网站大多都是这个啊）。步骤有三：

创建socket，建立connect
向对方发送请求
读取响应内容

int open_socket(char* host,char *port){

    struct addrinfo *res;//<netdb.h>

    struct addrinfo hints;

    memset(&hints,,sizeof(hints));

    hints.ai_family=PF_UNSPEC;// AF | PF

    hits.ai_socktype=SOCK_STREAM;

    if(getaddrinfo(host,port,&hints,&res)==-)//会在堆上创建一种叫名字资源的新数据结构

         perror("error");

    int d_sock=socket(res->ai_family,res->ai_socktype,res->ai_protocal);

    if(d_sock==-) perror...

    int c=connect(d_sock,res->ai_addr,res->ai_addrlen);

    freeaddrinfo(res);//释放堆空间

    if(c==-) ...

    return d_sock;

}

下面是一个发送信息的辅助函数

int say(int sock,char *s){

    int ret=send(sock,s,strlen(s),);

    if(ret==-) perror...

    return ret;

}

上面的perror函数是系统的，可以换成你自定义的，或者用strerror()加上<errno.h>中的errno

发送信息至少包含三部分：

　　GET请求，主机名，空行（\r\n)

下面是main函数：

int main(int a,char *b){

　　int sock;

　　soc=open_sock("www.sougou.com","");

　　char rec[];

　　say(sock,"GET /wiki/ http/1.1\r\n");

　　int bytesRcvd=recv(sock,rec,,);

　　while(bytesRcvd){

　　　　if(bytesRcvd==-) ...

　　　　rec[bytesRcvd]='\0';

　　　　printf("%s",rec);

　　　　bytesRcvd=recv(sock,rec,,);

　　}

　　close(sock);

　　return ;

｝

C语言之socket获取网页源码的更多相关文章

Python爬虫学习之获取网页源码
偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣. 关于网络爬虫的定义 ...
QT：轻松获取网页源码
获取网页源码的小例子,代码很简单,就不多作解释了. 不过一定要注意网页的编码问题,否则会出现乱码的!!! #include <QtCore> #include <QtNetwork& ...
vc++获取网页源码
1. 获取网页源码的步骤: com组件的初始化创建WinHttpRequest对象创建并实例化WinHttpRequest组件调用Open方法打开连接调用Send方法发送请求使用Respon ...
vc++获取网页源码之使用import+接口方式
1.使用IWinHttpRequest获取网页源码首先要创建基于对话框的mfc应用程序 2.import+接口方式首先导入winhttp.dll,使用IWinHttpRequest接口 #impo ...
高效获取网页源码COM
目前获取网页源码有几种方法: 1.WebClient下载页面2.HttpWebRequest发请求获取3.com组件xmlhttp获取三者比较:WebClient代码最少,效率最慢:xmlhttp代 ...
Python3 Selenium WebDriver网页的前进、后退、刷新、最大化、获取窗口位置、设置窗口大小、获取页面title、获取网页源码、获取Url等基本操作
Python3 Selenium WebDriver网页的前进.后退.刷新.最大化.获取窗口位置.设置窗口大小.获取页面title.获取网页源码.获取Url等基本操作通过selenium webdr ...
Python3.x获取网页源码
Python3.x获取网页源码 1,获取网页的头部信息以确定网页的编码方式: import urllib.request res = urllib.request.urlopen('http://ww ...
c# HttpClient获取网页源码
#region 获取网页源码 public static string HttpClientGetHtmls(string url) { try { var client = new HttpClie ...
Selenium WebDriver-网页的前进、后退、刷新、最大化、获取窗口位置、设置窗口大小、获取页面title、获取网页源码、获取Url等基本操作
通过selenium webdriver操作网页前进.后退.刷新.最大化.获取窗口位置.设置窗口大小.获取页面title.获取网页源码.获取Url等基本操作 from selenium import ...

随机推荐

协程python
python中协程在引出协成概念之前先说说python的进程和线程. 进程: 进程是正在执行程序实例.执行程序的过程中,内核会讲程序代码载入虚拟内存,为程序变量分配空间,建立 bookkeeping ...
[py]shell着色
print "\033[32;1myou are 30 older and little than 40\033[0m"
C#——Marshal.StructureToPtr方法简介
目录 MarshalStructureToPtr方法简介功能及位置语法参数说明异常备注举例本博客(http://blog.csdn.net/livelylittlefish)贴出作者(三 ...
iOS视频录制、压缩导出、取帧等http://www.jianshu.com/p/6f23f608048e
原文网址请参考:http://www.jianshu.com/p/6f23f608048e
jQuery api 快速参考[转]
选择符匹配 * 所有元素 #id 带有给定ID的元素 element 给定类型的所有元素,比如说html标签 .class 带有给定类的所有元素 a,b 匹配a或者匹配b的元素 a b 作为a后代的 ...
与TCP/IP协议的初次见面（一）
引言最近LZ有了一点时间,于是便拿出TCP/IP的书本开始啃.开始的时候,啃起来枯燥无味,现在好不容易有点开窍,于是赶忙记录一下,生怕自己一转眼就给忘了.不过计算机系统原理就有点可惜了,最近一直没时 ...
Log4net使用(二)
日志记录到根目录Log文件夹,文件夹中分LogError与LogInfo文件夹 web.config配置: <configSections> <section name=" ...
[BZOJ3875][AHOI2014]骑士游戏（松弛操作）
题目:http://www.lydsy.com:808/JudgeOnline/problem.php?id=3875 分析: 类似于spfa求最短路,设d[i]表示完全消灭i号怪物的最小花费,我们对 ...
javascript数组去重的4个方法
Array.prototype.unique1 = function(){//有局限性,1,“1”的情况会被去重,因为存入临时对象时,数组中的值被统一转换成了字符串 var obj = {},newA ...
安装win10
1.百度win10,看到的大都是雨林木风,ghost等江湖杂牌非原版系统.百度”msdn,我告诉你“进入微软MSDN下载中心(原来还有这么个好地方,以后就从这里下了),下载链接是ed2k格式的链接(e ...

C语言之socket获取网页源码

C语言之socket获取网页源码的更多相关文章

随机推荐

热门专题