谈谈php常用开源库之curl | php中模拟GET/POST请求实例 网页抓取上传下载 图片抓取


常用PHP做网页抓取、模拟请求业务的朋友应该都知道Curl这个神器。

Curl是一个十分强大的开源库,支持http、https、telnet、ftp等等多种网络协议,在PHP中我们通过curl的一系列函数,可以很方便的对会话请求进行处理。

虽然常用,但是每回用还是要百度几遍才能正常使用...今天在这里做个关于curl的总结,便于以后的使用,同时也将总结内容分享给大家。

使用CURL发送会话请求的基本流程

CURL属于典型的“活好不粘人”的工具,虽然功能强大,但是使用方式十分简单、成熟。

使用CURL发送会话请求一般有以下几个步骤:

  1. 初始化连接句柄

  2. 配置CURL选项

  3. 执行请求并返回结果

  4. 释放连接句柄


精简一下就是:建立连接 -> 制定规则 -> 请求数据 -> 解除连接

简单、干脆,绝不拖泥带水!

使用CURL模拟GET方式进行数据请求

对于get方式进行数据请求的业务类型,方式有很多。

对于简单的调用链接,返回数据,其实可以理解为读取一个html文件。

使用file_get_contents()、fopen()等函数可以轻松解决。

但是对于请求时需要控制COOKIE、header信息等内容的get请求,就需要祭出curl来解决了!

function curl_get_https($url){
    $curl = curl_init(); // 建立连接句柄,启动一个CURL会话
    curl_setopt($curl, CURLOPT_URL, $url);
    curl_setopt($curl, CURLOPT_HEADER, 0);
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false); // 跳过证书检查
    curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, true);  // 从证书中检查SSL加密算法是否存在
    $tmpInfo = curl_exec($curl);     // 执行请求并返回结果
    
    curl_close($curl);   // 释放连接句柄,关闭URL请求
    return $tmpInfo;    // return返回结果
}

使用CURL模拟POST方式进行数据请求

常见的,获取较多数据的接口,一般使用post作为请求参数传输方式

/* PHP CURL HTTPS POST */
function curl_post_https($url,$data){ 
    // 模拟提交数据函数
    $curl = curl_init(); // 建立连接句柄,启动一个CURL会话
    curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址
    curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查
    curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在
    curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器
    curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转
    curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer
    curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求
    curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包
    curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环
    curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回
    $tmpInfo = curl_exec($curl); // 执行操作
    if (curl_errno($curl)) {
        echo 'Errno'.curl_error($curl);//捕抓异常
    }
    curl_close($curl); // 释放连接句柄,关闭CURL会话
    return $tmpInfo; // return返回结果
}

使用PHP开源库curl的curl_setopt方法,配合各种配置参数,可以很方便的模拟各类请求。

使用CURL处理上传、下载业务

留坑待填

使用CURL抓取远程链接图片

留坑待填

分享一个比较靠谱的请求封装函数

/*
 * 参数1:调用接口的的URL
 * 参数2:post数据(不填则为GET)
 * 参数3:模拟提交的$cookies内容
 * 参数4:是否return请求返回的$cookies
 */
 function curl_request($url,$post='',$cookie='', $returnCookie=0){
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL, $url);
        curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)');
        curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);
        curl_setopt($curl, CURLOPT_AUTOREFERER, 1);
        curl_setopt($curl, CURLOPT_REFERER, "http://XXX");
        if($post) {
            curl_setopt($curl, CURLOPT_POST, 1);
            curl_setopt($curl, CURLOPT_POSTFIELDS, http_build_query($post));
        }
        if($cookie) {
            curl_setopt($curl, CURLOPT_COOKIE, $cookie);
        }
        curl_setopt($curl, CURLOPT_HEADER, $returnCookie);
        curl_setopt($curl, CURLOPT_TIMEOUT, 10);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        $data = curl_exec($curl);
        if (curl_errno($curl)) {
            return curl_error($curl);
        }
        curl_close($curl);
        if($returnCookie){
            list($header, $body) = explode("\r\n\r\n", $data, 2);
            preg_match_all("/Set\-Cookie:([^;]*);/", $header, $matches);
            $info['cookie']  = substr($matches[1][0], 1);
            $info['content'] = $body;
            return $info;
        }else{
            return $data;
        }
}

常见配置信息

curl_setopt($curl, CURLOPT_COOKIE, $cookie);  # 配置请求COOKIE信息
curl_setopt($curl, CURLOPT_URL, $url);        # 配置请求链接
curl_setopt($curl, CURLOPT_POST, 1);          # 配置请求方式为post


常用的curl函数

curl_close — 关闭 cURL 会话
curl_copy_handle — 复制一个cURL句柄和它的所有选项
curl_errno — 返回最后一次的错误代码
curl_error — 返回当前会话最后一次错误的字符串
curl_escape — 使用 URL 编码给定的字符串
curl_exec — 执行 cURL 会话
curl_file_create — 创建一个 CURLFile 对象
curl_getinfo — 获取一个cURL连接资源句柄的信息
curl_init — 初始化 cURL 会话
curl_multi_add_handle — 向curl批处理会话中添加单独的curl句柄
curl_multi_close — 关闭一组cURL句柄
curl_multi_errno — 返回上一次 curl 批处理的错误码
curl_multi_exec — 运行当前 cURL 句柄的子连接
curl_multi_getcontent — 如果设置了CURLOPT_RETURNTRANSFER,则返回获取的输出的文本流
curl_multi_info_read — 获取当前解析的cURL的相关传输信息
curl_multi_init — 返回一个新cURL批处理句柄
curl_multi_remove_handle — 移除cURL批处理句柄资源中的某个句柄资源
curl_multi_select — 等待所有cURL批处理中的活动连接
curl_multi_setopt — 为 cURL 并行处理设置一个选项
curl_multi_strerror — 返回字符串描述的错误代码
curl_pause — 暂停和取消暂停一个连接。
curl_reset — 重置一个 libcurl 会话句柄的所有的选项
curl_setopt_array — 为 cURL 传输会话批量设置选项
curl_setopt — 设置 cURL 传输选项
curl_share_close — 关闭 cURL 共享句柄
curl_share_errno — Return the last share curl error number
curl_share_init — 初始化一个 cURL 共享句柄。
curl_share_setopt — 为 cURL 共享句柄设置选项。
curl_share_strerror — Return string describing the given error code
curl_strerror — 返回错误代码的字符串描述
curl_unescape — 解码给定的 URL 编码的字符串
curl_version — 获取 cURL 版本信息

常用的curl可选配置常量

CURLINFO_EFFECTIVE_URL   最后一个有效的url地址
CURLINFO_HTTP_CODE   最后一个收到的HTTP代码
CURLINFO_FILETIME   远程获取文档的时间,如果无法获取,则返回值为“-1”
CURLINFO_TOTAL_TIME   最后一次传输所消耗的时间
CURLINFO_NAMELOOKUP_TIME   名称解析所消耗的时间
CURLINFO_CONNECT_TIME   建立连接所消耗的时间
CURLINFO_PRETRANSFER_TIME   从建立连接到准备传输所使用的时间
CURLINFO_STARTTRANSFER_TIME   从建立连接到传输开始所使用的时间
CURLINFO_REDIRECT_TIME   在事务传输开始前重定向所使用的时间
CURLINFO_SIZE_UPLOAD   上传数据量的总值
CURLINFO_SIZE_DOWNLOAD   下载数据量的总值
CURLINFO_SPEED_DOWNLOAD   平均下载速度
CURLINFO_SPEED_UPLOAD   平均上传速度
CURLINFO_HEADER_SIZE   header部分的大小
CURLINFO_HEADER_OUT   发送请求的字符串
CURLINFO_REQUEST_SIZE   在HTTP请求中有问题的请求的大小
CURLINFO_SSL_VERIFYRESULT   Result of SSL certification verification requested by setting CURLOPT_SSL_VERIFYPEER
CURLINFO_CONTENT_LENGTH_DOWNLOAD   从Content-Length: field中读取的下载内容长度
CURLINFO_CONTENT_LENGTH_UPLOAD   上传内容大小的说明
CURLINFO_CONTENT_TYPE   下载内容的“Content-type”值,NULL表示服务器没有发送有效的“Content-Type: header”
CURLOPT_AUTOREFERER   自动设置header中的referer信息
CURLOPT_BINARYTRANSFER   在启用CURLOPT_RETURNTRANSFER时候将获取数据返回
CURLOPT_COOKIESESSION   启用时curl会仅仅传递一个session cookie,忽略其他的cookie,默认状况下curl会将所有的cookie返回给服务端。session cookie是指那些用来判断服务器端的session是否有效而存在的cookie。
CURLOPT_CRLF   启用时将Unix的换行符转换成回车换行符。
CURLOPT_DNS_USE_GLOBAL_CACHE   启用时会启用一个全局的DNS缓存,此项为线程安全的,并且默认为true。
CURLOPT_FAILONERROR   显示HTTP状态码,默认行为是忽略编号小于等于400的HTTP信息
CURLOPT_FILETIME   启用时会尝试修改远程文档中的信息。结果信息会通过curl_getinfo()函数的CURLINFO_FILETIME选项返回。
CURLOPT_FOLLOWLOCATION   启用时会将服务器服务器返回的“Location:”放在header中递归的返回给服务器,使用CURLOPT_MAXREDIRS可以限定递归返回的数量。
CURLOPT_FORBID_REUSE   在完成交互以后强迫断开连接,不能重用。
CURLOPT_FRESH_CONNECT   强制获取一个新的连接,替代缓存中的连接。
CURLOPT_HEADER   启用时会将头文件的信息作为数据流输出。
CURLOPT_HTTPGET   启用时会设置HTTP的method为GET,因为GET是默认是,所以只在被修改的情况下使用。
CURLOPT_HTTPPROXYTUNNEL   启用时会通过HTTP代理来传输。
CURLOPT_MUTE   讲curl函数中所有修改过的参数恢复默认值。
CURLOPT_NETRC   在连接建立以后,访问~/.netrc文件获取用户名和密码信息连接远程站点。
CURLOPT_NOBODY   启用时将不对HTML中的body部分进行输出。
CURLOPT_NOPROGRESS   启用时关闭curl传输的进度条,此项的默认设置为true
CURLOPT_NOSIGNAL   启用时忽略所有的curl传递给php进行的信号。在SAPI多线程传输时此项被默认打开。
CURLOPT_POST   启用时会发送一个常规的POST请求,类型为:application/x-www-form-urlencoded,就像表单提交的一样。
CURLOPT_PUT   启用时允许HTTP发送文件,必须同时设置CURLOPT_INFILE和CURLOPT_INFILESIZE
CURLOPT_RETURNTRANSFER   讲curl_exec()获取的信息以文件流的形式返回,而不是直接输出。
CURLOPT_UNRESTRICTED_AUTH   在使用CURLOPT_FOLLOWLOCATION产生的header中的多个locations中持续追加用户名和密码信息,即使域名已发生改变。
CURLOPT_UPLOAD   启用时允许文件传输
CURLOPT_VERBOSE   启用时会汇报所有的信息,存放在STDERR或指定的CURLOPT_STDERR中
CURLOPT_BUFFERSIZE   每次获取的数据中读入缓存的大小,这个值每次都会被填满。
CURLOPT_CLOSEPOLICY   不是CURLCLOSEPOLICY_LEAST_RECENTLY_USED就是CURLCLOSEPOLICY_OLDEST,还存在另外三个,但是curl暂时还不支持。.
CURLOPT_CONNECTTIMEOUT   在发起连接前等待的时间,如果设置为0,则不等待。
CURLOPT_DNS_CACHE_TIMEOUT   设置在内存中保存DNS信息的时间,默认为120秒。
CURLOPT_HTTP_VERSION   设置curl使用的HTTP协议,CURL_HTTP_VERSION_NONE(让curl自己判断),CURL_HTTP_VERSION_1_0(HTTP/1.0),CURL_HTTP_VERSION_1_1(HTTP/1.1)


本文发表于2018年01月25日 21:39
阅读 2785 讨论 1 喜欢 0

抢先体验

扫码体验
趣味小程序
文字表情生成器

闪念胶囊

你要过得好哇,这样我才能恨你啊,你要是过得不好,我都不知道该恨你还是拥抱你啊。

直抵黄龙府,与诸君痛饮尔。

那时陪伴我的人啊,你们如今在何方。

不出意外的话,我们再也不会见了,祝你前程似锦。

这世界真好,吃野东西也要留出这条命来看看

快捷链接
网站地图
提交友链
Copyright © 2016 - 2021 Cion.
All Rights Reserved.
京ICP备2021004668号-1