Menu

PHP CURL 教學

 

curl Using cURL and PHP to upload files through a form post

目前最完整的CURL中文說明,學PHP的要好好掌握,有很多的參數,大部份都很有用,真正掌握了它和正則,一定就是個採集高手了。

 


PHP中的CURL函式庫(Client URL Library Function)

close 關閉一個curl會話
copy_handle 拷貝一個curl連接資源的所有內容和參數
errno 返回一個包含當前會話錯誤訊息的數字編號
error 返回一個包含當前會話錯誤訊息的字符串
exec 執行一個curl會話
getinfo 獲取一個curl連接資源控制代碼的訊息
init 初始化一個curl會話
multi_add_handle 向curl批處理會話中添加單獨的curl控制代碼資源
multi_close 關閉一個批處理控制代碼資源
multi_exec 解析一個curl批處理控制代碼
multi_getcontent 返回獲取的輸出的文本流
multi_info_read 獲取當前解析的curl的相關傳輸訊息
multi_init 初始化一個curl批處理控制代碼資源
multi_remove_handle 移除curl批處理控制代碼資源中的某個控制代碼資源
multi_select Get all the sockets associated with the cURL extension, which can then be "selected"
setopt_array 以數組的形式為一個curl設置會話參數
setopt 為一個curl設置會話參數
version 獲取curl相關的版本訊息

 

curl_init() 函式的作用初始化一個curl會話,curl_init()函式唯一的一個參數是可選的,表示一個url地址。

curl_exec() 函式的作用是執行一個curl會話,唯一的參數是curl_init()函式返回的控制代碼。

curl_close() 函式的作用是關閉一個curl會話,唯一的參數是curl_init()函式返回的控制代碼。

<?php 
$ch = curl_init("http://www.baidu.com/");
curl_exec($ch);
curl_close($ch);
?>

curl_version() 函式的作用是獲取curl相關的版本訊息,curl_version()函式有一個參數,不清楚是做什麼的

curl_getinfo() 函式的作用是獲取一個curl連接資源控制代碼的訊息,curl_getinfo()函式有兩個參數,第一個參數是curl的資源控制代碼,第二個參數是下面一些常量:

<?php 
$ch = curl_init("http://www.baidu.com/");
print_r(curl_getinfo($ch));
?>

可選的常量包括:

CURLINFO_EFFECTIVE_URL 最後一個有效的url地址
CURLINFO_HTTP_CODE 最後一個收到的HTTP代碼
CURLINFO_FILETIME 遠程獲取文檔的時間,如果無法獲取,則返回值為「-1」
CURLINFO_TOTAL_TIME 最後一次傳輸所消耗的時間
CURLINFO_NAMELOOKUP_TIME 名稱解析所消耗的時間
CURLINFO_CONNECT_TIME 建立連接所消耗的時間
CURLINFO_PRETRANSFER_TIME 從建立連接到準備傳輸所使用的時間
CURLINFO_STARTTRANSFER_TIME 從建立連接到傳輸開始所使用的時間
CURLINFO_REDIRECT_TIME 在事務傳輸開始前重定向所使用的時間
CURLINFO_SIZE_UPLOAD 上傳數據量的總值
CURLINFO_SIZE_DOWNLOAD 下載數據量的總值
CURLINFO_SPEED_DOWNLOAD 平均下載速度
CURLINFO_SPEED_UPLOAD 平均上傳速度
CURLINFO_HEADER_SIZE header部分的大小
CURLINFO_HEADER_OUT 發送請求的字符串
CURLINFO_REQUEST_SIZE 在HTTP請求中有問題的請求的大小
CURLINFO_SSL_VERIFYRESULT Result of SSL certification verification requested by setting CURLOPT_SSL_VERIFYPEER
CURLINFO_CONTENT_LENGTH_DOWNLOAD 從Content-Length: field中讀取的下載內容長度
CURLINFO_CONTENT_LENGTH_UPLOAD 上傳內容大小的說明
CURLINFO_CONTENT_TYPE 下載內容的「Content-type」值,NULL表示服務器沒有發送有效的「Content-Type: header」

 

curl_setopt() 函式的作用是為一個curl設置會話參數。curl_setopt_array()函式的作用是以數組的形式為一個curl設置會話參數。

<?php 
$ch = curl_init();
$fp = fopen("example_homepage.txt", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
$options = array(
CURLOPT_URL => 'http://www.baidu.com/',
CURLOPT_HEADER => false
);
curl_setopt_array($ch, $options);
curl_exec($ch);
curl_close($ch);
fclose($fp);
?>

可設置的參數有:

CURLOPT_AUTOREFERER 自動設置header中的referer訊息
CURLOPT_BINARYTRANSFER 在啟用CURLOPT_RETURNTRANSFER時候將獲取數據返回
CURLOPT_COOKIESESSION 啟用時curl會僅僅傳遞一個session cookie,忽略其他的cookie,默認狀況下curl會將所有的cookie返回給服務端。session cookie是指那些用來判斷服務器端的session是否有效而存在的cookie。
CURLOPT_CRLF 啟用時將Unix的換行符轉換成回車換行符。
CURLOPT_DNS_USE_GLOBAL_CACHE 啟用時會啟用一個全局的DNS緩存,此項為線程安全的,並且默認為true。
CURLOPT_FAILONERROR 顯示HTTP狀態碼,默認行為是忽略編號小於等於400的HTTP訊息
CURLOPT_FILETIME 啟用時會嘗試修改遠程文檔中的訊息。結果訊息會通過curl_getinfo()函式的CURLINFO_FILETIME選項返回。
CURLOPT_FOLLOWLOCATION 啟用時會將服務器服務器返回的「Location:」放在header中遞歸的返回給服務器,使用CURLOPT_MAXREDIRS可以限定遞歸返回的數量。
CURLOPT_FORBID_REUSE 在完成交互以後強迫斷開連接,不能重用。
CURLOPT_FRESH_CONNECT 強制獲取一個新的連接,替代緩存中的連接。
CURLOPT_FTP_USE_EPRT TRUE to use EPRT (and LPRT) when doing active FTP downloads. Use FALSE to disable EPRT and LPRT and use PORT only. Added in PHP 5.0.0.
CURLOPT_FTP_USE_EPSV TRUE to first try an EPSV command for FTP transfers before reverting back to PASV. Set to FALSE to disable EPSV.
CURLOPT_FTPAPPEND TRUE to append to the remote file instead of overwriting it.
CURLOPT_FTPASCII An alias of CURLOPT_TRANSFERTEXT. Use that instead.
CURLOPT_FTPLISTONLY TRUE to only list the names of an FTP directory.
CURLOPT_HEADER 啟用時會將頭文件的訊息作為數據流輸出。
CURLOPT_HTTPGET 啟用時會設置HTTP的method為GET,因為GET是默認是,所以只在被修改的情況下使用。
CURLOPT_HTTPPROXYTUNNEL 啟用時會通過HTTP代理來傳輸。
CURLOPT_MUTE 講curl函式中所有修改過的參數恢復默認值。
CURLOPT_NETRC 在連接建立以後,訪問~/.netrc文件獲取用戶名和密碼訊息連接遠程站點。
CURLOPT_NOBODY 啟用時將不對HTML中的body部分進行輸出。
CURLOPT_NOPROGRESS 啟用時關閉curl傳輸的進度條,此項的默認設置為true
CURLOPT_NOSIGNAL 啟用時忽略所有的curl傳遞給php進行的信號。在SAPI多線程傳輸時此項被默認打開。
CURLOPT_POST 啟用時會發送一個常規的POST請求,類型為:application/x-www-form-urlencoded,就像表單提交的一樣。
CURLOPT_PUT 啟用時允許HTTP發送文件,必須同時設置CURLOPT_INFILE和CURLOPT_INFILESIZE
CURLOPT_RETURNTRANSFER 講curl_exec()獲取的訊息以文件流的形式返回,而不是直接輸出。
CURLOPT_SSL_VERIFYPEER FALSE to stop cURL from verifying the peer's certificate. Alternate certificates to verify against can be specified with the CURLOPT_CAINFO option or a certificate directory can be specified with the CURLOPT_CAPATH option. CURLOPT_SSL_VERIFYHOST may also need to be TRUE or FALSE if CURLOPT_SSL_VERIFYPEER is disabled (it defaults to 2). TRUE by default as of cURL 7.10. Default bundle installed as of cURL 7.10.
CURLOPT_TRANSFERTEXT TRUE to use ASCII mode for FTP transfers. For LDAP, it retrieves data in plain text instead of HTML. On Windows systems, it will not set STDOUT to binary mode.
CURLOPT_UNRESTRICTED_AUTH 在使用CURLOPT_FOLLOWLOCATION產生的header中的多個locations中持續追加用戶名和密碼訊息,即使域名已發生改變。
CURLOPT_UPLOAD 啟用時允許文件傳輸
CURLOPT_VERBOSE 啟用時會匯報所有的訊息,存放在STDERR或指定的CURLOPT_STDERR中
CURLOPT_BUFFERSIZE 每次獲取的數據中讀入緩存的大小,這個值每次都會被填滿。
CURLOPT_CLOSEPOLICY 不是CURLCLOSEPOLICY_LEAST_RECENTLY_USED就是CURLCLOSEPOLICY_OLDEST,還存在另外三個,但是curl暫時還不支持。.
CURLOPT_CONNECTTIMEOUT 在發起連接前等待的時間,如果設置為0,則不等待。
CURLOPT_DNS_CACHE_TIMEOUT 設置在內存中保存DNS訊息的時間,默認為120秒。
CURLOPT_FTPSSLAUTH The FTP authentication method (when is activated): CURLFTPAUTH_SSL (try SSL first), CURLFTPAUTH_TLS (try TLS first), or CURLFTPAUTH_DEFAULT (let cURL decide).
CURLOPT_HTTP_VERSION 設置curl使用的HTTP協議,CURL_HTTP_VERSION_NONE(讓curl自己判斷),CURL_HTTP_VERSION_1_0(HTTP/1.0),CURL_HTTP_VERSION_1_1(HTTP/1.1)
CURLOPT_HTTPAUTH 使用的HTTP驗證方法,可選的值 有: CURLAUTH_BASIC, CURLAUTH_DIGEST, CURLAUTH_GSSNEGOTIATE, CURLAUTH_NTLM,CURLAUTH_ANY, CURLAUTH_ANYSAFE, 可以使用「|」操作符分隔多個值, curl讓服務器選擇一個支持最好的值, CURLAUTH_ANY等價於CURLAUTH_BASIC | CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM,CURLAUTH_ANYSAFE等價於CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM
CURLOPT_INFILESIZE 設定上傳文件的大小
CURLOPT_LOW_SPEED_LIMIT 當傳輸速度小於CURLOPT_LOW_SPEED_LIMIT時,PHP會根據CURLOPT_LOW_SPEED_TIME來判斷是否因太慢而取消傳輸。
CURLOPT_LOW_SPEED_TIME The number of seconds the transfer should be below CURLOPT_LOW_SPEED_LIMIT for PHP to consider the transfer too slow and abort. 當傳輸速度小於CURLOPT_LOW_SPEED_LIMIT時,PHP會根據CURLOPT_LOW_SPEED_TIME來判斷是否因太慢而取消傳輸。
CURLOPT_MAXCONNECTS 允許的最大連接數量,超過是會通過CURLOPT_CLOSEPOLICY決定應該停止哪些連接
CURLOPT_MAXREDIRS 指定最多的HTTP重定向的數量,這個選項是和CURLOPT_FOLLOWLOCATION一起使用的。
CURLOPT_PORT 一個可選的用來指定連接端口的量
CURLOPT_PROXYAUTH The HTTP authentication method(s) to use for the proxy connection. Use the same bitmasks as described in CURLOPT_HTTPAUTH. For proxy authentication, only CURLAUTH_BASIC and CURLAUTH_NTLM are currently supported.
CURLOPT_PROXYPORT The port number of the proxy to connect to. This port number can also be set in CURLOPT_PROXY.
CURLOPT_PROXYTYPE Either CURLPROXY_HTTP (default) or CURLPROXY_SOCKS5.
CURLOPT_RESUME_FROM 在恢復傳輸時傳遞一個字節偏移量(用來斷點續傳)
CURLOPT_SSL_VERIFYHOST 1 to check the existence of a common name in the SSL peer certificate.
2 to check the existence of a common name and also verify that it matches the hostname provided.
CURLOPT_SSLVERSION The SSL version (2 or 3) to use. By default PHP will try to determine this itself, although in some cases this must be set manually.
CURLOPT_TIMECONDITION 如果在CURLOPT_TIMEVALUE指定的某個時間以後被編輯過,則使用CURL_TIMECOND_IFMODSINCE返回頁面,如果沒有被修 改過,並且CURLOPT_HEADER為true,則返回一個"304 Not Modified"的header,CURLOPT_HEADER為false,則使用CURL_TIMECOND_ISUNMODSINCE,默認值為 CURL_TIMECOND_IFMODSINCE
CURLOPT_TIMEOUT 設置curl允許執行的最長秒數
CURLOPT_TIMEVALUE 設置一個CURLOPT_TIMECONDITION使用的時間戳,在默認狀態下使用的是CURL_TIMECOND_IFMODSINCE
CURLOPT_CAINFO The name of a file holding one or more certificates to verify the peer with. This only makes sense when used in combination with CURLOPT_SSL_VERIFYPEER.
CURLOPT_CAPATH A directory that holds multiple CA certificates. Use this option alongside CURLOPT_SSL_VERIFYPEER.
CURLOPT_COOKIE 設定HTTP請求中「Set-Cookie:」部分的內容。
CURLOPT_COOKIEFILE 包含cookie訊息的文件名稱,這個cookie文件可以是Netscape格式或者HTTP風格的header訊息。
CURLOPT_COOKIEJAR 連接關閉以後,存放cookie訊息的文件名稱
CURLOPT_CUSTOMREQUEST A custom request method to use instead of "GET" or "HEAD" when doing a HTTP request. This is useful for doing "DELETE" or other, more obscure HTTP requests. Valid values are things like "GET", "POST", "CONNECT" and so on; i.e. Do not enter a whole HTTP request line here. For instance, entering "GET /index.html HTTP/1.0\r\n\r\n" would be incorrect. Note: Don't do this without making sure the server supports the custom request method first.
CURLOPT_EGBSOCKET Like CURLOPT_RANDOM_FILE, except a filename to an Entropy Gathering Daemon socket.
CURLOPT_ENCODING header中「Accept-Encoding: 」部分的內容,支持的編碼格式為:"identity","deflate","gzip"。如果設置為空字符串,則表示支持所有的編碼格式
CURLOPT_FTPPORT The value which will be used to get the IP address to use for the FTP "POST" instruction. The "POST" instruction tells the remote server to connect to our specified IP address. The string may be a plain IP address, a hostname, a network interface name (under Unix), or just a plain '-' to use the systems default IP address.
CURLOPT_INTERFACE 在外部網絡接口中使用的名稱,可以是一個接口名,IP或者主機名。
CURLOPT_KRB4LEVEL KRB4(Kerberos 4)安全級別的設置,可以是一下幾個值之一:"clear","safe","confidential","private"。默認的值 為"private",設置為null的時候表示禁用KRB4,現在KRB4安全僅能在FTP傳輸中使用。
CURLOPT_POSTFIELDS 在HTTP中的「POST」操作。如果要傳送一個文件,需要一個@開頭的文件名
CURLOPT_PROXY 設置通過的HTTP代理服務器
CURLOPT_PROXYUSERPWD 連接到代理服務器的,格式為「[username]:[password]」的用戶名和密碼。
CURLOPT_RANDOM_FILE 設定存放SSL用到的隨機數種子的文件名稱
CURLOPT_RANGE 設置HTTP傳輸範圍,可以用「X-Y」的形式設置一個傳輸區間,如果有多個HTTP傳輸,則使用逗號分隔多個值,形如:"X-Y,N-M"。
CURLOPT_REFERER 設置header中"Referer: " 部分的值。
CURLOPT_SSL_CIPHER_LIST A list of ciphers to use for SSL. For example, RC4-SHA and TLSv1 are valid cipher lists.
CURLOPT_SSLCERT 傳遞一個包含PEM格式證書的字符串。
CURLOPT_SSLCERTPASSWD 傳遞一個包含使用CURLOPT_SSLCERT證書必需的密碼。
CURLOPT_SSLCERTTYPE The format of the certificate. Supported formats are "PEM" (default), "DER", and "ENG".
CURLOPT_SSLENGINE The identifier for the crypto engine of the private SSL key specified in CURLOPT_SSLKEY.
CURLOPT_SSLENGINE_DEFAULT The identifier for the crypto engine used for asymmetric crypto operations.
CURLOPT_SSLKEY The name of a file containing a private SSL key.
CURLOPT_SSLKEYPASSWD The secret password needed to use the private SSL key specified in CURLOPT_SSLKEY.
Note: Since this option contains a sensitive password, remember to keep the PHP script it is contained within safe.
CURLOPT_SSLKEYTYPE The key type of the private SSL key specified in CURLOPT_SSLKEY. Supported key types are "PEM" (default), "DER", and "ENG".
CURLOPT_URL 需要獲取的URL地址,也可以在PHP的curl_init()函式中設置。
CURLOPT_USERAGENT 在HTTP請求中包含一個」user-agent」頭的字符串。
CURLOPT_USERPWD 傳遞一個連接中需要的用戶名和密碼,格式為:「[username]:[password]」。
CURLOPT_HTTP200ALIASES 設置不再以error的形式來處理HTTP 200的響應,格式為一個數組。
CURLOPT_HTTPHEADER 設置一個header中傳輸內容的數組。
CURLOPT_POSTQUOTE An array of FTP commands to execute on the server after the FTP request has been performed.
CURLOPT_QUOTE An array of FTP commands to execute on the server prior to the FTP request.
CURLOPT_FILE 設置輸出文件的位置,值是一個資源類型,默認為STDOUT (瀏覽器)。
CURLOPT_INFILE 在上傳文件的時候需要讀取的文件地址,值是一個資源類型。
CURLOPT_STDERR 設置一個錯誤輸出地址,值是一個資源類型,取代默認的STDERR。
CURLOPT_WRITEHEADER 設置header部分內容的寫入的文件地址,值是一個資源類型。
CURLOPT_HEADERFUNCTION 設置一個回調函式,這個函式有兩個參數,第一個是curl的資源控制代碼,第二個是輸出的header數據。header數據的輸出必須依賴這個函式,返回已寫入的數據大小。
CURLOPT_PASSWDFUNCTION 設置一個回調函式,有三個參數,第一個是curl的資源控制代碼,第二個是一個密碼提示符,第三個參數是密碼長度允許的最大值。返回密碼的值。
CURLOPT_READFUNCTION 設置一個回調函式,有兩個參數,第一個是curl的資源控制代碼,第二個是讀取到的數據。數據讀取必須依賴這個函式。返回讀取數據的大小,比如0或者EOF。
CURLOPT_WRITEFUNCTION 設置一個回調函式,有兩個參數,第一個是curl的資源控制代碼,第二個是寫入的數據。數據寫入必須依賴這個函式。返回精確的已寫入數據的大小

 

curl_copy_handle() 函式的作用是拷貝一個curl連接資源的所有內容和參數

<?php 
$ch = curl_init("http://www.baidu.com/");
$another = curl_copy_handle($ch);
curl_exec($another);
curl_close($another);
?>

curl_error() 函式的作用是返回一個包含當前會話錯誤訊息的字符串。

curl_errno() 函式的作用是返回一個包含當前會話錯誤訊息的數字編號。

curl_multi_init() 函式的作用是初始化一個curl批處理控制代碼資源。

curl_multi_add_handle() 函式的作用是向curl批處理會話中添加單獨的curl控制代碼資源。

url_multi_add_handle() 函式有兩個參數,第一個參數表示一個curl批處理控制代碼資源,第二個參數表示一個單獨的curl控制代碼資源。

curl_multi_exec() 函式的作用是解析一個curl批處理控制代碼,curl_multi_exec()函式有兩個參數,第一個參數表示一個批處理控制代碼資源,第二個參數是一個引用值的參數,表示剩餘需要處理的單個的curl控制代碼資源數量。

curl_multi_remove_handle() 函式表示移除curl批處理控制代碼資源中的某個控制代碼資 源,curl_multi_remove_handle()函式有兩個參數,第一個參數表示一個curl批處理控制代碼資源,第二個參數表示一個單獨的 curl控制代碼資源。

curl_multi_close() 函式的作用是關閉一個批處理控制代碼資源。

<?php 
$ch1 = curl_init();
$ch2 = curl_init();
curl_setopt($ch1, CURLOPT_URL, "http://www.baidu.com/");
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch2, CURLOPT_URL, "http://www.google.com/");
curl_setopt($ch2, CURLOPT_HEADER, 0);
$mh = curl_multi_init();
curl_multi_add_handle($mh,$ch1);
curl_multi_add_handle($mh,$ch2);
do {
curl_multi_exec($mh,$flag);
} while ($flag > 0);
curl_multi_remove_handle($mh,$ch1);
curl_multi_remove_handle($mh,$ch2);
curl_multi_close($mh);
?>

curl_multi_getcontent() 函式的作用是在設置了CURLOPT_RETURNTRANSFER的情況下,返回獲取的輸出的文本流。

curl_multi_info_read() 函式的作用是獲取當前解析的curl的相關傳輸訊息。

curl_multi_select()

Get all the sockets associated with the cURL extension, which can then be "selected"

 

範例解說:

如果要用php來抓取網頁,一般人最常想到的就是「fopen」這個函式了。但現在有了更強大的函式,「curl」,至於這個函式怎麼用呢?就往下看吧!

如使用mysql一樣,首先,我們必須先建立一個「curl」的連線,也因此,必須使用到「$ch = curl_init()」這個函式。而為了怕建立連線忘了關閉。因此,必須先寫好關閉的函式,「curl_close($ch)」。

接下來,你可以設定他截取網頁的選項, 一般來說常用的有:

CURLOPT_RETURNTRANSFER

將結果回傳成字串

CURLOPT_URL

設定截取網址

CURLOPT_HEADER

是否截取header的資訊

CURLOPT_FOLLOWLOCATION

是否抓取轉址

CURLOPT_USERAGENT

瀏覽器的user agent

 

最後,再執行「curl_exec($ch)」以取出結果就可以了。

而以抓取yahoo為例,若我們要偽裝成google bot去抓取,那麼我們可以寫成下列的樣子。

<?php
$ch = curl_init();
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_URL, "www.yahoo.com.tw");
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_USERAGENT, "Google Bot");
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$output = curl_exec($ch);
curl_close($ch);
echo $output;
?>

當然,你也可以將選項們設定一個陣列,以增加設定時的閱讀度。這時就得動用「curl_setopt_array()」這個函式了。

而改寫上列程式如下:
<?php
$ch = curl_init();
$options = array(CURLOPT_URL => 'www.yahoo.com.tw',
CURLOPT_HEADER => false,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_USERAGENT => "Google Bot",
CURLOPT_FOLLOWLOCATION => true
);
curl_setopt_array($ch, $options);
$output = curl_exec($ch);
curl_close($ch);
echo $output;
?>