工具開發:免費代理IP抓取器 (代理池維護工具)

相關的開發影片,之前有做過類似的,請參考 https://www.youtube.com/watch?v=gI-VGl50ch0 系列影片 上面的影片 不是針對新手的內容,針對新手的內容會在這裡進行解說

免費代理IP哪裡來的

還記得小時候電腦如果中毒,網路很卡很慢,電腦整體也變得很慢通常是的體現是CPU佔比很高,會這樣通常是因為你的電腦網路被開了代理IP後門,並且被公佈到了網路上,供大家使用,所以會出現這個現象。 在這裡不討論使用免費IP道不道德的問題,單就技術上的討論,如果覺得不道德,那歡迎使用 單價約 1usd/IP 的單價來進行爬蟲工作,怎麼衡量看個人。

代理IP的類型

代理IP主要分為兩個大類 分別是 HTTP Proxy(HTTP代理) SOCKS Proxy (Socks 代理)

  • HTTP Proxy (HTTP代理) 主要的應用是在,網路web傳輸相關的用的代理跳板,例如 網址是 http、https、ws 這類的網路傳輸用的,大部份爬蟲的任務用這個方式就足夠。

  • Socks 代理 (Socks 代理) Socks的應用範圍很廣,只要是用 網路傳輸的 TCP、UDP 都可以使用, 不過比起HTTP Socks比較數量少些,Socks有兩大主流版本 Socks4、Socks5 如果要採用 Socks記得要檢查版本。

代理IP的匿名性

代理IP由於網路上各路大神開後門的方法不同,所以會出現匿名性不同的現象。

代理匿名等級常見的名詞如下:
TRANSPARENT = "透明代理"
ANONYMOUS = "匿名代理"
ELITE = "高匿代理/菁英代理"
  • TRANSPARENT 透明代理 在發出請求的時候,會在傳輸的HEADER部份 告知對方主機 你的真實IP 擬人說明: 代理IP會告訴對方,他是受人指使,並且會告訴他是誰指使的

  • ANONYMOUS 匿名代理 在發出請求的時候,會在傳輸的HEADER部份 告知對方 自身是代理,但不透露真實IP 擬人說明: 代理IP會告訴對方,他是受人指使,但不告知是誰指使

  • ELITE 菁英代理 在發出請求的時候,會如同真實IP的操作一般 不會洩漏任何操作方的資訊

隨著要求的匿名度愈高,你能在網路上找到的IP也會愈來愈少,實際上要參考自己要爬的網站,對於匿名度的要求以及專案特性來選擇

保護好自己,建立好自身的安全性

如果你未來要爬的網站,安全性很弱或是主機很弱或是你打算用很多線程去爬取,那麼建議先將自己的電腦連上付費的VPN,保持好自身電腦的全匿名性,以確保不會因為做爬蟲測試的時候,代理IP沒篩選好 或是不小心弄壞人家電腦,收到刑事通知…(真人真事)

代理IP來源

網路上有許多提供免費代理IP的網站,我們的工具其實就是爬取那些網站所提供的資訊,來進行篩選與過濾

以下是幾個在搜尋代理IP來源時會用到的好用關鍵字 搜索引擎是用Google

free proxy
proxy list filetype:txt
直接貼上已經找到的代理ip來用 如:24.113.38.149:48678
high-anonymou filetype:txt

建議先用上面的幾個關鍵字,手動查找一下符合的資訊

這裡為考慮教學方便,只抓取txt類型的代理來源,如果未來自己要深化自己的代理抓取工具,再自行開發代理來源的爬蟲。

簡單的Google爬蟲

為了讓自己的ip更新更順暢,首先我們先製作一個Google爬蟲

請點擊這裡 進入Google爬蟲的內容

Last updated