工具開發:免費代理IP抓取器 (代理池維護工具)
相關的開發影片,之前有做過類似的,請參考 https://www.youtube.com/watch?v=gI-VGl50ch0 系列影片 上面的影片 不是針對新手的內容,針對新手的內容會在這裡進行解說
免費代理IP哪裡來的
還記得小時候電腦如果中毒,網路很卡很慢,電腦整體也變得很慢通常是的體現是CPU佔比很高,會這樣通常是因為你的電腦網路被開了代理IP後門,並且被公佈到了網路上,供大家使用,所以會出現這個現象。 在這裡不討論使用免費IP道不道德的問題,單就技術上的討論,如果覺得不道德,那歡迎使用 單價約 1usd/IP 的單價來進行爬蟲工作,怎麼衡量看個人。
代理IP的類型
代理IP主要分為兩個大類 分別是 HTTP Proxy(HTTP代理) SOCKS Proxy (Socks 代理)
HTTP Proxy (HTTP代理) 主要的應用是在,網路web傳輸相關的用的代理跳板,例如 網址是 http、https、ws 這類的網路傳輸用的,大部份爬蟲的任務用這個方式就足夠。
Socks 代理 (Socks 代理) Socks的應用範圍很廣,只要是用 網路傳輸的 TCP、UDP 都可以使用, 不過比起HTTP Socks比較數量少些,Socks有兩大主流版本 Socks4、Socks5 如果要採用 Socks記得要檢查版本。
代理IP的匿名性
代理IP由於網路上各路大神開後門的方法不同,所以會出現匿名性不同的現象。
TRANSPARENT 透明代理 在發出請求的時候,會在傳輸的HEADER部份 告知對方主機 你的真實IP 擬人說明: 代理IP會告訴對方,他是受人指使,並且會告訴他是誰指使的
ANONYMOUS 匿名代理 在發出請求的時候,會在傳輸的HEADER部份 告知對方 自身是代理,但不透露真實IP 擬人說明: 代理IP會告訴對方,他是受人指使,但不告知是誰指使
ELITE 菁英代理 在發出請求的時候,會如同真實IP的操作一般 不會洩漏任何操作方的資訊
隨著要求的匿名度愈高,你能在網路上找到的IP也會愈來愈少,實際上要參考自己要爬的網站,對於匿名度的要求以及專案特性來選擇
保護好自己,建立好自身的安全性
如果你未來要爬的網站,安全性很弱或是主機很弱或是你打算用很多線程去爬取,那麼建議先將自己的電腦連上付費的VPN,保持好自身電腦的全匿名性,以確保不會因為做爬蟲測試的時候,代理IP沒篩選好 或是不小心弄壞人家電腦,收到刑事通知…(真人真事)
代理IP來源
網路上有許多提供免費代理IP的網站,我們的工具其實就是爬取那些網站所提供的資訊,來進行篩選與過濾
以下是幾個在搜尋代理IP來源時會用到的好用關鍵字 搜索引擎是用Google
建議先用上面的幾個關鍵字,手動查找一下符合的資訊
這裡為考慮教學方便,只抓取txt類型的代理來源,如果未來自己要深化自己的代理抓取工具,再自行開發代理來源的爬蟲。
簡單的Google爬蟲
為了讓自己的ip更新更順暢,首先我們先製作一個Google爬蟲
Last updated