logo proxyscrape gelap

Scrapoxy: Alat Utama untuk Mengikis Web Tanpa Batas

Mengikis, 5. Panduan, Bagaimana caranya, Jun-06-20245 menit baca

Web scraping telah menjadi alat penting bagi para pengembang, ilmuwan data, dan profesional TI yang ingin mengekstrak data berharga dari situs web. Namun, tantangan untuk menghindari larangan, mengelola tingkat permintaan, dan menjaga anonimitas bisa jadi menakutkan. Masukkan ProxyScrape dan Scrapoxy-duaalat canggih yang, jika diintegrasikan, membuat web scraping menjadi lebih efisien dan efektif.

Dalam artikel ini, kita akan mengeksplorasi cara menggabungkan ProxyScrape dengan Scrapoxy, menawarkan solusi tanpa batas untuk kebutuhan scraping web Anda. Mari kita mulai!

Pengantar Scrapoxy dan ProxyScrape

Apa itu Scrapoxy?

Scrapoxy adalah alat manajemen proxy yang menyederhanakan proses mengintegrasikan proxy ke dalam proyek scraping web Anda. Alat ini memastikan bahwa aktivitas scraping Anda tetap tidak terdeteksi dengan merotasi proxy dan mengelola tingkat permintaan.

Apa yang dimaksud dengan ProxyScrape?

ProxyScrape adalah layanan tangguh yang menawarkan berbagai macam solusi proksi, termasuk daftar proksi gratis, proksi premium, proksi residensial, dan API web scraping. Dengan fitur-fitur seperti penargetan geografis, rendering JavaScript, dan eksekusi tindakan, ProxyScrape dirancang untuk menangani tugas-tugas scraping yang paling kompleks sekalipun.

Pentingnya Proksi dalam Pengikisan Web

Menggunakan proxy sangat penting untuk beberapa alasan:

  • Pengumpulan Data: Proksi memungkinkan Anda mengumpulkan data dari situs web tanpa diblokir.
  • Anonimitas: Mereka membantu menjaga anonimitas Anda dengan menyembunyikan alamat IP Anda.
  • Melewati Pembatasan: Proksi memungkinkan Anda melewati pembatasan geografis dan mengakses konten dari berbagai wilayah.

Mengintegrasikan ProxyScrape dengan Scrapoxy

Mengintegrasikan ProxyScrape dengan Scrapoxy adalah proses mudah yang dapat meningkatkan efisiensi scraping web Anda secara signifikan. Ikuti langkah-langkah berikut untuk memulai:

Langkah 1: Dapatkan Proksi dari ProxyScrape

  • Daftar ke ProxyScrape: Kunjungi situs web ProxyScrape dan daftarkan diri Anda untuk mendapatkan akun.
  • Pilih Paket Proxy Anda: Tergantung pada kebutuhan Anda, pilih daftar proxy gratis atau paket premium yang menawarkan proxy residensial atau khusus.
  • Unduh Daftar Proksi: Akses dasbor Anda dan unduh daftar proxy dalam format .txt.

Langkah 2: Pasang Scrapoxy

Untuk menyiapkan Scrapoxy, Anda harus terlebih dahulu memahami bahwa Scrapoxy beroperasi sebagai kontainer Docker. Hal ini memungkinkan penyebaran dan pengelolaan manajer proksi yang mudah. Ikuti langkah-langkah berikut untuk menjalankan Scrapoxy di mesin lokal Anda:

  • Jika belum terinstal, instal Docker terlebih dahulu.
  • Luncurkan **terminal** dan jalankan perintah berikut:
docker run -d -p 8888:8888 -p 8890:8890 -v ./scrapoxy:/cfg -e AUTH_LOCAL_USERNAME= admin-e AUTH_LOCAL_PASSWORD = kata sandi-e BACKEND_JWT_SECRET= rahasia1-e FRONTEND_JWT_SECRET = rahasia2-e NAMA_FILE_Penyimpanan = /cfg/scrapoxy.json fabienvauchelles/scrapoxy
  • Ganti admin, kata sandi, secret1 dan secret2 dengan nilai Anda sendiri.
  • Anda sekarang dapat mengakses antarmuka pengguna di http://localhost:8890, dengan nama pengguna 'admin' dan kata sandi 'password'.

Langkah 3: Menyiapkan proyek baru

Di Scrapoxy, sebuah proyek mengacu pada sekumpulan konfigurasi dan proksi tertentu yang Anda kelola untuk tugas pengikisan web tertentu. Setiap proyek memungkinkan Anda untuk menentukan proksi yang akan digunakan, mengatur kredensial, dan mengonfigurasi tingkat permintaan dan kebijakan rotasi. Pendekatan modular ini memudahkan untuk menangani kebutuhan situs web yang berbeda dan meningkatkan efisiensi dan tingkat keberhasilan keseluruhan aktivitas web scraping Anda.

Pertama, mari kita siapkan sebuah proyek agar kita dapat melanjutkan ke langkah berikutnya:

  • Di halaman beranda, klik tombol "Buat Proyek Baru".
  • Di sini Anda akan diminta untuk mengisi formulir yang harus Anda isi dengan informasi di atas:
  • Nama Pengenal unik untuk proyek;
  • Nama pengguna: Nama pengguna autentikasi yang digunakan untuk autentikasi proxy dalam permintaan 
  • Kata sandi: Kata sandi autentikasi yang digunakan untuk autentikasi proxy dalam permintaan 
  • Perbarui token: Klik tombol ini untuk memperbarui nama pengguna dan kata sandi;
  • Proksi minimum: Jumlah minimum proxy yang online ketika status proyek adalah CALM;
  • Auto Rotate Proxy (Putar Otomatis Proksi): Jika diaktifkan, proksi secara otomatis dirotasi pada interval acak dalam rentang Penundaan yang ditentukan;
  • Auto Scale Up: Apabila diaktifkan, status proyek akan beralih ke HOT setelah menerima permintaan, dan semua proxy akan dimulai;
  • Auto Scale Down: Ketika diaktifkan, status proyek beralih ke CALM jika tidak ada permintaan yang diterima setelah penundaan yang ditentukan, dan semua proksi dihentikan;
  • Mencegat permintaan HTTPS dengan MITM: Jika diaktifkan, Scrapoxy mencegat dan memodifikasi permintaan dan respons HTTPS.
  • Sertifikat: Instal sertifikat CA ini untuk menghindari peringatan keamanan di Browser atau Scraper;
  • Pertahankan proxy yang sama dengan injeksi cookie: Jika diaktifkan, Scrapoxy menginjeksikan cookie untuk mempertahankan proksi yang sama untuk sesi peramban (cookie tetap);
  • Timpa Agen-Pengguna: Jika diaktifkan, Scrapoxy akan mengganti tajuk User-Agent dengan nilai yang ditetapkan ke instance proxy. Semua permintaan yang dibuat dengan instance ini akan memiliki tajuk User-Agent yang sama;

Di dalam proyek, kita dapat menghubungkan proxy kita menggunakan fitur yang disebut konektor di Scrapoxy. Pada langkah selanjutnya, mari kita telusuri apa saja yang terlibat di dalamnya.

Langkah 4: Menyiapkan Konektor ProxyList

Seperti namanya, konektor bertindak sebagai jembatan antara penyedia proxy Anda dan Scrapoxy. Konektor memungkinkan Anda untuk mendapatkan proxy dari penyedia dan mengelolanya secara efektif. Karena Scrapoxy tidak dapat secara langsung mendukung semua penyedia proxy, Anda dapat memasukkan daftar proxy dari penyedia mana pun, dan mereka akan diintegrasikan ke dalam Scrapoxy. Di Scrapoxy, konektor ini disebut sebagai ProxyList. Di bawah ini, Anda akan menemukan panduan langkah demi langkah tentang cara mengintegrasikan daftar proxy ke dalam konektor ProxyList.

Sebelum membuat konektor, kita perlu membuat kredensial baru. Sesuai dengan namanya, kredensial memungkinkan Anda mengautentikasi proxy dari konektor. Dalam contoh ini, kita menggunakan konektor ProxyList. Karena kita sudah memiliki daftar proksi, maka tidak perlu mengautentikasi mereka di Scrapoxy. Namun, ingatlah bahwa setiap kali kita membuat konektor, kita harus memiliki instance kredensial untuk konektor tersebut. Dalam konektor ProxyList, kredensial hanya berfungsi sebagai penampung.

Pada bagian berikut ini, kami akan memandu Anda melalui proses penyiapan kredensial terlebih dahulu, diikuti dengan mengonfigurasi konektor ProxyList

  • Buka Antarmuka Pengguna Scrapoxy, buka proyek yang Anda inginkan dan pilih Marketplace:
  • Buat kredensial baru:
  • Pilih Daftar Proxy untuk membuat kredensial baru (gunakan pencarian jika perlu).
  • Isi formulir dengan memasukkan nama untuk kredensial ini dan klik "Buat"
  • Pada panel kiri klik "Konektor" dan buat konektor baru dan pilih Daftar Proxy sebagai penyedia:
  • Lengkapi formulir dengan informasi berikut:
    • Kredensial: Kredensial sebelumnya;
    • Nama Nama konektor;
    • # Proxy: Jumlah contoh yang akan dibuat.
    • Batas Waktu Proksi: Durasi maksimum untuk menyambung ke proxy sebelum menganggapnya sebagai offline;
    • Tendangan Proksi: Jika diaktifkan, durasi maksimum untuk proxy offline sebelum dihapus dari pool;
    • Batas Waktu Freeproxies: Sama seperti Batas Waktu Proksi tetapi untuk kumpulan freeproxies;
    • Freeproxies Kick: Sama seperti Proxies Kick tetapi untuk kumpulan freeproxies.

Menambahkan sumber proksi

  • Pada konektor, klik Update.
  • Rekatkan daftar proxy ProxyScrape ke dalam area teks dan klik ikon plus.

Scrapoxy mendukung format berikut:

  • ip:port
  • ip:port:nama pengguna:kata sandi
  • http://ip:port
  • http://username:password@ip:port
  • https://ip:port
  • https://username:password@ip:port
  • socks://ip:port (shortcut for socks5://ip:port)
  • socks://username:password@ip:port (shortcut for socks5://username:password@ip:port)
  • socks4://ip:port
  • socks4://username:password@ip:port
  • socks5://ip:port
  • socks5://username:password@ip:port

 Memulai konektor

  • Memulai proyek;
  • Mulai konektor.

Langkah 5: Integrasikan Scrapoxy ke dalam proses scraping web Anda.

Dalam contoh ini kami akan menunjukkan cara mengintegrasikan scrapoxy dengan pustaka HTTP Python yang terkenal, yaitu Request.

  • Menginstal perpustakaan
    • permintaan pemasangan pip
  • Mengambil sertifikat CA dan token proyek
    • Buka antarmuka Pengguna Scrapoxy, dan buka Pengaturan proyek;
    • Klik Unduh sertifikat CA dan simpan file (Ingat token proyek (formatnya adalah NAMA PENGGUNA:KATA SANDI);
  • Membuat dan menjalankan skrip
    • Buat sebuah file bernama requests.py dengan konten berikut ini:
import requests
ca = "/tmp/scrapoxy-ca.crt"
proxy = "http://USERNAME:PASSWORD@localhost:8888"
r = requests.get(
   "https://fingerprint.scrapoxy.io",
   proxies={"http": proxy, "https": proxy},
   verify=ca
)
print("proxy instance:", r.headers["x-scrapoxy-proxyname"])
print(r.json())

Ganti NAMA PENGGUNA dan KATA SANDI dengan kredensial yang telah Anda salin sebelumnya.

Scrapoxy menyertakan header x-scrapoxy-proxyname di setiap respons, yang menunjukkan nama instance proxy yang ditetapkan untuk permintaan tersebut.

Untuk contoh-contoh implementasi Scrapoxy lainnya, kami mengundang Anda untuk menjelajahi tautan ini.

Praktik Terbaik untuk Scraping Web yang Efektif

Untuk memanfaatkan ProxyScrape dan Scrapoxy secara maksimal, pertimbangkan praktik-praktik terbaik berikut ini:

  • Putar Proksi: Putar proxy secara teratur untuk menghindari deteksi dan pemblokiran.
  • Kelola Tarif Permintaan: Jaga agar tarif permintaan Anda tetap wajar untuk mencegah situs web target kelebihan beban.
  • Tetap Tidak Terdeteksi: Gunakan header dan cookie untuk meniru perilaku manusia dan menghindari menarik perhatian pada aktivitas penggosokan Anda.

Kasus Penggunaan Dunia Nyata 

Katakanlah Anda sedang mengikis data produk dari situs web e-commerce. Dengan mengintegrasikan ProxyScrape dengan Scrapoxy, Anda dapat melakukannya:

  • Mengambil URL Produk: Gunakan proksi ProxyScrape untuk mengumpulkan URL produk tanpa diblokir.
  • Ekstrak Detail Produk: Putar proksi dengan Scrapoxy untuk mengikis detail produk seperti harga, ketersediaan, dan ulasan
  • Menyimpan Data Secara Efisien: Menyimpan data yang diekstrak ke database untuk dianalisis.

Kesimpulan

Mengintegrasikan ProxyScrape dengan Scrapoxy menawarkan solusi tanpa batas untuk pengikisan web yang efisien. Dengan menggunakan proxy untuk menjaga anonimitas, melewati batasan, dan mengelola tingkat permintaan, Anda dapat meningkatkan kemampuan ekstraksi data secara signifikan.

Siap untuk membawa scraping web Anda ke level selanjutnya? Daftar ke ProxyScrape hari ini dan mulai integrasikan dengan Scrapoxy untuk pengalaman scraping yang lancar, efisien, dan kuat.

Kami ingin mendengar pengalaman Anda dengan ProxyScrape dan Scrapoxy! Bagikan kisah sukses, tantangan, dan tips Anda pada kolom komentar di bawah ini. Dan jangan lupa untuk menjelajahi lebih banyak konten tentang web scraping di blog kami. Selamat melakukan scraping!