ingin membantu? Berikut adalah pilihan Anda:","Crunchbase","Tentang Kami","Terima kasih kepada semua orang atas dukungan yang luar biasa!","Tautan Cepat","Program afiliasi","ProxyScrape uji coba premium","Pemeriksa Proksi Online","Jenis proxy","Negara-negara proksi","Kasus penggunaan proxy","Penting","Kebijakan cookie","Penafian","Kebijakan privasi","Syarat dan ketentuan","Media Sosial","Facebook","LinkedIn","Twitter","Quora","Telegram","Perselisihan"," © Hak Cipta 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belgia | PPN BE 0749 716 760"]}
Ketika Anda mengikis data dari situs web berskala besar, kecil kemungkinannya Anda tidak perlu menghadapi CAPTCHA untuk membuktikan bahwa Anda adalah manusia. Sebagai seorang pengikis web, Anda mungkin sudah tahu mengapa para profesional keamanan siber terpaksa menciptakannya. Itu adalah hasil dari bot Anda yang mengotomatiskan permintaan situs web yang tak ada habisnya untuk mengaksesnya. Jadi, bahkan pengguna asli pun harus mengalami kesulitan dalam menghadapi CAPTCHA yang muncul dalam berbagai bentuk. Namun, Anda bisa melewati CAPTCHA, baik Anda seorang web scraper atau bukan, yang akan menjadi tujuan dari artikel ini. Tapi pertama-tama, mari kita pelajari apa itu CAPTCHA.
CAPTCHA adalah singkatan dari Completely Automated Public Turing Test untuk membedakan Komputer dan Manusia. Akronim yang cukup panjang, bukan? Sekarang Anda mungkin bertanya-tanya apa arti bagian terakhir dari akronim ini, yaitu Turing Test - ya, ini adalah tes sederhana untuk menentukan apakah manusia atau bot yang berinteraksi dengan halaman web atau server web.
Bagaimanapun juga, CAPTCHA membedakan manusia dari bot, membantu analis keamanan siber melindungi server web dari serangan brute force, DDoS, dan dalam beberapa situasi, web scraping.
Mari kita cari tahu bagaimana CAPTCHA membedakan manusia dari bot.
Anda dapat menemukan CAPTCHA dalam bentuk situs web, termasuk formulir kontak, pendaftaran, komentar, pendaftaran, atau check-out.
CAPTCHA tradisional menyertakan gambar dengan huruf, angka, atau keduanya yang direnggangkan atau diburamkan dalam sebuah kotak dengan warna latar belakang atau latar belakang transparan. Kemudian Anda harus mengidentifikasi karakter dan mengetikkannya di bidang teks yang mengikuti. Proses mengidentifikasi karakter ini lebih mudah bagi manusia tetapi agak rumit bagi bot.
Di sisi lain, beberapa bot canggih dapat mencegat huruf yang terdistorsi dengan bantuan pembelajaran mesin selama bertahun-tahun. Sebagai hasilnya, beberapa perusahaan seperti Google mengganti CAPTCHA konvensional dengan CAPTCHA yang canggih. Salah satu contohnya adalah ReCAPTCHA yang akan Anda temukan di bagian selanjutnya.
ReCAPTCHA adalah layanan gratis yang ditawarkan Google. Layanan ini meminta pengguna untuk mencentang kotak daripada mengetik teks, memecahkan teka-teki, atau persamaan matematika.
ReCAPTCHA yang khas lebih canggih daripada bentuk CAPTCHA konvensional. ReCAPTCHA ini menggunakan gambar dan teks dunia nyata seperti lampu lalu lintas di jalan, teks dari koran lama, dan buku cetak. Sebagai hasilnya, pengguna tidak perlu bergantung pada CAPTCHA jadul dengan teks yang buram dan terdistorsi.
Ada tiga jenis tes ReCAPTCHA yang penting untuk memverifikasi apakah Anda seorang manusia atau bukan:
Ini adalah ReCAPTCHA yang meminta pengguna untuk mencentang kotak centang, "Saya bukan robot" seperti pada gambar di atas. Meskipun secara kasat mata terlihat bahwa bot pun dapat menyelesaikan tes ini, ada beberapa faktor yang dipertimbangkan:
Jika ReCAPTCHA gagal memverifikasi bahwa Anda adalah manusia, maka Anda akan menghadapi tantangan lain.
ReCAPTCHA ini menyediakan pengguna dengan sembilan atau enam belas gambar persegi seperti yang dapat Anda lihat pada gambar di atas. Setiap kotak mewakili bagian dari gambar yang lebih besar atau gambar yang berbeda. Pengguna harus memilih kotak yang mewakili objek, hewan, pohon, kendaraan, atau lampu lalu lintas tertentu.
Jika pilihan pengguna cocok dengan pilihan pengguna lain yang telah melakukan tes yang sama, maka pengguna tersebut terverifikasi. Jika tidak, ReCAPTCHA akan memberikan tes yang lebih menantang.
Tahukah Anda bahwa ReCAPTCHA dapat memverifikasi apakah Anda manusia atau bukan tanpa menggunakan kotak centang atau interaksi pengguna apa pun?
Tentu saja dengan mempertimbangkan riwayat pengguna dalam berinteraksi dengan situs web dan perilaku umum pengguna saat online. Dalam sebagian besar skenario, berdasarkan faktor-faktor ini, sistem akan dapat menentukan apakah Anda seorang bot.
Kegagalan untuk melakukannya akan kembali ke salah satu dari dua metode yang disebutkan sebelumnya.
CAPTCHA dapat dipicu jika situs web mendeteksi aktivitas yang tidak biasa yang menyerupai perilaku bot; Perilaku yang tidak biasa tersebut termasuk permintaan tak terbatas dalam hitungan detik dan mengklik tautan dengan kecepatan yang jauh lebih tinggi daripada manusia.
Kemudian beberapa situs web secara otomatis memiliki CAPTCHA untuk melindungi sistem mereka.
Sejauh menyangkut ReCAPTCHA, tidak jelas benar apa yang memicunya. Namun, penyebab umumnya adalah pergerakan mouse, riwayat penjelajahan, dan pelacakan cookie.
Sekarang Anda memiliki gambaran yang jelas tentang apa itu CAPTCHA dan Rechaptcha, bagaimana cara kerjanya, dan apa yang memicunya. Sekarang saatnya untuk melihat bagaimana CAPTCHA memengaruhi web scraping.
CAPTCHA dapat menghambat penggalian web karena bot otomatis melakukan sebagian besar operasi penggalian. Namun, jangan berkecil hati. Seperti yang telah disebutkan di awal artikel ini, ada beberapa cara untuk mengatasi CAPTCHA saat melakukan scraping web. Sebelum kita membahasnya, mari kita bahas apa saja yang perlu Anda perhatikan sebelum melakukan scraping.
Saat Anda terhubung ke sebuah situs web, Anda mengirimkan informasi tentang perangkat Anda ke situs web yang terhubung. Mereka dapat menggunakan informasi ini untuk menyesuaikan konten dengan spesifikasi perangkat Anda dan pelacakan metrik. Jadi, ketika mereka mengetahui bahwa permintaan tersebut berasal dari perangkat yang sama, permintaan apa pun yang Anda kirimkan setelahnya akan diblokir.
Fakta lain yang harus Anda ketahui adalah bahwa situs web target belum memasukkan alamat IP Anda ke dalam daftar hitam. Mereka cenderung memasukkan alamat IP Anda ke dalam daftar hitam ketika Anda mengirimkan terlalu banyak permintaan dengan scraper/crawler Anda.
Memutar header HTTP dan proxy (lebih lanjut tentang hal ini di bagian berikutnya) dengan pool akan memastikan bahwa beberapa perangkat mengakses situs web dari lokasi yang berbeda. Jadi, Anda seharusnya dapat melanjutkan scraping tanpa gangguan dari CAPTCHA. Dengan demikian, Anda harus memastikan bahwa Anda tidak merusak kinerja situs web dengan cara apa pun.
Selain faktor-faktor kunci di atas, Anda perlu mengetahui CAPTCHA di bawah ini saat melakukan scraping web dengan bot:
Hanya mengubah agen pengguna saja tidak akan cukup karena Anda perlu memiliki daftar string agen pengguna dan kemudian memutarnya. Rotasi ini akan mengakibatkan situs web target melihat Anda sebagai perangkat yang berbeda, padahal pada kenyataannya, satu perangkat mengirimkan semua permintaan.
Sebagai praktik terbaik untuk langkah ini, akan lebih baik jika Anda menyimpan basis data agen pengguna yang sebenarnya. Selain itu, hapuslah cookie ketika Anda tidak lagi membutuhkannya.
Metode teknis yang lebih sederhana dan mudah untuk memecahkan CAPTCHA adalah dengan menggunakan layanan pemecahan CAPTCHA. Layanan ini menggunakan Kecerdasan Buatan (AI), Pembelajaran Mesin (MI), dan gabungan teknologi lainnya untuk memecahkan CAPTCHA.
Ketika Anda membiarkan scraper Anda mengakses URL secara langsung setiap sepersekian detik, maka situs web penerima akan curiga. Akibatnya, situs web target akan memicu CAPTCHA.
Untuk menghindari skenario seperti itu, Anda dapat mengatur tajuk perujuk untuk membuatnya tampak seperti dirujuk dari halaman lain. Ini akan mengurangi kemungkinan terdeteksi sebagai bot. Atau, Anda dapat membuat bot mengunjungi halaman lain sebelum mengunjungi tautan yang diinginkan.
Honeypot adalah elemen tersembunyi pada halaman web yang digunakan oleh para ahli keamanan untuk menjebak bot atau penyusup. Meskipun peramban merender HTML-nya, properti CSS-nya diatur untuk disembunyikan. Namun, tidak seperti manusia, kode honey pot akan terlihat oleh bot ketika mereka mengorek data. Akibatnya, mereka jatuh ke dalam perangkap yang dibuat oleh honeypot.
Jadi, Anda harus memastikan bahwa Anda memeriksa properti CSS dari semua elemen di halaman web tidak tersembunyi atau tidak terlihat sebelum Anda mulai melakukan scraping. Hanya setelah Anda yakin bahwa tidak ada elemen yang tersembunyi, barulah Anda mengatur bot Anda untuk melakukan scraping.
Artikel ini akan memberikan Anda gambaran yang komprehensif tentang cara menghindari CAPTCHA saat melakukan scraping web. Menghindari CAPTCHA bisa menjadi proses yang rumit. Namun, dengan menggunakan teknik-teknik khusus yang dibahas dalam artikel ini, Anda dapat mengembangkan bot sedemikian rupa untuk menghindari CAPTCHA.
Kami harap Anda dapat memanfaatkan semua teknik yang dibahas dalam artikel ini.