logo proxyscrape gelap

Bagaimana Saya Menjadi "Jutawan" Utama

Feb-01-20245 menit baca

~ Sebuah kisah webscraping oleh Arya - Seorang pengguna ProxyScrape

Untuk memperjelas, saya diharuskan untuk membuat penafian bahwa saya bukan perwakilan resmi dari ProxyScrape. Namun, saya adalah penggemar berat dan pelanggan layanan mereka. Jika Anda belum menggunakan layanan mereka, saya sangat menyarankan Anda untuk menggunakannya! Pendapat dan pemikiran berikut ini sepenuhnya adalah milik saya sendiri.


"Oh $!*^, tidak mungkin"

Itulah sentimen yang saya temukan dalam hati saya pada pukul 3 pagi, bergulat dengan kesadaran bahwa perusahaan yang dulunya trendi seperti pengantaran susu, sesuatu yang kebanyakan orang akan menganggapnya sebagai era musik disko dan pakaian neon yang liar, masih menendang-nendang seperti potongan rambut tahun 80-an yang buruk - dan sayangnya, ada di mana-mana.

Perusahaan ini adalah perusahaan yang sangat hebat pada masa jayanya. Maksud saya, Anda tidak bisa menghindarinya selama masa kejayaannya. Sekarang, namanya hanya digumamkan dengan sedikit nostalgia di rumah-rumah jompo.

"YellowPages."

Anda mungkin bertanya-tanya, "Mengapa hal ini penting? Mengapa ada orang yang harus peduli? Mengapa ini bukan TikTok berusia 30-an tahun dengan seorang pria yang sedang bermain GTA 5 di bagian lainnya?" Nah, salah satu penggunaan terpanas dari web scraping adalah penemuan dan pembuatan prospek. Di negeri ajaib kapitalis kita di mana semua orang menjajakan omong kosong gila, masuk akal untuk menjelajahi internet untuk mencari orang yang akan "HODL" dan "FOMO" ke dalam timeshare kripto Anda yang berbentuk seperti "setengah belah ketupat". Dan hei, untuk memperjelas, "ini BUKAN skema piramida... ini hanya berbentuk seperti benda-benda runcing yang terkenal di Mesir."

So, here’s the kicker. One of the absolute gems for B2B lead generation, in my humble opinion, is none other than YellowPages (or Yell for you “chewsday” people). Why? Well, let me break it down:

  1. "dinding rasa malu": Peninggalan-peninggalan yang belum cukup mengikuti era internet masih nongkrong di sana. Bisnis kakek Anda mungkin sedang merana di sana, sama seperti SMMA yang Anda mulai karena TikToks dan berhenti dalam waktu tiga bulan, yang sekarang diabadikan di direktori bisnis Google.

  1. "Saya tidak seperti gadis-gadis lain": Sementara para pengikis berwajah segar percaya bahwa Google Maps adalah cawan suci untuk mendapatkan prospek bisnis kecil, setiap pengikis yang cerdas tahu bahwa itu adalah omong kosong - sudah jenuh, setiap anak berusia 14 tahun yang terinspirasi oleh seorang pria botak telah melecehkan bisnis-bisnis tersebut.

  1. "seperti mengambil permen dari seorang bayi": Situs web YellowPages dan situs web turunannya tidak memiliki perlindungan sedikit pun. Saya bisa mengikis setiap bisnis dalam direktori mereka dalam hitungan detik. Kita berbicara tentang PULUHAN JUTA prospek di sini.

Tentu saja, ini mungkin bukan kata kunci di kalangan pemasaran, tetapi di situlah letak peluangnya. Ketika orang lain mengejar tren terbaru, beberapa orang yang cerdas mengenali potensi di sudut-sudut internet yang terlupakan. YellowPages mungkin merupakan peninggalan masa lalu, namun dalam dunia lead generation, YellowPages adalah peninggalan dengan potensi yang belum dimanfaatkan dan peta jalan menuju kesuksesan.

Sekarang, Anda mungkin bertanya, "Bagaimana cara memanfaatkan kesempatan seperti ini?" - Mari kita telusuri setiap langkahnya bersama-sama, dan mudah-mudahan, bahkan beberapa dari Anda para Neanderthal akan dapat mengikis habis YellowPages di akhir tulisan ini.

Kami akan melakukan pendekatan seperti yang kami lakukan pada situs web lainnya. Langkah pertama adalah mencari tahu bagaimana cara kerja situs web ini. Ini biasanya mengharuskan Anda, ya, Anda, untuk mencari tahu cara menavigasi ke tempat data yang menarik itu berada. Tidak!!!*^... bagaimana Anda bisa mengekstrak data jika Anda tidak bisa menemukannya dengan mudah?

Ditampilkan di atas: Halaman arahan YellowPages Kanadayang menjadi korban malang dari postingan ini.

Seperti yang bisa Anda lihat di atas pada halaman arahan mereka, ada dua input teks - satu untuk istilah pencarian Anda dan yang lainnya untuk lokasi. Mari kita isi dan lakukan pencarian; saya akan mencari "Dokter Gigi" di "Toronto, Ontario".

Ditampilkan di atas: Halaman hasil daftar YellowPages Kanada.

Setelah Anda mengetahui ABC Anda dan mengisinya serta berhasil menemukan tombol pencarian DAN mengkliknya (saya terkesan), Anda akan diarahkan ke halaman seperti di atas yang memiliki jalur seperti berikut ini:

/search/si/1/Dokter Gigi/Toronto+ON

Kita dapat menyimpulkan struktur jalur berikut ini (ini akan berguna nanti):


/search/si/[Nomor Halaman]/[Istilah Pencarian]/[Wilayah]+[Kode Wilayah]

Hal lain yang perlu diperhatikan, kita telah menemukan data yang kita inginkan, daftar bisnis - mari kita cari tahu dari mana daftar bisnis ini dimuat, seharusnya dikirim di dalam dokumen ATAU diambil dari titik akhir API (atau jika Anda tidak yakin, dan percayalah, saya pernah melihatnya - websockets).

Ditunjukkan di atas: Permintaan fetch/XHR yang berasal dari halaman. (Spoiler: data tidak ada di salah satu dari mereka.)

Ditampilkan di atas: Daftar bisnis di dalam dokumen. (OMGEEE Data tersebut sebenarnya ada di dalam dokumen).

Ketika kami menyaring permintaan API, mencari data, terbukti sia-sia. Kami kemudian mengalihkan perhatian kami ke HTML. Sekarang, inilah sedikit wawasan untuk Anda - setelah "menjelajahilanskap digital selama lebih dari satu dekade", saya tahu secara naluriah bahwa data tersebut ada di dalam dokumen, berkat daya tanggap halaman yang cepat.

Namun, mari kita jujur saja. Mengingat status YellowPages sebagai perusahaan buku telepon yang sangat mencari relevansi dan, yang lebih penting lagi, pendapatan, tidak mungkin mereka memamerkan tumpukan teknologi mutakhir. Kemungkinan mereka mempekerjakan pengembang yang memamerkan kemeja flanel dan memiliki lima puluh aplikasi to-do berbasis React di resume mereka sangat kecil. Jadi, apakah kita benar-benar terkejut karena halaman webnya statis?

Namun demikian, daftar di dalam halaman terkandung dalam sebuah div, yang dapat diekstrak dengan menggunakan pemilih "div.resultList". Setiap daftar individual, yang tersusun secara nyaman di dalam elemen yang disebutkan di atas, dapat diekstrak dengan selektor div[itemtype="http://schema.org/LocalBusiness] 

Saya akan membiarkan Anda mencari cara untuk mengekstrak data secara individual di luar tingkat perincian ini; jika tidak, kita akan berada di sini selamanya. Gunakan atribut "itemprop" - atribut ini akan sangat memudahkan prosesnya untuk Anda.

Sekarang, untuk mengotomatiskan ekstraksi: Anda harus menomori hasil dengan menggunakan URL (ingat kembali struktur jalur yang telah kita bahas sebelumnya), mengekstrak elemen dan data dari setiap halaman sampai Anda mencapai halaman kosong. Saya pribadi memilih untuk menggunakan Rust untuk proyek ini karena cepat dan menyediakan paralelisasi yang mudah (yang akan menjadi penting sebentar lagi), dengan memanfaatkan peti "reqwest" dan "select" untuk menangani pekerjaan berat. Dan inilah beberapa tips pro: ingatlah untuk merotasi agen pengguna Anda, atur perujuk Anda dengan benar, gunakan proxy, dan TOLONG jangan melakukan DDOS.

Ditampilkan di atas: Halaman hasil kosong YellowPages.

Your script should be good to go now. But how can we elevate this even further? Let’s put our singular combined brain cell to work and ponder… “Do we need to sequentially request each page?” Absolutely not. YellowPages makes it remarkably easy for us to parallelize this process by providing the number of pages available for the query – hint, hint, wink, wink.

Ditampilkan di atas: Jumlah halaman YellowPages di bagian bawah halaman hasil.

Namun, ada satu peringatan untuk strategi paralelisasi ini: Meskipun YellowPages mungkin menyarankan lebih dari 60 halaman hasil yang ada, mencoba mengakses halaman apa pun di luar 60 pada hasil tidak akan dirender. Oleh karena itu, tetapkan batas keras untuk paralelisasi Anda pada 60. Dengan asumsi bandwidth dan daya komputasi yang memadai - setiap halaman hasil harus di-scrape dalam waktu yang sama dengan waktu yang dibutuhkan untuk mengikis satu halaman dalam model sekuensial.

Ditampilkan di atas: Contoh data daftar YellowPages yang diekstrak.

Sekarang, Anda mungkin bertanya-tanya, apakah ini clickbait? Apa hubungan kata "jutawan" dengan semua ini? Nah, jika Anda telah mengikuti dan sekarang memiliki skrip fungsional, saya mungkin atau mungkin tidak dapat membuktikan secara pribadi bahwa tidak ada yang menghentikan Anda untuk secara teoritis mengulangi setiap kota di Kanada dan menarik setiap daftar bisnis dari kueri di kota tersebut dari YellowPages. Data ini mungkin secara harfiah memiliki nilai dolar dalam jutaan jika ditambah dengan benar, tetapi juga secara harfiah jutaan bisnis dalam direktori mereka yang sekarang berada dalam jangkauan Anda.

YellowPages mungkin membangkitkan kenangan masa lalu, potensinya untuk menghasilkan prospek B2B tetap menjadi harta karun tersembunyi dalam lanskap digital. Dengan menavigasi keunikan antarmuka web statisnya, mengikis data dari platform yang tampaknya sudah ketinggalan zaman ini mengungkap beragam prospek bisnis. Sifat YellowPages yang terabaikan dan kurang dimanfaatkan membuatnya menjadi peluang yang unik.

Satu-satunya tujuan saya adalah postingan blog ini tidak akan membuat Anda berpikir "harta karun yang sesungguhnya adalah teman-teman yang kami jalin sepanjang perjalanan" - saya harap ini menunjukkan peluang unik yang ada terutama dengan keahlian yang banyak dari kita anggap remeh dan juga mudah-mudahan, menjadi bacaan yang menarik bagi Anda yang sudah berpengalaman dalam bidang ini, dan memberikan wawasan bagi Anda yang belum berpengalaman.

Seperti biasa, tetaplah aman, gunakan pelindung, dan demi Tuhan... jangan lakukan sesuatu yang membuat FBI akan mengejar Anda - yah... dalam hal ini adalah RCMP.

Ditampilkan di atas: Setara dengan FBI Kanada - RCMP.