ingin membantu? Berikut adalah pilihan Anda:","Crunchbase","Tentang Kami","Terima kasih kepada semua orang atas dukungan yang luar biasa!","Tautan Cepat","Program afiliasi","ProxyScrape uji coba premium","Pemeriksa Proksi Online","Jenis proxy","Negara-negara proksi","Kasus penggunaan proxy","Penting","Kebijakan cookie","Penafian","Kebijakan privasi","Syarat dan ketentuan","Media Sosial","Facebook","LinkedIn","Twitter","Quora","Telegram","Perselisihan"," © Hak Cipta 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belgia | PPN BE 0749 716 760"]}
Artikel ini akan membawa Anda dalam perjalanan menjelaskan cara melakukan web scraping untuk lowongan pekerjaan. Jadi, Anda sedang berada di pasar kerja dan mencoba mencari pekerjaan terbaik. Tetapi Anda ingin bermain lebih cerdas dan tidak lebih keras. Mengapa tidak membuat web scraper untuk mengumpulkan dan mengurai lowongan pekerjaan untuk Anda. Setelah Anda mengaturnya, ini akan memberi Anda kekayaan data dalam format yang rapi, sehingga Anda tidak perlu memeriksanya secara manual berulang kali. Mari kita mulai.
Web scraping untuk lowongan pekerjaan adalah solusi yang secara otomatis mengumpulkan data dari berbagai portal pekerjaan dan mengurangi waktu Anda dalam mengambil data dari setiap situs web. Memiliki alat yang dapat memberikan Anda database lengkap lowongan pekerjaan akan menyederhanakan tugas Anda beberapa kali lipat. Anda tinggal menyaring mana yang cocok untuk Anda dan melanjutkan dengan proses lamaran.
Jadi, Anda sedang berada di pasar kerja dan mencoba mencari pekerjaan terbaik. Tetapi Anda ingin bermain dengan lebih cerdas dan bukan lebih keras. Mengapa tidak membuat scraper web untuk mengumpulkan dan mengurai lowongan pekerjaan untuk Anda? Setelah Anda mengaturnya, ini akan memberi Anda kekayaan data dalam format yang rapi, sehingga Anda tidak perlu memeriksanya secara manual berulang kali. Mari kita mulai.
[Penafian! Banyak situs web yang dapat membatasi pengambilan data dari halaman mereka. Pengguna dapat terkena masalah hukum tergantung di mana dan bagaimana mereka mencoba mengekstrak informasi. Jadi, kita harus sangat berhati-hati jika melihat situs-situs yang menyimpan data mereka. Sebagai contoh, Facebook, Linked In, dan Craiglist terkadang keberatan jika data dihapus dari halaman mereka. Jadi, jika Anda ingin mengikis, lakukanlah dengan risiko Anda sendiri].
Ini akan menjadi artikel yang sangat mendasar di mana kita akan melihat dasar-dasar web scraping dengan mengekstrak beberapa informasi bermanfaat mengenai pekerjaan yang berhubungan dengan "Data Science" dari indeed.com. Kita akan menulis sebuah program luar biasa yang akan memperbarui pekerjaan beberapa kali secara manual. Beberapa library yang berguna yang akan sangat berguna saat membuat scraper ini adalah "requests" dan "BeautifulSoup."
Cara struktur URL sangat penting:
Struktur URL ini akan sangat membantu saat kami terus membangun scraper dan mengumpulkan data dari banyak halaman.
Chrome dapat memeriksa struktur HTML halaman dengan mengklik kanan dan menggunakan opsi periksa elemen. Sebuah menu akan muncul di sebelah kanan, dan juga akan menampilkan tag elemen bersarang, dan ketika Anda meletakkan kursor pada elemen tersebut, itu akan menyorot bagian layar tersebut.
Untuk artikel ini, saya kira Anda sudah mengetahui dasar-dasar tentang HTML seperti tag, div, dan lain-lain, tetapi untungnya Anda tidak perlu mengetahui semuanya. Anda hanya perlu memahami struktur halaman dan hirarki komponen yang berbeda.
Sekarang kita telah menganalisis struktur halaman. Ini akan membantu kita membuat kode sesuai dengan informasi tersebut untuk mengambil data yang kita inginkan. Mari kita mulai dengan mengimpor pustaka kita. Perhatikan bahwa di sini kita juga mengimpor "waktu", yang akan sangat membantu untuk tidak membebani server situs saat mengais informasi.
Pertama-tama kita akan menargetkan satu halaman untuk menarik setiap informasi yang kita inginkan,
Menggunakan prettify memudahkan Anda untuk mendapatkan gambaran umum tentang pengkodean HTML halaman dan memberikan keluaran seperti ini,
Sekarang semua informasi di halaman yang kita inginkan ada di variabel "sup". Kita harus menggali lebih dalam kode untuk mengulang berbagai tag dan sub-tag untuk mendapatkan informasi yang dibutuhkan.
Lima poin penting untuk setiap lowongan pekerjaan adalah,
Jika kita lihat di halaman tersebut, ada 15 lowongan pekerjaan. Oleh karena itu, kode kita juga harus menghasilkan 15 item yang berbeda. Namun, jika kode yang dihasilkan kurang dari itu, kita dapat merujuk kembali ke halaman tersebut dan melihat apa yang tidak ter-capture.
As can be seen, the entirety of each job posting is under <div> tags, with an attribute “class” = “row result.”
Further, we could also see that job titles are under <a> tags, with the attribute “title = (title)”. One can see the value of the tag’s attribute with tag[“attribute”], so I can use it to find each posting’s job title.
Jika kita rangkum, fungsi yang akan kita lihat melibatkan tiga langkah berikut ini,
Kode ini akan menghasilkan output seperti ini,
Getting company names can be a bit tricky because most of them are appearing in <span> tags, with “class”:” company”. They are also housed in <span> tags with “class”:” result-link-source”.
Kita akan menggunakan pernyataan if/else untuk mengekstrak informasi perusahaan dari masing-masing tempat ini. Untuk menghapus spasi putih di sekitar nama perusahaan ketika mereka di-output, kita akan menggunakan input.strip() di bagian akhir.
Locations are located under the <span> tags. Span tags are sometimes nested within each other, such that the location text may sometimes be within “class”:”location” attributes, or nested in “itemprop”:”addressLocality”. However a simple for loop can examine all span tags for text and retrieve the necessary information.
Gaji adalah bagian yang paling menantang untuk diekstrak dari lowongan pekerjaan. Sebagian besar lowongan tidak mempublikasikan informasi gaji sama sekali, sementara lowongan lain yang mempublikasikannya, mungkin ada beberapa tempat untuk mengambilnya. Jadi kita harus menulis kode yang dapat mengambil beberapa gaji dari beberapa tempat, dan jika tidak ada gaji yang ditemukan, kita perlu membuat nilai "Tidak Ditemukan" untuk setiap pekerjaan yang tidak mengandung gaji.
Some salaries are under <nobr> tags, while others are under <div> tags, “class”:”sjcl” and are under separate div tags with no attributes. Try/except statement can be helpful while extracting this information.
Tugas terakhir adalah mendapatkan ringkasan pekerjaan. Namun, ringkasan pekerjaan untuk setiap posisi tertentu tidak dapat diperoleh karena tidak disertakan dalam HTML dari halaman Indeed. Kita bisa mendapatkan beberapa informasi tentang setiap pekerjaan dari apa yang disediakan. Kita dapat menggunakan Selenium untuk tujuan ini.
But let’s first try this using python. Summaries are located under <span> tags. Span tags are nested within each other such that the location text is within “class”:” location” tags or nested in “itemprop”:” adressLocality”. However, using a simple for loop can examine all span tags for text to retrieve the necessary information.
Pada artikel ini, kita telah melihat apa itu web scraping dan bagaimana web scraping dapat membantu dalam kehidupan kita sehari-hari dengan mengambil contoh praktis untuk mengambil data pekerjaan dari halaman web Indeed. Harap dicatat bahwa hasil yang Anda dapatkan mungkin berbeda dari hasil ini karena halamannya dinamis, sehingga informasinya terus berubah seiring berjalannya waktu.
Web Scraping adalah teknik yang luar biasa jika dilakukan dengan benar dan sesuai dengan kebutuhan Anda. Kita telah melihat lebih jauh lima aspek penting dari setiap lowongan pekerjaan dan cara mengekstraknya. Ketika Anda mencoba kode ini sendiri, Anda akan mendapatkan data lowongan pekerjaan, dan Anda tidak perlu mencari pekerjaan secara manual, dan itu luar biasa. Teknik yang sama juga dapat diterapkan pada halaman web lain, tetapi strukturnya mungkin berbeda. Oleh karena itu, kita perlu mengoptimalkan kode sesuai dengan itu. Tapi semua dasar-dasarnya sudah tercakup dalam artikel ini, jadi tidak akan ada kesulitan dalam mengikis halaman lain juga.