Dalam mengelola situs web, Anda tidak hanya memerlukan konten berkualitas dan desain yang menarik, namun juga memastikan aspek teknis pada situs web Anda yang dapat mendukung performa website secara keseluruhan. Dalam hal ini, robots.txt adalah salah satu elemen teknis penting yang tidak boleh diabaikan.
Anda mungkin sudah tidak asing dengan format “.txt”, yaitu format file teks yang dapat digunakan untuk menulis di komputer. Perbedaannya, robots.txt ini adalah file teks yang diupload di situs web sebagai instruksi untuk mesin pencari dalam menjelajahi sebuah website.
Artikel ini akan membahas apa itu robots.txt, bagaimana cara kerjanya, hingga cara membuat dan mengoptimasi robots.txt untuk mendukung strategi SEO situs web Anda.
Apa itu Robots.txt?
Dilansir dari Cloudflare, robots.txt adalah file teks yang memberikan instruksi kepada web crawler atau bot mesin pencari tentang halaman mana yang boleh dan tidak boleh diakses pada suatu situs web. Dengan kata lain, robots.txt adalah alat untuk mengontrol perilaku bot ketika merayapi situs web Anda.
Robots.txt biasanya berada di root directory situs web Anda, yang artinya Anda dapat mengaksesnya dengan mengetik “robots.txt” secara langsung pada URL domain situs Anda, misalnya “https://depici.com/robots.txt”.
Pada umumnya, kebanyakan web crawler akan mematuhi aturan-aturan yang ada di robots.txt. Meskipun, tidak sedikit web crawler yang tidak support atau web crawler ‘jahat’ tidak mematuhi aturan ini.
Misalnya, jika Anda memiliki halaman yang tidak ingin muncul di hasil pencarian, Anda dapat menggunakan robots.txt untuk memblokir akses bot ke halaman tersebut. File ini juga penting untuk mencegah bot membuang waktu dan resources server dengan meng-crawl halaman yang tidak penting.
Contoh robots.txt adalah seperti ini:
Perbedaan Robots.txt, Meta Robots Tag, dan X-Robots
Jika kita membahas tentang mengelola akses bot, ketiga alat yang biasa digunakan adalah robots.txt, meta robots tag, dan X-Robots. Meskipun begitu, terdapat beberapa fungsi yang berbeda:
- Robots.txt: File teks yang berlokasi di root directory situs web, dan digunakan untuk memberikan instruksi mengenai halaman mana yang boleh dan tidak boleh dirayapi kepada bot sebelum mereka mengakses halaman situs. Contohnya, memblokir seluruh direktori atau folder tertentu dari crawler.
- Meta Robots Tag: Kode meta tag yang ada di bagian <head> HTML halaman web yang berfungsi untuk mengontrol bagaimana halaman diindeks dan apakah link pada halaman tersebut boleh diikuti atau tidak (dofollow atau nofollow). Contohnya, menggunakan tag “<meta name=”robots” content=”noindex”>” untuk mencegah mesin pencari mengindeks halaman tertentu.
- X-Robots: Instruksi yang diberikan melalui Header HTTP yang memungkinkan kontrol lebih fleksibel. X-Robots ini biasanya digunakan untuk mengelola file non-HTML, seperti PDF atau gambar, dan file semacamnya.
Istilah dalam Robots.txt
Agar lebih mudah memahami robots.txt, berikut adalah beberapa istilah penting yang sering digunakan:
- User-agent: User-agent biasanya berada di baris pertama sebelum memberikan aturan lebih detail. User-agent merujuk pada nama dari bot atau crawler yang diberikan instruksi khusus. Misalnya, tambahkan “Googlebot” untuk memberikan instruksi khusus untuk Google atau gunakan tanda “*” untuk memberikan instruksi ke semua bot crawler.
- Disallow: Disallow adalah aturan atau instruksi yang menjelaskan bagian halaman web mana yang tidak boleh diakses oleh crawler. Jika aturannya melarang akses ke suatu halaman, Anda harus memberikan URL lengkap halaman. URL harus diawali dengan tanda “/”, misalnya /admin/ untuk melarang akses ke halaman admin di situs web Anda. Jika tidak ada aturan disallow, artinya Anda mengizinkan bot mengakses semua halaman.
- Allow: Perintah “allow” memungkinkan bot untuk merayapi halaman spesifik, bahkan jika directory halaman tersebut dilarang untuk diakses. Misal, Anda dapat melarang bot untuk merayapi directory “/blog/” tapi memperbolehkan akses ke “/blog/apa-itu-robots-txt/”.
- Sitemap: Aturan ini digunakan untuk memberi tahu mesin pencari di mana lokasi sitemap XML website Anda berada. Anda harus memasukkan URL lengkap sitemap pada aturan sitemap di robots.txt ini, misal “https://depici.com/sitemap_index.xml”.
- Crawl-delay: Crawl-delay adalah instruksi untuk mengatur jeda waktu antar permintaan crawl oleh bot, biasanya digunakan untuk mencegah server overload. Perintah ini sudah tidak digunakan oleh Google, namun mesin pencari lain seperti Bing dan Yandex masih menggunakan aturan ini.
Cara Kerja Robots.txt
Ketika bot mesin pencari mengunjungi situs Anda, langkah pertama yang mereka lakukan adalah mencari file robots.txt di direktori utama website. Jika file tersebut ditemukan, bot akan membaca dan mematuhi aturan yang ada di dalamnya sebelum melanjutkan proses crawling.
Alur Kerja Sederhana:
- Bot mencari file robots.txt di direktori utama situs (misal, https://depici.com/robots.txt).
- Membaca dan mengikuti instruksi yang ada di file tersebut.
- Bot memutuskan untuk mengakses halaman yang diizinkan dan melewati yang dilarang berdasarkan instruksi tersebut.
Sebagai contoh, perhatikan isi file robots.txt di bawah:
User-agent: *
Allow: /
Disallow: /?s=
Sitemap: https://depici.com/sitemap_index.xml
Berdasarkan robots.txt tersebut, Anda dapat melihat tanda “*” yang berarti instruksi ini diberlakukan untuk semua bot crawler. Bot crawler tidak boleh mengakses alamat “/?s=” yang ditandai dengan aturan disallow. Terakhir, bot crawler akan menerima informasi mengenai lokasi sitemap pada situs web.
Kenapa Robots.txt Penting?
File robots.txt memiliki beberapa manfaat penting, terutama terkait performa dan SEO situs:
Mengoptimalkan Crawl Budget Google
Mesin pencari memiliki batasan pada seberapa banyak halaman yang bisa mereka crawl, sehingga file robots.txt dapat membantu mengarahkan bot hanya ke halaman penting. Selain itu, Anda juga dapat mengurangi beban server sehingga situs web tetap dapat diakses dengan cepat oleh pengunjung manusia.
Meskipun saya menyebutkan mesin pencari memiliki batasan crawling, Google sendiri menyatakan bahwa pemilik website tidak perlu khawatir mengenai crawl budget, kecuali Anda pemilik situs besar dengan lebih dari 1 juta halaman unik dengan konten yang berubah setiap minggunya.
Menghindari Indeks untuk Halaman Tertentu
Dengan menggunakan robots.txt, Anda dapat mencegah mesin pencari dari melakukan crawling dan indexing halaman tertentu yang mungkin tidak penting atau halaman yang tidak boleh dilihat publik. Misalnya, Anda mungkin tidak ingin halaman admin atau staging yang tidak ingin ditampilkan ke mesin pencari.
Namun, Google sendiri menyatakan bahwa robots.txt ini tidak menjamin suatu halaman tidak akan diindeks oleh Google. Misalnya, jika ada website lain yang mengarahkan link ke halaman Anda, Google mungkin saja mengindeks halaman tersebut. Anda dapat menggunakan meta tag “noindex” agar Google tidak mengindeks halaman Anda.
Mengontrol Akses Bot
Dengan robots.txt, Anda dapat mengatur bagaimana perilaku bot crawler dalam merayapi halaman-halaman yang ada di situs web Anda. Anda dapat menentukan halaman apa saja yang perlu diakses dan mana yang tidak boleh diakses oleh bot crawler.
Cara Membuat Robots.txt
Anda dapat membuat robots.txt dengan mudah untuk semua website Anda, bahkan jika Anda tidak menggunakan CMS seperti WordPress sekalipun.
Membuat Robots.txt Manual
Anda dapat membuat robots.txt secara manual untuk semua jenis website, bahkan yang menggunakan CMS sekalipun. Berikut adalah langkah-langkah untuk membuat file robots.txt secara manual:
- Buka Editor Teks: Anda bisa membuat file robots.txt dengan editor teks sederhana seperti Notepad atau teks editor bawaan OS Windows Anda. Anda juga dapat langsung membuat .txt dokumen di server hosting Anda.
- Buat Instruksi: Tulis semua aturan atau instruksi yang sesuai dengan kebutuhan Anda. Untuk mempermudah, Anda dapat menggunakan tools bantuan online robots.txt generator.
- Simpan dan Upload File: Pastikan Anda menyimpan file Anda dengan nama “robots.txt”, pastikan juga formatnya benar-benar “.txt”. Setelah itu, upload file ke direktori utama website Anda.
- Periksa robots.txt: Tahap terakhir, Anda dapat memastikan robots.txt yang sudah dibuat dapat diakses dan bekerja dengan benar. Anda dapat mengaksesnya secara langsung di “https://depici.com/robots.txt” dengan alamat domain Anda.
Membuat Robots.txt di WordPress
Seperti biasa, CMS seperti WordPress memungkinkan Anda menggunakan bantuan plugin SEO yang dapat mempermudah optimasi SEO website Anda, termasuk dalam mengelola robots.txt. Pada contoh ini, saya akan menggunakan “Rank Math SEO”, namun Anda dapat menggunakan alternatif plugin lainnya yang memiliki setting cukup mirip.
- Install dan aktifkan plugin SEO yang Anda inginkan, pada kasus ini saya akan menggunakan Rank Math SEO untuk memberikan contoh.
- Pada dashboard WordPress, pergi ke Rank Math SEO > General Settings. Jika Anda tidak menemukannya, pastikan untuk mengaktifkan “Advanced Mode” di bagian “dashboard” Rank Math sebelah kanan atas.
- Tambahkan instruksi dan aturan yang Anda inginkan pada kolom yang diberikan untuk mengedit file robots.txt. Anda dapat menggunakan bantuan tools robots.txt generator yang dapat dicari secara online, misal dari SEOptimer, atau lainnya.
- Simpan, dan periksa robots.txt yang sudah Anda buat.
Anda dapat menggunakan contoh robots.txt situs web depici di bawah ini sebagai dasar membuat file robots.txt untuk situs Anda. Anda juga dapat membaca panduan lengkap dari Google mengenai langkah-langkah membuat robots.txt.
User-agent: *
Allow: /
Disallow: /?s=
Disallow: /page/*/?s=
Disallow: /search/
Disallow: /wp-json/
Disallow: /?rest_route=
Sitemap: https://depici.com/sitemap_index.xml
Tips Optimasi Robots.txt untuk SEO
Terdapat beberapa hal penting yang dapat Anda lakukan untuk memastikan robots.txt Anda teroptimasi dan membantu performa SEO dengan baik.
- Izinkan Akses ke Halaman Penting: Jangan memblokir halaman web yang perlu diindeks oleh mesin pencari, misalnya halaman konten artikel atau halaman produk.
- Gunakan Baris Berbeda: Anda perlu menggunakan baris berbeda untuk setiap perintah atau instruksi yang ada di robots.txt. Pada contoh di atas, Anda dapat melihat satu baris hanya memiliki satu instruksi saja.
- Buat robots.txt Baru Untuk Subdomain: Mesin pencari menganggap subdomain dan domain utama sebagai dua situs yang berbeda, sehingga Anda perlu membuat robots.txt baru untuk situs yang berada di subdomain berbeda.
- Validasi robots.txt: Pastikan Pastikan file robots.txt Anda selalu mencerminkan struktur dan kebutuhan situs terkini. Anda dapat melihat robots.txt di situs web Anda sudah terbaca atau belum di Google Search Console.
- Cantumkan Sitemap: Tambahkan link sitemap untuk membantu bot mengindeks konten penting di situs Anda.
- Jangan Gunakan Absolute URL: Jangan masukkan URL lengkap sebagai aturan di robots.txt, Anda perlu menggunakan relative URL seperti “/blog/” bukan “https://example.com/blog/”.
- Jangan Gunakan robots.txt Untuk Melindungi Data Sensitif: Robots.txt hanya memberi instruksi kepada bot yang mematuhi aturan. Data sensitif harus dilindungi dengan langkah lain, seperti autentikasi dengan password dan memberikan meta tag “noindex”.
Kesimpulan
Robots.txt adalah alat sederhana namun sangat berguna untuk mengelola bagaimana bot crawler mengakses halaman situs web Anda. Dengan memahami cara kerjanya, Anda dapat meningkatkan efisiensi crawling dan memaksimalkan technical SEO website Anda dengan lebih baik.
Jangan lupa untuk melakukan pengecekan file robots.txt Anda secara berkala untuk memastikan file ini tetap sesuai dengan kebutuhan situs web Anda.