Cara Setting Robbot Txt Yang Benar Ala seonalizer
Robots.txt: Fungsi, Cara Kerja, dan Bahaya Salah Setting yang Sering Terjadi
Kalau kamu sudah mulai serius mengurus SEO, pasti cepat atau lambat akan ketemu yang namanya robots.txt. File kecil ini kelihatannya sepele, tapi sebenarnya punya pengaruh besar terhadap bagaimana mesin pencari membaca website kita.
Masalahnya, banyak blogger mengedit robots.txt tanpa benar-benar paham cara kerjanya. Akibatnya, bukan ranking yang naik, malah artikel hilang dari Google. Nah, di artikel ini kita bakal bahas robots.txt dari dasar, pelan-pelan, pakai bahasa santai, biar benar-benar paham dan tidak salah langkah.
Apa Itu Robots.txt?
Robots.txt adalah file teks sederhana yang berisi instruksi untuk mesin pencari, seperti Googlebot, tentang halaman mana yang boleh dan tidak boleh di-crawl. File ini biasanya terletak di root domain, misalnya di namasitus.com/robots.txt.
Perlu dipahami satu hal penting, robots.txt bukan alat untuk menghapus halaman dari Google. Robots.txt hanya mengatur proses crawling, bukan indexing. Jadi kalau sampai di sini saja sudah salah paham, setting berikutnya bisa berantakan.
Kenapa Robots.txt Itu Penting?
Robots.txt membantu Google fokus ke halaman yang benar-benar penting. Dengan setting yang tepat, crawl budget bisa digunakan untuk artikel utama, bukan habis untuk halaman pencarian, label, atau URL duplikat.
Selain itu, robots.txt juga bisa membantu mengurangi duplicate content, menjaga performa SEO, dan membuat website lebih rapi di mata mesin pencari.
Cara Kerja Robots.txt Secara Sederhana
Ketika Googlebot datang ke website, hal pertama yang dicek adalah file robots.txt. Dari situ Googlebot akan membaca aturan yang kita buat, lalu memutuskan halaman mana yang boleh diakses dan mana yang harus dilewati.
Kalau kita mengizinkan semua halaman, Googlebot akan crawl semuanya. Tapi kalau kita memblokir bagian tertentu, Googlebot akan patuh dan tidak meng-crawl URL tersebut.
Isi Dasar Robots.txt
Robots.txt hanya punya beberapa perintah utama, tapi dampaknya besar. Yang paling sering dipakai adalah User-agent, Allow, dan Disallow.
User-agent digunakan untuk menentukan bot mana yang kita atur. Tanda bintang (*) artinya semua bot mesin pencari.
Allow berarti URL boleh di-crawl, sedangkan Disallow berarti URL tidak boleh di-crawl.
Contoh Robots.txt Sederhana
Contoh paling dasar biasanya seperti ini:
User-agent: * Allow: /
Artinya, semua mesin pencari boleh meng-crawl seluruh halaman website.
Kesalahan Fatal Saat Setting Robots.txt
Di sinilah banyak masalah mulai muncul. Salah satu kesalahan paling fatal adalah tanpa sengaja memblokir seluruh website.
Contohnya seperti ini:
User-agent: * Disallow: /
Setting ini artinya semua halaman di website tidak boleh di-crawl. Kalau ini sampai aktif, jangan kaget kalau trafik organik anjlok dalam waktu singkat.
Robots.txt Bukan Noindex
Banyak orang mengira robots.txt bisa digunakan untuk noindex. Padahal ini pemahaman yang keliru. Robots.txt hanya mencegah crawling, bukan menghapus halaman dari indeks Google.
Kalau sebuah halaman sudah terlanjur terindeks lalu diblok lewat robots.txt, Google justru tidak bisa membaca meta noindex di halaman tersebut. Akibatnya, halaman bisa tetap muncul di Google tanpa deskripsi.
Cerita Nyata: Dampak Salah Setting Robots.txt
Tidak sedikit website yang tiba-tiba kehilangan hampir seluruh trafiknya hanya karena salah edit robots.txt. Biasanya berawal dari niat baik, misalnya ingin memblokir halaman sampah seperti search dan label.
Namun karena kurang teliti, yang terblokir justru folder utama atau struktur URL postingan. Akibatnya, Googlebot tidak lagi meng-crawl artikel penting.
Beberapa hari kemudian, ranking turun drastis. Dalam kasus ekstrem, halaman-halaman utama menghilang dari hasil pencarian.
Cara Aman Mengatur Robots.txt
Kalau kamu ingin bermain aman, jangan terlalu agresif. Fokuskan robots.txt hanya untuk memblokir halaman yang memang tidak penting untuk SEO, seperti halaman pencarian internal dan arsip.
Untuk kebutuhan noindex, jauh lebih aman menggunakan meta robots di dalam halaman, bukan mengandalkan robots.txt.
Tips Penting Sebelum Mengedit Robots.txt
Sebelum menyimpan perubahan, selalu gunakan fitur robots.txt Tester di Google Search Console. Dari sana kamu bisa melihat apakah Googlebot masih bisa mengakses artikel penting atau tidak.
Dan yang paling penting, lakukan perubahan sedikit demi sedikit. Jangan langsung mengubah banyak aturan sekaligus, karena sulit melacak kesalahan kalau terjadi masalah.
VERSI LENGKAP, AMAN, dan SESUAI PRAKTIK SEO TERKINI, khusus Blogger, dengan tujuan:
✅ Halaman statis (Pages) → NOINDEX
✅ Artikel/Post → TETAP DIINDEX
✅ Halaman sampah (label, search, archive) → NOINDEX
✅ Tidak mematikan crawl artikel penting
✅ ROBOTS.TXT LENGKAP (REKOMENDASI AMAN)
Paste di Blogger → Settings → Crawlers and indexing → Custom robots.txt
User-agent: *
Allow: /
# Blok halaman statis (Pages)
Disallow: /p/
# Blok halaman pencarian internal
Disallow: /search
Disallow: /search/
# Blok label & arsip
Disallow: /label/
Disallow: /feeds/
Disallow: /feeds/posts/
Disallow: /feeds/comments/
# Blok parameter URL sampah
Disallow: /*?updated-max=
Disallow: /*?max-results=
Disallow: /*?m=1
# Izinkan file penting
Allow: /feeds/posts/default?alt=rss
Allow: /feeds/posts/default?alt=json
Sitemap: https://www.seonalizer.com/sitemap.xml
🔍 PENJELASAN BIAR JELAS & TIDAK SALAH
1️⃣ Kenapa TIDAK pakai Noindex: di robots.txt
Google SUDAH TIDAK MENDUKUNG perintah:
Noindex:
❌ Jika dipakai → diabaikan Google
❌ Bisa bikin halaman tetap terindeks jika sudah pernah dicrawl
👉 Solusi benar:
Gunakan
Disallowdi robots.txtDAN/ATAU meta tag
noindexdi halaman
2️⃣ Kenapa halaman statis /p/ di-Disallow
Halaman statis biasanya:
Tentang Kami
Kontak
Disclaimer
Privacy Policy
➡ Tidak perlu ranking di Google
➡ Tidak perlu buang crawl budget
Disallow: /p/
3️⃣ Kenapa search, label, archive diblok
Ini penyebab duplicate content terbesar di Blogger:
/search?q=/label/seoArsip tanggal
Kalau dibiarkan:
❌ Konten duplikat
❌ CTR jelek
❌ Crawl boros
✅ WAJIB TAMBAHAN (INI PENTING)
Robots.txt TIDAK CUKUP untuk noindex halaman statis yang sudah terlanjur terindeks.
Tambahkan Meta Tag Noindex (PALING AMAN)
Di Theme → Edit HTML, cari <head> lalu tambahkan:
<b:if cond='data:blog.pageType == "static_page"'>
<meta name="robots" content="noindex, follow"/>
</b:if>
📌 Efek:
Halaman statis → PASTI NOINDEX
Link di dalamnya → tetap diikuti
Artikel → AMAN 100%
✅ KONFIGURASI IDEAL BLOG SEO (RINGKAS)
| Jenis Halaman | Index |
|---|---|
| Artikel/Post | ✅ YES |
| Halaman Statis | ❌ NO |
| Label | ❌ NO |
| Search | ❌ NO |
| Arsip | ❌ NO |
⚠️ KESALAHAN FATAL YANG SERING TERJADI
❌ Menulis Disallow: / (auto deindex semua)
❌ Pakai Noindex: di robots.txt doang
❌ Blok /2025/ atau struktur postingan
Penutup
Robots.txt memang terlihat sederhana, tapi efeknya bisa sangat besar. Dengan setting yang tepat, SEO bisa lebih rapi dan terarah. Sebaliknya, salah setting sedikit saja bisa membuat website kehilangan trafik secara perlahan.
Kalau masih ragu, lebih baik pakai konfigurasi aman daripada bereksperimen terlalu jauh. Dalam SEO, aman dan konsisten jauh lebih penting daripada agresif tapi berisiko.