Cara Setting Robbot Txt Yang Benar Ala seonalizer

Robots.txt: Fungsi, Cara Kerja, dan Bahaya Salah Setting yang Sering Terjadi

Kalau kamu sudah mulai serius mengurus SEO, pasti cepat atau lambat akan ketemu yang namanya robots.txt. File kecil ini kelihatannya sepele, tapi sebenarnya punya pengaruh besar terhadap bagaimana mesin pencari membaca website kita.

Masalahnya, banyak blogger mengedit robots.txt tanpa benar-benar paham cara kerjanya. Akibatnya, bukan ranking yang naik, malah artikel hilang dari Google. Nah, di artikel ini kita bakal bahas robots.txt dari dasar, pelan-pelan, pakai bahasa santai, biar benar-benar paham dan tidak salah langkah.

Apa Itu Robots.txt?

Robots.txt adalah file teks sederhana yang berisi instruksi untuk mesin pencari, seperti Googlebot, tentang halaman mana yang boleh dan tidak boleh di-crawl. File ini biasanya terletak di root domain, misalnya di namasitus.com/robots.txt.

Perlu dipahami satu hal penting, robots.txt bukan alat untuk menghapus halaman dari Google. Robots.txt hanya mengatur proses crawling, bukan indexing. Jadi kalau sampai di sini saja sudah salah paham, setting berikutnya bisa berantakan.

Kenapa Robots.txt Itu Penting?

Robots.txt membantu Google fokus ke halaman yang benar-benar penting. Dengan setting yang tepat, crawl budget bisa digunakan untuk artikel utama, bukan habis untuk halaman pencarian, label, atau URL duplikat.

Selain itu, robots.txt juga bisa membantu mengurangi duplicate content, menjaga performa SEO, dan membuat website lebih rapi di mata mesin pencari.

Cara Kerja Robots.txt Secara Sederhana

Ketika Googlebot datang ke website, hal pertama yang dicek adalah file robots.txt. Dari situ Googlebot akan membaca aturan yang kita buat, lalu memutuskan halaman mana yang boleh diakses dan mana yang harus dilewati.

Kalau kita mengizinkan semua halaman, Googlebot akan crawl semuanya. Tapi kalau kita memblokir bagian tertentu, Googlebot akan patuh dan tidak meng-crawl URL tersebut.

Isi Dasar Robots.txt

Robots.txt hanya punya beberapa perintah utama, tapi dampaknya besar. Yang paling sering dipakai adalah User-agent, Allow, dan Disallow.

User-agent digunakan untuk menentukan bot mana yang kita atur. Tanda bintang (*) artinya semua bot mesin pencari.

Allow berarti URL boleh di-crawl, sedangkan Disallow berarti URL tidak boleh di-crawl.

Contoh Robots.txt Sederhana

Contoh paling dasar biasanya seperti ini:

User-agent: *
Allow: /

Artinya, semua mesin pencari boleh meng-crawl seluruh halaman website.

Kesalahan Fatal Saat Setting Robots.txt

Di sinilah banyak masalah mulai muncul. Salah satu kesalahan paling fatal adalah tanpa sengaja memblokir seluruh website.

Contohnya seperti ini:

User-agent: *
Disallow: /

Setting ini artinya semua halaman di website tidak boleh di-crawl. Kalau ini sampai aktif, jangan kaget kalau trafik organik anjlok dalam waktu singkat.

Robots.txt Bukan Noindex

Banyak orang mengira robots.txt bisa digunakan untuk noindex. Padahal ini pemahaman yang keliru. Robots.txt hanya mencegah crawling, bukan menghapus halaman dari indeks Google.

Kalau sebuah halaman sudah terlanjur terindeks lalu diblok lewat robots.txt, Google justru tidak bisa membaca meta noindex di halaman tersebut. Akibatnya, halaman bisa tetap muncul di Google tanpa deskripsi.

Cerita Nyata: Dampak Salah Setting Robots.txt

Tidak sedikit website yang tiba-tiba kehilangan hampir seluruh trafiknya hanya karena salah edit robots.txt. Biasanya berawal dari niat baik, misalnya ingin memblokir halaman sampah seperti search dan label.

Namun karena kurang teliti, yang terblokir justru folder utama atau struktur URL postingan. Akibatnya, Googlebot tidak lagi meng-crawl artikel penting.

Beberapa hari kemudian, ranking turun drastis. Dalam kasus ekstrem, halaman-halaman utama menghilang dari hasil pencarian.

Cara Aman Mengatur Robots.txt

Kalau kamu ingin bermain aman, jangan terlalu agresif. Fokuskan robots.txt hanya untuk memblokir halaman yang memang tidak penting untuk SEO, seperti halaman pencarian internal dan arsip.

Untuk kebutuhan noindex, jauh lebih aman menggunakan meta robots di dalam halaman, bukan mengandalkan robots.txt.

Tips Penting Sebelum Mengedit Robots.txt

Sebelum menyimpan perubahan, selalu gunakan fitur robots.txt Tester di Google Search Console. Dari sana kamu bisa melihat apakah Googlebot masih bisa mengakses artikel penting atau tidak.

Dan yang paling penting, lakukan perubahan sedikit demi sedikit. Jangan langsung mengubah banyak aturan sekaligus, karena sulit melacak kesalahan kalau terjadi masalah.

VERSI LENGKAP, AMAN, dan SESUAI PRAKTIK SEO TERKINI, khusus Blogger, dengan tujuan:

Halaman statis (Pages) → NOINDEX
Artikel/Post → TETAP DIINDEX
Halaman sampah (label, search, archive) → NOINDEX
Tidak mematikan crawl artikel penting


✅ ROBOTS.TXT LENGKAP (REKOMENDASI AMAN)

Paste di Blogger → Settings → Crawlers and indexing → Custom robots.txt

User-agent: *
Allow: /

# Blok halaman statis (Pages)
Disallow: /p/

# Blok halaman pencarian internal
Disallow: /search
Disallow: /search/

# Blok label & arsip
Disallow: /label/
Disallow: /feeds/
Disallow: /feeds/posts/
Disallow: /feeds/comments/

# Blok parameter URL sampah
Disallow: /*?updated-max=
Disallow: /*?max-results=
Disallow: /*?m=1

# Izinkan file penting
Allow: /feeds/posts/default?alt=rss
Allow: /feeds/posts/default?alt=json

Sitemap: https://www.seonalizer.com/sitemap.xml

🔍 PENJELASAN BIAR JELAS & TIDAK SALAH

1️⃣ Kenapa TIDAK pakai Noindex: di robots.txt

Google SUDAH TIDAK MENDUKUNG perintah:

Noindex:

❌ Jika dipakai → diabaikan Google
❌ Bisa bikin halaman tetap terindeks jika sudah pernah dicrawl

👉 Solusi benar:

  • Gunakan Disallow di robots.txt

  • DAN/ATAU meta tag noindex di halaman


2️⃣ Kenapa halaman statis /p/ di-Disallow

Halaman statis biasanya:

  • Tentang Kami

  • Kontak

  • Disclaimer

  • Privacy Policy

➡ Tidak perlu ranking di Google
➡ Tidak perlu buang crawl budget

Disallow: /p/

3️⃣ Kenapa search, label, archive diblok

Ini penyebab duplicate content terbesar di Blogger:

  • /search?q=

  • /label/seo

  • Arsip tanggal

Kalau dibiarkan:
❌ Konten duplikat
❌ CTR jelek
❌ Crawl boros


✅ WAJIB TAMBAHAN (INI PENTING)

Robots.txt TIDAK CUKUP untuk noindex halaman statis yang sudah terlanjur terindeks.

Tambahkan Meta Tag Noindex (PALING AMAN)

Di Theme → Edit HTML, cari <head> lalu tambahkan:

<b:if cond='data:blog.pageType == &quot;static_page&quot;'>
<meta name="robots" content="noindex, follow"/>
</b:if>

📌 Efek:

  • Halaman statis → PASTI NOINDEX

  • Link di dalamnya → tetap diikuti

  • Artikel → AMAN 100%


✅ KONFIGURASI IDEAL BLOG SEO (RINGKAS)

Jenis HalamanIndex
Artikel/Post✅ YES
Halaman Statis❌ NO
Label❌ NO
Search❌ NO
Arsip❌ NO

⚠️ KESALAHAN FATAL YANG SERING TERJADI

❌ Menulis Disallow: / (auto deindex semua)
❌ Pakai Noindex: di robots.txt doang
❌ Blok /2025/ atau struktur postingan



Penutup

Robots.txt memang terlihat sederhana, tapi efeknya bisa sangat besar. Dengan setting yang tepat, SEO bisa lebih rapi dan terarah. Sebaliknya, salah setting sedikit saja bisa membuat website kehilangan trafik secara perlahan.

Kalau masih ragu, lebih baik pakai konfigurasi aman daripada bereksperimen terlalu jauh. Dalam SEO, aman dan konsisten jauh lebih penting daripada agresif tapi berisiko.

Previous Post
No Comment
Add Comment
comment url