Penjelasan Fungsi dan Cara Gunakan Robots.txt Pada Website

Robots.txt adalah file teks sederhana yang berfungsi sebagai petunjuk bagi mesin pencari tentang halaman atau bagian situs web mana yang boleh atau tidak boleh di-crawl dan diindeks. File ini ditempatkan di direktori root situs web dan membantu dalam mengontrol akses robot pencari ke situs tersebut.

Penjelasan Fungsi dan Cara Gunakan Robots.txt Pada Website

Menggunakan robots.txt penting karena memberi kontrol kepada pemilik situs atas informasi mana yang diakses dan diindeks oleh mesin pencari. Hal ini membantu mencegah crawling konten yang tidak relevan atau sensitif, mengoptimalkan penggunaan sumber daya crawler, dan dapat membantu mencegah munculnya konten duplikat di hasil pencarian.

Manfaat utama dari robots.txt termasuk pengelolaan sumber daya server dengan lebih efektif, melindungi privasi konten tertentu, dan membantu menjaga kesehatan SEO situs web. Dengan memberi petunjuk kepada mesin pencari tentang bagian mana dari situs yang harus diindeks, pemilik situs dapat lebih efisien dalam pengelolaan konten yang muncul di hasil pencarian.

Di dalam file robots.txt, direktif seperti Allow dan Disallow digunakan untuk mengatur akses. Allow memberi izin kepada mesin pencari untuk mengakses bagian tertentu dari situs, sedangkan Disallow mencegah akses. Penting untuk mencatat bahwa standar penggunaan direktif ini bisa berbeda antar mesin pencari.

Pada WordPress, robots.txt default umumnya mengizinkan akses ke semua konten, tetapi bisa disesuaikan. Contoh default untuk situs non-WordPress mungkin melarang akses ke direktori tertentu atau jenis file tertentu untuk menjaga privasi atau keamanan situs.

Contoh Kasus Penggunaan Robots.txt

Blokir semua robot kecuali Google:

User-agent: Google
Allow: /

Blokir semua robot kecuali Google dan Bing:

User-agent: Google
Allow: /
User-agent: Bing
Allow: /

User-agent: *
Disallow: /

Blokir robot yang tidak diinginkan (bad robots):

User-agent: BadBot # nama robot yang tidak diinginkan
Disallow: /

Blokir akses ke URL tertentu:

User-agent: *
Disallow: /private/ # Blokir akses ke direktori 'private'
Disallow: /tmp-*   # Blokir akses ke URL yang dimulai dengan 'tmp-'

Dengan memahami dan menggunakan robots.txt secara efektif, pemilik situs dapat memastikan bahwa mesin pencari mengindeks situs mereka dengan cara yang paling menguntungkan.

Daftar Nama Bad Robot (BadBot) Yang Harus Anda Block

MJ12Bot
PetalBot
AspiegelBot
AhrefsBot
SEMrushBot
DotBot
MauiBot
Alexibot
AppEngine
B2w/0.1
BackDoorBot/1.0
BecomeBot
BlekkoBot
Blexbot
BlowFish/1.0
Bookmark search tool
BotRightHere
CherryPicker
EmailCollector
EmailSiphon
WebBandit
ExtractorPro
CopyRightCheck
Crescent
SiteSnagger
ProWebWalker

Cara Membuat Robots.txt

Membuat file robots.txt untuk situs web Anda melibatkan beberapa langkah sederhana. Berikut adalah proses langkah demi langkah:

1. Identifikasi Kebutuhan Situs Anda

Tentukan halaman atau direktori mana yang ingin Anda blokir dari mesin pencari.

Pertimbangkan apakah ada crawler khusus (seperti bot pencarian gambar) yang Anda ingin izinkan atau tolak.

2. Membuat File Robots.txt

Buka teks editor pilihan Anda, seperti Notepad atau VSCode.

Buat file baru dan simpan dengan nama robots.txt.

3. Menulis Aturan Dasar

Mulai dengan menentukan user agent menggunakan User-agent:, diikuti oleh nama bot.

Contoh: User-agent: * (aplikasi aturan untuk semua bot).

Tentukan halaman atau direktori yang diizinkan atau ditolak.

Contoh: Disallow: /private/ (blokir akses ke direktori /private).

Atau: Allow: /public/ (izinkan akses ke direktori /public).

4. Menambahkan Aturan Spesifik

Untuk bot tertentu, Anda dapat menulis aturan khusus.

Contoh:

User-agent: Googlebot (aturan hanya untuk Googlebot).

Disallow: /no-google/ (blokir Googlebot dari direktori /no-google).

5. Menggunakan Wildcards

Gunakan tanda * sebagai wildcard untuk mencakup berbagai URL.

Contoh: Disallow: /tmp-* (blokir semua URL yang dimulai dengan /tmp-).

6. Menentukan Lokasi Sitemap

Jika Anda memiliki sitemap, tambahkan URL sitemap di akhir file.

Contoh: Sitemap: http://www.contoh.com/sitemap.xml.

7. Simpan dan Upload File

Simpan file robots.txt.

Upload file ke direktori root situs web Anda menggunakan FTP atau file manager hosting.

8. Menguji Robots.txt

Gunakan alat pengujian robots.txt yang disediakan oleh Google di Google Search Console untuk memastikan file Anda bekerja seperti yang diharapkan.

Periksa apakah ada kesalahan atau peringatan.

9. Monitoring dan Pembaruan

Secara berkala periksa dan perbarui robots.txt Anda sesuai kebutuhan.

Pastikan file tetap relevan dengan struktur situs dan kebijakan SEO Anda.

Ingatlah bahwa robots.txt adalah petunjuk dan bukan penegakan yang ketat. Bot tertentu mungkin memilih untuk mengabaikan aturan yang Anda tetapkan. Selalu pastikan bahwa informasi sensitif di situs web Anda dilindungi dengan cara lain selain hanya mengandalkan robots.txt.

Daftar Nama Good Robots (GoodBot)

Memilih bot yang diizinkan mengakses situs web Anda bergantung pada kebutuhan SEO dan manajemen konten Anda. Berikut adalah beberapa bot utama yang direkomendasikan untuk diizinkan karena mereka berperan penting dalam indeksasi dan SEO:

Googlebot: Ini adalah bot crawling utama Google. Mengizinkan Googlebot memastikan bahwa konten situs Anda diindeks dan muncul dalam hasil pencarian Google.
Bingbot: Bot ini digunakan oleh mesin pencari Microsoft Bing. Mengizinkan Bingbot membantu situs Anda tampil dalam hasil pencarian Bing.
Yahoo! Slurp: Meskipun Yahoo sekarang menggunakan Bing untuk hasil pencarian, mereka masih memiliki bot sendiri, dan mengizinkannya bisa bermanfaat.
DuckDuckBot: Bot dari DuckDuckGo, mesin pencari yang menekankan privasi. Mengizinkannya membantu situs Anda diindeks oleh DuckDuckGo.
Baiduspider: Jika audiens target Anda termasuk pengguna di China, mengizinkan bot ini penting karena Baidu adalah mesin pencari terkemuka di China.
YandexBot: Bagi mereka yang menargetkan pasar Rusia, Yandex adalah mesin pencari utama di sana, sehingga mengizinkan YandexBot sangat penting.
Sogou Spider: Bot lain yang penting untuk pasar China, dari mesin pencari Sogou.
Exabot: Bot ini digunakan oleh Exalead, mesin pencari yang berbasis di Eropa.
Facebook External Hit: Meskipun bukan mesin pencari, bot ini digunakan oleh Facebook untuk mengambil pratinjau tautan yang dibagikan di platformnya.
Twitterbot: Mirip dengan Facebook, Twitter menggunakan bot ini untuk mengambil data untuk pratinjau tautan yang dibagikan di Twitter.

Selalu pastikan bahwa file robots.txt Anda dikonfigurasi dengan benar untuk mengizinkan bot ini jika mereka sesuai dengan strategi SEO dan target audiens Anda. Ini akan memastikan bahwa situs web Anda diindeks dengan baik oleh mesin pencari utama dan platform media sosial.

Budi Haryono

Penjelasan Fungsi dan Cara Gunakan Robots.txt Pada Website