Penggunaan file robots.txt dengan benar akan support SEO blog. Blogger atau webmaster pakai robots.txt untuk beri instruksi ke robots terkait situs.
Cara kerja file robots.txt - website files
Saat Robot menjelajahi (crawl), misalnya :
URL http://www.example.com/ atau http://www.example.com/welcome.html.
Maka pertama dilakukan robots di blog Anda adalah check file situs atau website tersebut, salah satu file yang pertama diperiksa oleh Googlebots dan robots search engine lain ialah file robots.txt bertempat di :
http://www.example.com/robots.txt.
URL http://www.example.com/ atau http://www.example.com/welcome.html.
Maka pertama dilakukan robots di blog Anda adalah check file situs atau website tersebut, salah satu file yang pertama diperiksa oleh Googlebots dan robots search engine lain ialah file robots.txt bertempat di :
http://www.example.com/robots.txt.
Contoh content file robots.txt - website archives
User-agent: *
Disallow: /
Disallow: /
- "User-agent: *" Artinya section berlaku bagi robots semua search engine.
Tanda (*) Pada User-agent ialah nilai khusus yang berarti robot apapun. - "Disallow: /" Artinya semua robot TIDAK BOLEH berkunjung ke halaman
apapun di situs yang disebutkan dalam section ini.
Aturan penulisan file robots.txt bikin canggung, karena tidak ada field (record) "Allow:" untuk “izin akses.” Alternatifnya yaitu meletakkan semua file yang akan dilarang di belakang "Disallow:" Ditulis dalam baris terpisah untuk masing direktori. (Lihat bagian akhir artikel).
Pertimbangan penting penggunaan robots.txt
- robots (sama seperti malware robots) dapat saja mengabaikan file robots.txt,
tapi Malware robots tetap bisa memindai kerentanan security & scan alamat
email spammers. - File robots.txt tersedia untuk publik. Artinya semua orang bisa melihat isi file
atau melihat section-section dari web server yang Anda tidak ingin robots
menggunakannya.
So, JANGAN gunakan file robots.txt untuk menyembunyikan informasi.
How to create robots.txt? - website archives
Dimana kita tempatkan file robots.txt? - website files
File ini ditempatkan dalam direktori Top-Level pada web server. Tutorial pengeditan file robots.txt dalam template blogger dapat dilihat di link :
Letak file robots.txt ada sesudah alur komponen URL, didahului slash tunggal (/). Contoh riil ini :
http://website-download.blogspot.com/robots.txt atau http://www.example.com/robots.txt
Ilustrasi lokasi robots.txt - website files
Contoh URL http://www.example.com/shop/index.html.
Kemudian /shop/index.html dihapus. Ganti dengan teks /robots.txt.
Hasilnya menjadi http://www.example.com/robots.txt
Kemudian /shop/index.html dihapus. Ganti dengan teks /robots.txt.
Hasilnya menjadi http://www.example.com/robots.txt
Anda harus meletakkan di tempat tepat di web server sehingga dapat bekerja. Lokasi biasanya ada di tempat sama dimana Anda letakkan website utama – welcome page – "index.html" Tapi tepatnya dimana, dan bagaimana penempatan file robots.txt, tergantung software web server.
PERINGATAN
Gunakan semua huruf kecil untuk nama file : "robots.txt", bukan Robots.TXT atau ROBOTS.TXT
Apa isi file robots.txt? - website files
File "/robots.txt" adalah sebuah text file, terdiri satu record atau lebih. Secara default biasanya berisi satu record (single record) yaitu “disallow” seperti contoh pada awal artikel. Berikut ini contoh single record beserta 3 direktori yang dikecualikan untuk dikunjungi (diletakkan dibelakang “Disallow:”).
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Perhatikan bahwa Anda perlu baris "Disallow" terpisah untuk setiap URL prefix yang ingin DIKECUALIKAN – jangn menuliskan "Disallow: /cgi-bin/ /tmp/" dalam satu baris. Juga TIDAK BOLEH ada baris kosong dalam satu record, karena mereka digunakan untuk membatasi beberapa record.
Globbing dan regular expression TIDAK didukung, baik dalam baris User-agent maupun baris Disallow. Tanda '*' (pada field User-agent) adalah nilai khusus yang berarti "robot apapun" Anda juga tidak boleh memiliki baris seperti :
"User-agent: *bot*",
"Disallow: /tmp/*" atau
"Disallow: *.gif".
Contoh penulisan file robots.txt - website files
- Pengecualian semua robots crawler dari seluruh server
User-agent: *
Disallow: /
SEMUA ROBOT tanpa kecuali TIDAK DIZINKAN menjelajahi seluruh isi situs. Penulisan ini SANGAT TIDAK DIREKOMENDASIKAN!
- Mengizinkan semua robots untuk akses penuh
User-agent: *
Disallow:
Semua robot search engine mendapat akses penuh untuk mengunjungi situs. (Dengan cara lain : KOSONGKAN isi file "/robots.txt" atau sama sekali jangan gunakan file "/robots.txt").
- Pengecualian semua robots dari sebagian isi server
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
SEMUA ROBOT search engine, tanpa kecuali, TIDAK BOLEH mengunjungi ketiga direktori diatas.
- Pengecualian untuk robot tertentu (robot tersebut tidak diizinkan akses)
User-agent: BadBot
Disallow: /
Badbot SATU-SATUNYA robot search engine yang TAK DIIZINKAN akses ke seluruh situs
- To allow a single robot
User-agent: Google
Disallow:
User-agent: *
Disallow: /
- Larangan akses ke semua file dalam direktori kecuali satu file
Misalnya direktori ‘joe’ dan hanya satu file yang boleh diakses (misal file ‘stuff’). Letakkan semua file yang akan dilarang ke direktori terpisah (direktori "stuff"), dan sisakan satu file di level directory ini. Cara penulisannya :
User-agent: *
Disallow: /~joe/stuff/
Disallow: /~joe/stuff/
Alternatifnya secara eksplisit “DILARANG” untuk semua disallowed pages seperti :
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
et cetera.
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
et cetera.