Cara kerja file robots.txt - website files
URL http://www.example.com/ atau http://www.example.com/welcome.html.
Maka pertama dilakukan robots di blog Anda adalah check file situs atau website tersebut, salah satu file yang pertama diperiksa oleh Googlebots dan robots search engine lain ialah file robots.txt bertempat di :
http://www.example.com/robots.txt.
Contoh content file robots.txt - website archives
Disallow: /
- "User-agent: *" Artinya section berlaku bagi robots semua search engine.
Tanda (*) Pada User-agent ialah nilai khusus yang berarti robot apapun. - "Disallow: /" Artinya semua robot TIDAK BOLEH berkunjung ke halaman
apapun di situs yang disebutkan dalam section ini.
- robots (sama seperti malware robots) dapat saja mengabaikan file robots.txt,
tapi Malware robots tetap bisa memindai kerentanan security & scan alamat
email spammers. - File robots.txt tersedia untuk publik. Artinya semua orang bisa melihat isi file
atau melihat section-section dari web server yang Anda tidak ingin robots
menggunakannya.
How to create robots.txt? - website archives
Dimana kita tempatkan file robots.txt? - website files
Ilustrasi lokasi robots.txt - website files
Kemudian /shop/index.html dihapus. Ganti dengan teks /robots.txt.
Hasilnya menjadi http://www.example.com/robots.txt
PERINGATAN
Gunakan semua huruf kecil untuk nama file : "robots.txt", bukan Robots.TXT atau ROBOTS.TXT
Apa isi file robots.txt? - website files
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
"User-agent: *bot*",
"Disallow: /tmp/*" atau
"Disallow: *.gif".
Contoh penulisan file robots.txt - website files
- Pengecualian semua robots crawler dari seluruh server
User-agent: *
Disallow: /
SEMUA ROBOT tanpa kecuali TIDAK DIZINKAN menjelajahi seluruh isi situs. Penulisan ini SANGAT TIDAK DIREKOMENDASIKAN!
- Mengizinkan semua robots untuk akses penuh
User-agent: *
Disallow:
Semua robot search engine mendapat akses penuh untuk mengunjungi situs. (Dengan cara lain : KOSONGKAN isi file "/robots.txt" atau sama sekali jangan gunakan file "/robots.txt").
- Pengecualian semua robots dari sebagian isi server
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
SEMUA ROBOT search engine, tanpa kecuali, TIDAK BOLEH mengunjungi ketiga direktori diatas.
- Pengecualian untuk robot tertentu (robot tersebut tidak diizinkan akses)
User-agent: BadBot
Disallow: /
Badbot SATU-SATUNYA robot search engine yang TAK DIIZINKAN akses ke seluruh situs
- To allow a single robot
User-agent: Google
Disallow:
User-agent: *
Disallow: /
- Larangan akses ke semua file dalam direktori kecuali satu file
Disallow: /~joe/stuff/
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
et cetera.