Para robot mesin pencari ini kemudian akan meng-indeks semua halaman web berdasarkan instruksi yang ada pada file robots.txt.
Untuk mengizinkan semua program robot untuk mengindeks situs, tulis perintah seperti berikut:
User-agent: *
Disallow:
Sebaliknya, jika ingin melarang robot manapun untuk mengindeks situs, tulis perintah seperti berikut:
User-agent: *
Disallow: /
Untuk melarang program robot mengakses halaman tertentu, tulis perintah berikut:
User-agent: *
Disallow: /admin.htm
Disallow: /private/
Disallow: /info/user.php
Untuk melarang sebuah robot tertentu tetapi mengijinkan robot-robot lainnya, tulis perintah berikut:
User-agent: NamaRobot
Disallow: /
Untuk mengijinkan sebuah robot tertentu dan melarang robot-robot lainnya,
Contohnya seperti robot Google boleh mangeindeks, lainnya tidak boleh. tulis perintah berikut:
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Kamu juga dapat menuliskan lokasi file sitemap.xml situs yang kamu punya di baris terakhir, sebagai berikut:
User-agent: *
Disallow:
Sitemap: http://inwepo.co/feeds/posts/default?orderby=updated
Sitemap: http://nwepo.co/feeds/posts/default?orderby=updated&max-results=999
Robot mesin
pencari juga dapat memahami penggunaan wildcard untuk melarang beberapa
lokasi baris perintah, contohnya melarang meng-index semua file pdf,
maupun folder archives, berikut perintahnya:
User-agent: *
Disallow: /*.pdf$
Disallow: /archives*/
File robots.txt harus diletakkan di direktori utama. Contohnya: http://tutorial.inwepo.com/robots.txt
Untuk pengguna Blogger, kamu juga dapat membuat file robots.txt, caranya sebagai berikut:
Masuk ke dashboard --> Settings --> Search Preferences --> Crawlers and indexing, kemudian edit Custom Robots.txt
Cek di sini untuk mengetahui nama-nama robot tersebut, bila kalian ingin membuat larangan dari nama robot tersebut.
Hati-hati dalam membuat perintah di robots.txt, kesalahan perintah bisa berakibat situs kamu tidak ter-indeks oleh mesin pencar
No comments:
Post a Comment