Salı, 28 Şubat 2012 23:01

Robots.txt Nedir - Ne İşe Yarar?

Yazan 
Öğeyi Oyla
(7 oy)
robots.txt Nedir - Nasıl? robots.txt Nedir - Nasıl? JoomlaBilgi.org

Tek bir dosya olan robots.txt sahip olduğunuz web siteniz için küçük ama çok önemli bir dosyadır. Zira bu dosyada yer alan birkaç satır sayesinde arama motorlarına sitenizin takip edilip edilmeyeceğini veya nasıl indekslenmesi gerektiğini anlatabilirsiniz.

Bu kadar önemli olan bir dosyayı yönetmek ve düzenlemek ise neyseki oldukça basit sayılır, tabi biraz bilgi sahibi olmak ve araştırmak gerektiğini gözden çıkarmamak gerekir. İşte bu makalemizde size sitelerimiz için hayati öneme sahip robots.txt dosyası hakkında bilgi vereceğiz.

Böylece kendi robots.txt dosyalarınızı oluşturabilir, yönetebilir ve site ihtiyaçlarınıza uygun olacak şekilde optimize edebilirsiniz.

Bu makalede kısaca şu başlıkları incelemeye çalışacağız:

  • robots.txt nedir?
  • robots.txt ne için kullanılır?
  • Nasıl çalışmaktadır?
  • robots.txt dosyası nasıl oluşturulur?
  • robots.txt dosyasına neler yazılabilir?

Robots.txt Nedir?

Sitenizin ana dizininde bulunan ve arama motorlarının sitenizi indeksleyip, indekslemeyeceği komutunu arama motorlarına veren dosyadır.

Google, Yahoo v.b. bütün arama motorları web sitelerini robot (örümcek) adı verilen programlar sayesinde taramakta ve arama sonuçlarında gösterilmek üzere indekslemektedirler. Arama motorlarına ait robotlar bir siteye ilk girdikleri zaman ilk inceledikleri şey ana dizinde robots.txt dosyası olup olmadığıdır ve eğer varsa içerisinde hangi komutların olduğudur.

İşte bu dosyada yazan komutlara göre indekslenmesine izin verdiğiniz siteler robotlar tarafından algılanır ve yine indekslenmesini istemediğiniz içerikler de algılanırlar. Sonrasında arama motorunun sahip olduğu algoritmaya göre içeriğiniz ya indekslenir veya indekslenmez. Burada "indekslenme" derken kastımızın arama motorlarında ilgili arama sonuçlarında çıkma durumu olduğunu hatırlatmamıza sanırım gerek yok :)

robots.txt Dosyasına İhtiyacım Var mı?

Sitenize gelen arama motoru robotları eğer sitenizin ana dizininde robots.txt dosyası ile karşılaşmazlarsa, bu durumda sitenizdeki tüm içeriği okur (crawl) ve indeksleyebilirler. Yani en azından indekslememeleri için ortada hiçbir durum yok demektir.

Yani eğer sitenizdeki herşeyin ama herşeyin (ki bu genelde iyi değildir) arama sonuçlarında çıkmasını istiyorsanız herhangi bir robot.txt dosyasına ihtiyacınız yok demektir.

Fakat eğer dizinde bir robots.txt dosyanız olmazsa, sitenize gelen her robot bu dosyayı bulmak isteyeceği için ve bulamayacağı için hep "404 Bulunamadı" sayfası ile karşılaşacak demektir. Bu da log dosyalarınızda listelenir, bu durumdan kaçınmak için robots.txt dosyasını içi boş şekilde anadizine yükleyebilirsiniz.

robots.txt Nerelerde Niçin Kullanılır?

  • Eğer sitenizdeki herhangi bir dizinin veya sayfanın arama sonuçlarında görünmemesini istiyorsanız
  • Sitenizde aynı içerikten birden fazla varsa, SEO açısından zararlı olan bu durumu engellemek ve bu içeriklerden birini arama motorlarından gizlemek için
  • Site içi arama sayfalarınızın, arama motorları tarafından indekslenmemesi için
  • Site haritanızın nerede olduğunu arama motorlarına anlatmak için
  • Eğer aynı içeriğin hem HTML formatında, hem de PDF formatına sahipseniz, hangisinin indeksleneceğini arama motorlarına anlatmak için

Bu noktada şunu da not etmek gerekir ki; robots.txt dosyası içeriklerinizi tamamen ulaşılamaz hale getirmez. Sadece arama motorlarının bu içerikleri indekslememesini sağlar, yoksa bu içerikler hala çeşitli yöntemlerle ulaşılabilir durumdadırlar.

robots.txt Dosyası Nasıl Oluşturulur?

Eğer site adresinizin sonuna /robots.txt (örn: siteadi.com/robots.txt) yazınca, 404 bulunamadı gibi bir sonuçla karşılaşıyorsanız bu durumda sitenizde robots.txt yok demektir, dilerseniz hemen bir tane oluşturabilirsiniz. Robots.txt dosyası oluşturmak için:

Bilgisayarınızdaki editörü (Not Defteri veya Notepad++ olabilir) açın ve boş dosyayı robots.txt ismi ile kaydedin. Böylece en basitinden bir robots.txt oluşturmuş olacaksınız bile.

Bu dosyayı sitenizin ana dizinine yükleyin. Yani site dosyalarının bulunduğu ana dizin kısmıdır, eğer siteniz bir alt alan adında ise (siteadi.com/portal gibi) bu durumda dosyayı bu dizine yüklemeniz gerekir.

Eğer birden fazla alt alanadınız varsa, her biri için ayrı ayrı robots.txt oluşturmanız gerekmektedir.

robots.txt Dosyasına Ne Yazılır?

Henüz bu konuda herkesin mutabakata vardığı bir durum yok, yani ne koyup koymayacağınız tamamen size, sizin ihtiyaçlarınıza ve sitenizin durumuna bağlı.

Mesela siteniz Joomla gibi bir içerik yönetim sistemi (CMS) ise ve bir yönetim paneli varsa, bu yönetim panelinin indekslenmesini engelleyebilirsiniz.

robots.txt dosyası, robotlara nereye gideceklerini veya gitmeyeceklerini anlatan bir rehberdir, bu nedenle sitenizin hangi içeriklerinin arama sonuçlarında çıkmamasını istiyorsanız o içerikleri ekleyebilirsiniz.

Hangi Komutları Kullanabilirim?

Bu noktada biraz gözünüzü açmanızı ve beğendiğiniz ve takip ettiğiniz sitelerin tavsiye ederiz. Çekinmeyin ve sitelerin, rakiplerinizin robots.txt dosyalarını inceleyin ve hangi içerikleri engellediklerini görün. Bu size bir fikir verecektir...

User-agent: Arama motorlarının robotlarını selamlayan komuttur. Yıldız ile kullanılırsa bütün arama motorlarının robotları için demektir:

User-agent: *

Sadece Google robotları için ise:

User-agent: Googlebot

Disallow: En çok kullanılan robots.txt komutudur ve arama motorlarına hangi sayfa ve içerikleri indekslememesi gerektiğini anlatır.

Mesela bütün arama motorlarının, sitenizdeki "hiçbirşeyi" indekslememesini isterseniz dosyaya şu ibareyi ekleyebilirsiniz:

User-agent: *
Disallow: /

Veya mesela Google'ın sadece sitelerdeki resimleri indeksleyen robotunun, images klasöründeki resimleri indekslememesi ama diğer bütün herşeyi indekslemesi için şu ibareyi ekleyebilirsiniz:

User-agent: Googlebot-Image
Disallow: /images/
Not: Sitenizdeki resim klasörünü robotların indekslemesine izin vermeniz sizin için faydalı olabilir. Zira resim arama sonuçlarında çıkacak olan siteniz daha fazla trafik elde etmenizi sağlar.
Not: Joomla kurulumunda varsayılan olara /images klasörü disallow yani indekslenmeyecek şekilde ayarlanmştır, bu klasördeki resimlerin indekslenmesi için bunu düzenlemeniz gerekir.

Allow: Disallow komutunu tam tersidir, yani indekslenmesini istediğiniz içerik ve sayfalarınız için kullanabilirsiniz. Mesela tüm robotların, sitenizdeki herşeyi ama herşeyi indekslemesi için yazmanız gereken komut:

User-agent: *
Allow: /

Peki varsayılan olarak disallow ile komutlandırmadığınız müddetçe bütün içerikler zaten indeksleniyorsa, bu allow komutu neden var diye soracak olursanız cevabı basit... Eğer bir dizini disallow olarak işaretlediyseniz ama bu dizin içerisindeki belirli bir sayfanın indekslenmesini istiyorsanız allow komutunu kullanabilirsiniz. Yani mesela günlük isimli dizinin indekslenmemesini ama bu dizinde yer alan hakkimda sayfasının indekslenmesini istiyorsanız aşağıdaki kullanım işinizi görecektir:

User-agent: *
Disallow: /gunluk/
Allow: /gunluk/hakkimda.html

Sitemap: Site haritalarınızın arama motorları tarafından daha çabuk bulunması için bu komutu kullanabilirsiniz. Örnek kullanım:

Sitemap: http://www. siteniz.com/sitemap.xml
Bu içeriğin oluşturulmasında bu siteden (İng.) faydalanılmıştır.
Okunma 9039 defa Son Düzenlenme Salı, 28 Şubat 2012 23:21
Enes

Neredeyse tüm mesaisini Joomla'nın Türkiye'de gelişmesine adamıştır. Türkiye'de "Joomla! Kullanıcıları ve Geliştiricileri Derneği" kurucu üyelerindendir.

Joomla! ücretsiz destek sitesi JoomlaBilgi.org kurucusudur.

Web tasarımı ve internet teknolojileri üzerine mesleğini İstanbul'da icra etmektedir.

Bu diyalogda yer alanlar

Yorum Bırak

0 Karakter kısıtlaması
Eklediğiniz metin en az 5 karkater olmalıdır
Eklenebilir Dosyalar İzin verilen dosya türleri: bmp, csv, doc, gif, ico, jpg, jpeg, odg, odp, ods, odt, pdf, png, ppt, txt, xcf, xls 0 / 3
deneme