

Robots.Txt Yi Atlatmanın Bir Yolu Varmı ?
-
Şimdi sitelerde bulunan robots.txt deki engellemeler yüzünden örümceğim siteleri istediğim gibi indexleyemiyor.
Engellemeleri geçtim eğer bide crawn delay 1 felan koydularsa site zaten nerdeyse hiç indexlenmiyor.
Hadi örümcek engellenirse örümcek ismini değiştirerek atlatabiliyorsun ama bu robots daki engellemeleri atlatmanın bir yöntemi varmıdır ?
Bu örümceğin kodlanmasından mı kaynaklanınyor yani robots.txt yi tanıma diye bir olay yapılabilirmi ?
-
o kontrolü örümcek yapmıyomu zaten? senin örümceğini kurcalarsan robots.txt yi sikine takmıycak şekilde düzenlersin.
-
lalada bunu yazdı
o kontrolü örümcek yapmıyomu zaten? senin örümceğini kurcalarsan robots.txt yi sikine takmıycak şekilde düzenlersin.
Sabahtan beri arıyorum bi kaç yerde yabancı kaynakta bulabildim bunun bir kriter olduğunu örümceğin yönlendirildiği portta ilk ziyaret dosyasının robots olarak ayarlandığı bir güvenlik kapısı gibi nce orayı incelemesi lazım vs.. vs.. gibi bilgiler vardı.
Bu sebepten bu kriteri bilen adam gibi bir kaynak arıyorum. Yada bilen birini..
-
ErotikPanda bunu yazdılalada bunu yazdı
o kontrolü örümcek yapmıyomu zaten? senin örümceğini kurcalarsan robots.txt yi sikine takmıycak şekilde düzenlersin.
Sabahtan beri arıyorum bi kaç yerde yabancı kaynakta bulabildim bunun bir kriter olduğunu örümceğin yönlendirildiği portta ilk ziyaret dosyasının robots olarak ayarlandığı bir güvenlik kapısı gibi nce orayı incelemesi lazım vs.. vs.. gibi bilgiler vardı.
Bu sebepten bu kriteri bilen adam gibi bir kaynak arıyorum. Yada bilen birini..
Hocam ne ile ne yapmaya çalışıyorsun hiç analmadım. Senin örümceğin ne? Yazılım mı? Hazır script mi ne? Adı ne şanı ne?
-
yazılım içinde siteye ilk bağlandıı yerde muhakkak bir robots.txt arıyordu.
O arardığı yeri değiştirirsen yada ordan çekeceği içeriği boş a tanımlatırsan bu dertten kurtulursun.
iyi çalışmalar.
-
DrKill bunu yazdıErotikPanda bunu yazdılalada bunu yazdı
o kontrolü örümcek yapmıyomu zaten? senin örümceğini kurcalarsan robots.txt yi sikine takmıycak şekilde düzenlersin.
Sabahtan beri arıyorum bi kaç yerde yabancı kaynakta bulabildim bunun bir kriter olduğunu örümceğin yönlendirildiği portta ilk ziyaret dosyasının robots olarak ayarlandığı bir güvenlik kapısı gibi nce orayı incelemesi lazım vs.. vs.. gibi bilgiler vardı.
Bu sebepten bu kriteri bilen adam gibi bir kaynak arıyorum. Yada bilen birini..
Hocam ne ile ne yapmaya çalışıyorsun hiç analmadım. Senin örümceğin ne? Yazılım mı? Hazır script mi ne? Adı ne şanı ne?
http://ara.isminiunuttum.com/
-
SnipeTR bunu yazdı
yazılım içinde siteye ilk bağlandıı yerde muhakkak bir robots.txt arıyordu.
O arardığı yeri değiştirirsen yada ordan çekeceği içeriği boş a tanımlatırsan bu dertten kurtulursun.
iyi çalışmalar.
Denedim fakat sanırım sadece bu örümcek kontrolünde değil. BUnun için ayrı bir prosedür daha var. Çünkü kontrol etmeden devam etmiyor. Onu bi inceleyeyim.
iLLuMiNaTi tarafından 25/Şub/13 11:35 tarihinde düzenlenmiştir -
eğer gitti siteye header bilgisi yolluyorsa, ve hostinglerde gelen header bilgisi yorumlama kısmında mecburi olarak
robots.txt ye göre siteyi gezdiyorsa yapman gereken şey, header da yollanan bilgini değiştirmek olacaktır.
Sanırım o iş baya bi uzayacak :))
Bırak hocam ya almasın robots txt deki engellenenleri. -
SnipeTR bunu yazdı
eğer gitti siteye header bilgisi yolluyorsa, ve hostinglerde gelen header bilgisi yorumlama kısmında mecburi olarak
robots.txt ye göre siteyi gezdiyorsa yapman gereken şey, header da yollanan bilgini değiştirmek olacaktır.
Sanırım o iş baya bi uzayacak :))
Bırak hocam ya almasın robots txt deki engellenenleri.Evet mantıklı geldi bunu biraz kurcuklayayım.
Hocam artık robots dakileri geçtim. Adam robots a bi crawn delay 1 ekliyo. istediğin haltı ye indexleyemiyorsun siteyi. sadece ana sayfayı alabiliyor. Sorun burda :|
Ve ne hikmetse çoğu büyük site ( aslında haklı olarak ama benim işime gelmiyor ) crawn delay ı en fazla 2 veriyor ki ortada kalıyorum mal gibi..
Neyse bi inceleyeyim. uğraşıcaz artık..