Web Crawler [Spider, Örümcek, Bot]
-
İnternette var olan arama motorlarına (sphider tarzı) baktım ama onlar bir siteyi tamamen indexliyorlar.
Benim istediğimse bir siteden yalnızca belli içerikleri çekmek. Bu işi yapan bildiğiniz güzel bir script ya da program var mı?
Aslında bir tane script buldum, güzel de çalışıyor: http://www.marinbezhanov.com/scraper/documentation/
Dediğim gibi alternatifleri varsa bilmek isterim.Veri çekmek istediğim siteler için teker teker bot yazmaya kalksam çok uzun sürer. :/
bkz.: http://tahribat.com/Forum-Php-De-Yaptigim-Ilk-Bot-Tbt-Aktif-Konular-161516/ -
telekom tarafından 07/Ağu/12 23:56 tarihinde düzenlenmiştir
İşime yarayan yaramayan siteleri buradan paylaşayım:
1-) 80legs.com: Regular Expression ayarları istediğim gibi değil.
2-) Java ile yazılmış olsa da WebSphinx iş göreceğe benziyor, grafiksel olarak gösterimi hoş olmuş: http://www.cs.cmu.edu/~rcm/websphinx/
Bu da tbt'nin bir kısmının dallı, budaklı hali:
3-) kilit kelime web extractor imiş. Artık askerden geldikten sonra ilgilenirim :)
-
şuan düşünce aşamasında olduğum sistem var dediğin gibi. senin 80legse baktım ama tek regex veriliyor galiba ben thread sistemli yapmayı düşünüyorum bir linkten başka linke atlama regex ile gösterdiğin yerlerden olucak ve geçiceği sayfadanda regex ile istediğin yeri alma hatta 3-4 sayfa atlanabilir bile olucak ama ne zaman başlarım ne zaman biter yada bitermi bilmiyorum. şuan öncelik olarak tbt mobil olayı var elimde
-
İlk verdiğim örnek http://www.marinbezhanov.com/scraper/ sanırım yapmak istediğini yapıyor.
Birden fazla düzenli ifade eklemesi yapabiliyorsun, veriler db ye ekleniyor ya da istersen cvs olarak indirebiliyorsun.Bu sistem aslında güzel ama düzenli ifadeleri elle girmeye izin verse daha esnek olacak.
-
telekom bunu yazdı
İlk verdiğim örnek http://www.marinbezhanov.com/scraper/ sanırım yapmak istediğini yapıyor.
Birden fazla düzenli ifade eklemesi yapabiliyorsun, veriler db ye ekleniyor ya da istersen cvs olarak indirebiliyorsun.Bu sistem aslında güzel ama düzenli ifadeleri elle girmeye izin verse daha esnek olacak.
diyorsun ki başlangıç url'si vereceğim ordan regex'e uygun url'leri bulup ordan yürüyüp gidecek. doğru mudur? (bulduğu url'nin içindeki datayı eklemesi gerekiyor veritabanına haliyle, onu full text ile bütün datayı alarak yapabilir, o datayı da mı ayrıştırmak istiyorsun yoksa?)
-
Ah şu web kullanıcıları html5'e destek olsaydı bu tür botları <article></article> arasındaki yazıları alarak kolaycana yazabilecektik ama neeerdeee? Millet html5 e geçer biz ozamana bırakırız bu işleri.
-
by_Tet bunu yazdı
Ah şu web kullanıcıları html5'e destek olsaydı bu tür botları arasındaki yazıları alarak kolaycana yazabilecektik ama neeerdeee? Millet html5 e geçer biz ozamana bırakırız bu işleri.
o standartlaşma olayına daha çok var hocam. :) wordpress temaları filan bile hala uyumlu yapılmıyor html5 iskeletine. :/
-
Buremba bunu yazdıby_Tet bunu yazdı
Ah şu web kullanıcıları html5'e destek olsaydı bu tür botları arasındaki yazıları alarak kolaycana yazabilecektik ama neeerdeee? Millet html5 e geçer biz ozamana bırakırız bu işleri.
o standartlaşma olayına daha çok var hocam. :) wordpress temaları filan bile hala uyumlu yapılmıyor html5 iskeletine. :/
Ama eğer bu html5 standartlaşırsa bizler için mükemmel bir nimet olacak. Herşeyi çok ama çok basit bir şekilde halledebileceğiz. Bir de css3 yeme de yanında yat valla.
-
Buremba bunu yazdıtelekom bunu yazdı
İlk verdiğim örnek http://www.marinbezhanov.com/scraper/ sanırım yapmak istediğini yapıyor.
Birden fazla düzenli ifade eklemesi yapabiliyorsun, veriler db ye ekleniyor ya da istersen cvs olarak indirebiliyorsun.Bu sistem aslında güzel ama düzenli ifadeleri elle girmeye izin verse daha esnek olacak.
diyorsun ki başlangıç url'si vereceğim ordan regex'e uygun url'leri bulup ordan yürüyüp gidecek. doğru mudur? (bulduğu url'nin içindeki datayı eklemesi gerekiyor veritabanına haliyle, onu full text ile bütün datayı alarak yapabilir, o datayı da mı ayrıştırmak istiyorsun yoksa?)
Evet hocam, hatta bir örnek ile açıklayayım.
Daha öncesinden botunu yaptığım için örnek site vatanbilgisayar.com olsun.
Ben bu siteyi tamamen indexlemek istemiyorum, onun yerine; ürün resmi, fiyatı, açıklaması varsa yorumlar kısmını almak istiyorum. Yapmak istediğim bu kadar.
Tabi sadece vatan bilgisayar yok listede, hepsi için teker teker bot yazmak zahmetli ve gereksiz. Zaten tasarımı değiştirdikleri zaman bot işlevsiz hale gelecektir. Universal Web Scraper da istediğim kadar esnek değil.Kaba tabirle aradığım, yapmak istediğim: ayarlanabilir indexleme yapan bir örümcek.
-
by_Tet bunu yazdıBuremba bunu yazdıby_Tet bunu yazdı
Ah şu web kullanıcıları html5'e destek olsaydı bu tür botları arasındaki yazıları alarak kolaycana yazabilecektik ama neeerdeee? Millet html5 e geçer biz ozamana bırakırız bu işleri.
o standartlaşma olayına daha çok var hocam. :) wordpress temaları filan bile hala uyumlu yapılmıyor html5 iskeletine. :/
Ama eğer bu html5 standartlaşırsa bizler için mükemmel bir nimet olacak. Herşeyi çok ama çok basit bir şekilde halledebileceğiz. Bir de css3 yeme de yanında yat valla.
daha basit olabilir fakat birçok liseli oyundan düşer çünkü HTML5 öğrenmesi uğraş isteyen bir dil bir input tagının bile 10 küsur çeşidi var, standartlaşmasına 2-3 sene daha var.
-
2. mesaja WebSphinx adlı programı ekledim.
Düzenleme: Bu da olmadı.
telekom tarafından 07/Ağu/12 23:55 tarihinde düzenlenmiştir
