Web Crawler [Spider, Örümcek, Bot]

  1. KısayolKısayol reportŞikayet pmÖzel Mesaj
    telekom
    telekom's avatar
    Kayıt Tarihi: 28/Temmuz/2005
    Erkek

    İnternette var olan arama motorlarına (sphider tarzı) baktım ama onlar bir siteyi tamamen indexliyorlar.
    Benim istediğimse bir siteden yalnızca belli içerikleri çekmek. Bu işi yapan bildiğiniz güzel bir script ya da program var mı?

    Aslında bir tane script buldum, güzel de çalışıyor: http://www.marinbezhanov.com/scraper/documentation/
    D
    ediğim gibi alternatifleri varsa bilmek isterim.

    Veri çekmek istediğim siteler için teker teker bot yazmaya kalksam çok uzun  sürer. :/
    bkz.: http://tahribat.com/Forum-Php-De-Yaptigim-Ilk-Bot-Tbt-Aktif-Konular-161516/


    vatandaşa kafam girsin!..
  2. KısayolKısayol reportŞikayet pmÖzel Mesaj
    telekom
    telekom's avatar
    Kayıt Tarihi: 28/Temmuz/2005
    Erkek

    İşime yarayan yaramayan siteleri buradan paylaşayım: 

    1-) 80legs.com: Regular Expression ayarları istediğim gibi değil.

    2-) Java ile yazılmış olsa da WebSphinx iş göreceğe benziyor, grafiksel olarak gösterimi hoş olmuş: http://www.cs.cmu.edu/~rcm/websphinx/
    B
    u da tbt'nin bir kısmının dallı, budaklı hali:

     

    3-) kilit kelime web extractor imiş. Artık askerden geldikten sonra ilgilenirim :)

    telekom tarafından 07/Ağu/12 23:56 tarihinde düzenlenmiştir

    vatandaşa kafam girsin!..
  3. KısayolKısayol reportŞikayet pmÖzel Mesaj
    Cosmic
    Cosmic's avatar
    Kayıt Tarihi: 14/Haziran/2006
    Erkek

    şuan düşünce aşamasında olduğum sistem var dediğin gibi. senin 80legse baktım ama tek regex veriliyor galiba ben thread sistemli yapmayı düşünüyorum bir linkten başka linke atlama regex ile gösterdiğin yerlerden olucak ve geçiceği sayfadanda regex ile istediğin yeri alma hatta 3-4 sayfa atlanabilir bile olucak ama ne zaman başlarım ne zaman biter yada bitermi bilmiyorum. şuan öncelik olarak tbt mobil olayı var elimde


    Bittik biz bittik
  4. KısayolKısayol reportŞikayet pmÖzel Mesaj
    telekom
    telekom's avatar
    Kayıt Tarihi: 28/Temmuz/2005
    Erkek

    İlk verdiğim örnek http://www.marinbezhanov.com/scraper/ sanırım yapmak istediğini yapıyor.
    Birden fazla düzenli ifade eklemesi yapabiliyorsun, veriler db ye ekleniyor ya da istersen cvs olarak indirebiliyorsun.

    Bu sistem aslında güzel ama düzenli ifadeleri elle girmeye izin verse daha esnek olacak.


    vatandaşa kafam girsin!..
  5. KısayolKısayol reportŞikayet pmÖzel Mesaj
    Buremba
    Buremba's avatar
    Kayıt Tarihi: 16/Haziran/2006
    Erkek
    telekom bunu yazdı

    İlk verdiğim örnek http://www.marinbezhanov.com/scraper/ sanırım yapmak istediğini yapıyor.
    Birden fazla düzenli ifade eklemesi yapabiliyorsun, veriler db ye ekleniyor ya da istersen cvs olarak indirebiliyorsun.

    Bu sistem aslında güzel ama düzenli ifadeleri elle girmeye izin verse daha esnek olacak.

    diyorsun ki başlangıç url'si vereceğim ordan regex'e uygun url'leri bulup ordan yürüyüp gidecek. doğru mudur? (bulduğu url'nin içindeki datayı eklemesi gerekiyor veritabanına haliyle, onu full text ile bütün datayı alarak yapabilir, o datayı da mı ayrıştırmak istiyorsun yoksa?)


    . . .. . ... .
  6. KısayolKısayol reportŞikayet pmÖzel Mesaj
    Retro
    by_Tet
    by_Tet's avatar
    Kayıt Tarihi: 22/Mayıs/2012
    Erkek

    Ah şu web kullanıcıları html5'e destek olsaydı bu tür botları <article></article> arasındaki yazıları alarak kolaycana yazabilecektik ama neeerdeee? Millet html5 e geçer biz ozamana bırakırız bu işleri.


    iyibu! yeniden..
  7. KısayolKısayol reportŞikayet pmÖzel Mesaj
    Buremba
    Buremba's avatar
    Kayıt Tarihi: 16/Haziran/2006
    Erkek
    by_Tet bunu yazdı

    Ah şu web kullanıcıları html5'e destek olsaydı bu tür botları arasındaki yazıları alarak kolaycana yazabilecektik ama neeerdeee? Millet html5 e geçer biz ozamana bırakırız bu işleri.

    o standartlaşma olayına daha çok var hocam. :) wordpress temaları filan bile hala uyumlu yapılmıyor html5 iskeletine. :/


    . . .. . ... .
  8. KısayolKısayol reportŞikayet pmÖzel Mesaj
    Retro
    by_Tet
    by_Tet's avatar
    Kayıt Tarihi: 22/Mayıs/2012
    Erkek
    Buremba bunu yazdı
    by_Tet bunu yazdı

    Ah şu web kullanıcıları html5'e destek olsaydı bu tür botları arasındaki yazıları alarak kolaycana yazabilecektik ama neeerdeee? Millet html5 e geçer biz ozamana bırakırız bu işleri.

    o standartlaşma olayına daha çok var hocam. :) wordpress temaları filan bile hala uyumlu yapılmıyor html5 iskeletine. :/

    Ama eğer bu html5 standartlaşırsa bizler için mükemmel bir nimet olacak. Herşeyi çok ama çok basit bir şekilde halledebileceğiz. Bir de css3 yeme de yanında yat valla.


    iyibu! yeniden..
  9. KısayolKısayol reportŞikayet pmÖzel Mesaj
    telekom
    telekom's avatar
    Kayıt Tarihi: 28/Temmuz/2005
    Erkek
    Buremba bunu yazdı
    telekom bunu yazdı

    İlk verdiğim örnek http://www.marinbezhanov.com/scraper/ sanırım yapmak istediğini yapıyor.
    Birden fazla düzenli ifade eklemesi yapabiliyorsun, veriler db ye ekleniyor ya da istersen cvs olarak indirebiliyorsun.

    Bu sistem aslında güzel ama düzenli ifadeleri elle girmeye izin verse daha esnek olacak.

    diyorsun ki başlangıç url'si vereceğim ordan regex'e uygun url'leri bulup ordan yürüyüp gidecek. doğru mudur? (bulduğu url'nin içindeki datayı eklemesi gerekiyor veritabanına haliyle, onu full text ile bütün datayı alarak yapabilir, o datayı da mı ayrıştırmak istiyorsun yoksa?)

    Evet hocam, hatta bir örnek ile açıklayayım.

    Daha öncesinden botunu yaptığım için örnek site vatanbilgisayar.com olsun.
    Ben bu siteyi tamamen indexlemek istemiyorum, onun yerine; ürün resmi, fiyatı, açıklaması varsa yorumlar kısmını almak istiyorum. Yapmak istediğim bu kadar.

    Tabi sadece vatan bilgisayar yok listede, hepsi için teker teker bot yazmak zahmetli ve gereksiz. Zaten tasarımı değiştirdikleri zaman bot işlevsiz hale gelecektir. Universal Web Scraper da istediğim kadar esnek değil.

    Kaba tabirle aradığım, yapmak istediğim: ayarlanabilir indexleme yapan bir örümcek.

     


    vatandaşa kafam girsin!..
  10. KısayolKısayol reportŞikayet pmÖzel Mesaj
    kvasir
    kvasir's avatar
    Kayıt Tarihi: 24/Ağustos/2005
    Erkek
    by_Tet bunu yazdı
    Buremba bunu yazdı
    by_Tet bunu yazdı

    Ah şu web kullanıcıları html5'e destek olsaydı bu tür botları arasındaki yazıları alarak kolaycana yazabilecektik ama neeerdeee? Millet html5 e geçer biz ozamana bırakırız bu işleri.

    o standartlaşma olayına daha çok var hocam. :) wordpress temaları filan bile hala uyumlu yapılmıyor html5 iskeletine. :/

    Ama eğer bu html5 standartlaşırsa bizler için mükemmel bir nimet olacak. Herşeyi çok ama çok basit bir şekilde halledebileceğiz. Bir de css3 yeme de yanında yat valla.

    daha basit olabilir fakat birçok liseli oyundan düşer çünkü HTML5 öğrenmesi uğraş isteyen bir dil bir input tagının bile 10 küsur çeşidi var, standartlaşmasına 2-3 sene daha var.

  11. KısayolKısayol reportŞikayet pmÖzel Mesaj
    telekom
    telekom's avatar
    Kayıt Tarihi: 28/Temmuz/2005
    Erkek

    2. mesaja WebSphinx adlı programı ekledim.

    Düzenleme: Bu da olmadı.

    telekom tarafından 07/Ağu/12 23:55 tarihinde düzenlenmiştir

    vatandaşa kafam girsin!..
Toplam Hit: 2514 Toplam Mesaj: 12