folder Tahribat.com Forumları
linefolder Python
linefolder Zone-H Parser Maceram [Python]



Zone-H Parser Maceram [Python]

  1. KısayolKısayol reportŞikayet pmÖzel Mesaj
    nick6
    0x656e
    0x656e's avatar
    Kayıt Tarihi: 19/Mayıs/2012
    Homo

    Zone-H.com'u bilmeyen yoktur herhalde.Kısaca bahsetmek gerekirse blackhat hackerların deface ettikleri sitelerin bir nevi screenshot/snapshot'unu alan bir site.Çok güzel bilgiler barındırabiliyor.Örnek vermek gerekirse Turkiye'de bu site üzerinde kayıtlı kaç blackhat hacker grub/kişi var veya bunlar kaç defacement yapmış şeklinde güzel datalar sağlanabilir.

    Bende parse etmeye çalışayım dedim.Bizim baştacımız olan python modüllerinden <strong style="-sizing: border-;">requests ,<strong style="-sizing: border-;"> lxml 'in işimizi görebileceğini düşündüm.Fakat istek yaptığımda bana response olarak içinde bolca şifrelenmiş veri gönderen bir zone-h karşıma çıktı tabi ki bunun yanında captcha ise cabasıydı.Biraz araştırma ile aşağıda vereceğim bir yazı da şifrelenmiş kodları decode etmek için bir yol var.İyi hoş fakat bu seferde captcha sorunu karşımıza çıkıyordu.Bende farklı yollara girdim ve iyi ki de girmişim dedim.
    Decode edebileceğiniz yöntem:https://blog.amilx.com/scaping-zone-h/

    Şimdi parse etmek için yıllara göre filtreleme seçenekleri kullanmak istedim. Bundan önce öncelikle bi sitemap.xml e bakmak istedim çünkü eğer sitemap.xml de aşağıda ki gibi bir yapı var ise bu benim işimi çok büyük ölçüde kolaylaştıracaktı.İşimi kolaylaştırabilecek bir yapı aşağıda ki resimde bulunuyor.
    zoneh2
    Gördüğünüz gibi googlebots vs sitemap i otomatik oluşturulan xml lerden çekiyor.
    zoneh3

    Fakat zone-h'da böyle bir yapı bulamadım.
    zoneh4

    Neyse salaklığıma denk gelmiş ve bulamamış da olabilirim.Eğer bulabilirseniz yorum mention herhangi bir şekilde yorumunuzu alabilirim Neyse bende id üzerinden gitmeye karar verdim.

    zoneh1
    Bu şekilde ilk id den başlayıp sonuna kadar gidecektim.Projemde selenium kullandım.(Çünkü captcha ve bazı mirrorlarda hata oluyor.)
    Hatalı bir mirror örneği: Hatalı mirror url

    Neyse kodlara geçelim.

     

    Kod kısmını berbat syntax highlighter yüzünden paylaşamıyorum.


    kodların devamı için : https://0x6.pw/zone-h-parser.html


    0x656e tarafından 21/Tem/16 17:35 tarihinde düzenlenmiştir
  2. KısayolKısayol reportŞikayet pmÖzel Mesaj
    nickalti
    Lightsaber
    Lightsaber's avatar
    Kayıt Tarihi: 29/Ağustos/2012
    Erkek

    Hız nasıl?

    Bir de captcha zormuş hakkaten, ben bile çözemiyorum bazısını :D


    İnsan; insan olsaydı,insan olmazdı..
  3. KısayolKısayol reportŞikayet pmÖzel Mesaj
    nick6
    0x656e
    0x656e's avatar
    Kayıt Tarihi: 19/Mayıs/2012
    Homo
    Lightsaber bunu yazdı

    Hız nasıl?

    Bir de captcha zormuş hakkaten, ben bile çözemiyorum bazısını :D

    Hız olarak ilk id yi getirmesi uzun sürebiliyor ama sonrasını cacheleyip(sanırım) çok  daha hızlı çalışıyor.

    Captcha zor ya ama 30 dk da bir çıkıyor sanırım hani request miktarına değilde cookie nin bitişine bakıyor büyük ihtimal 

Toplam Hit: 1664 Toplam Mesaj: 3
python selenium