Zone-H Parser Maceram [Python]
-
Zone-H.com'u bilmeyen yoktur herhalde.Kısaca bahsetmek gerekirse blackhat hackerların deface ettikleri sitelerin bir nevi screenshot/snapshot'unu alan bir site.Çok güzel bilgiler barındırabiliyor.Örnek vermek gerekirse Turkiye'de bu site üzerinde kayıtlı kaç blackhat hacker grub/kişi var veya bunlar kaç defacement yapmış şeklinde güzel datalar sağlanabilir.
Bende parse etmeye çalışayım dedim.Bizim baştacımız olan python modüllerinden <strong style="-sizing: border-;">requests ,<strong style="-sizing: border-;"> lxml 'in işimizi görebileceğini düşündüm.Fakat istek yaptığımda bana response olarak içinde bolca şifrelenmiş veri gönderen bir zone-h karşıma çıktı tabi ki bunun yanında captcha ise cabasıydı.Biraz araştırma ile aşağıda vereceğim bir yazı da şifrelenmiş kodları decode etmek için bir yol var.İyi hoş fakat bu seferde captcha sorunu karşımıza çıkıyordu.Bende farklı yollara girdim ve iyi ki de girmişim dedim.
Decode edebileceğiniz yöntem:https://blog.amilx.com/scaping-zone-h/Şimdi parse etmek için yıllara göre filtreleme seçenekleri kullanmak istedim. Bundan önce öncelikle bi sitemap.xml e bakmak istedim çünkü eğer sitemap.xml de aşağıda ki gibi bir yapı var ise bu benim işimi çok büyük ölçüde kolaylaştıracaktı.İşimi kolaylaştırabilecek bir yapı aşağıda ki resimde bulunuyor.
Gördüğünüz gibi googlebots vs sitemap i otomatik oluşturulan xml lerden çekiyor.Fakat zone-h'da böyle bir yapı bulamadım.
Neyse salaklığıma denk gelmiş ve bulamamış da olabilirim.Eğer bulabilirseniz yorum mention herhangi bir şekilde yorumunuzu alabilirim Neyse bende id üzerinden gitmeye karar verdim.
Bu şekilde ilk id den başlayıp sonuna kadar gidecektim.Projemde selenium kullandım.(Çünkü captcha ve bazı mirrorlarda hata oluyor.)
Hatalı bir mirror örneği: Hatalı mirror urlNeyse kodlara geçelim.
Kod kısmını berbat syntax highlighter yüzünden paylaşamıyorum.
0x656e tarafından 21/Tem/16 17:35 tarihinde düzenlenmiştir
kodların devamı için : https://0x6.pw/zone-h-parser.html -
Hız nasıl?
Bir de captcha zormuş hakkaten, ben bile çözemiyorum bazısını :D
-
Lightsaber bunu yazdı
Hız nasıl?
Bir de captcha zormuş hakkaten, ben bile çözemiyorum bazısını :D
Hız olarak ilk id yi getirmesi uzun sürebiliyor ama sonrasını cacheleyip(sanırım) çok daha hızlı çalışıyor.
Captcha zor ya ama 30 dk da bir çıkıyor sanırım hani request miktarına değilde cookie nin bitişine bakıyor büyük ihtimal