Özgün Arama Motoru Geliştirmek...
-
En basitinden httract bir örümcek. Bir web sitesini offline hale getirmeye yariyor. Sitenin indexinden baslayip oz yinelemeli tüm linkeri ziyaret ediyor.
Basit bir web sitesinde (bir ana sayfa, sekiz alt sayfa, onar alt-alt sayfa diyelim) toplamda doksan bir sayfa dolanacak. Salt html haric bir sey indirmesin ve harici linkleri takip etmesin. Bu siteyi günde bir defa takip etsin. Eğer hedef site htmlnin son güncelleme özelliğini kullanmazsa vs. baştan başla her şeye, diff al, vtde guncelle...
Bunun gibi belki 100 bin siteyi hergün ziyaret edecek.
-
YeniHarman bunu yazdı
En basitinden httract bir örümcek. Bir web sitesini offline hale getirmeye yariyor. Sitenin indexinden baslayip oz yinelemeli tüm linkeri ziyaret ediyor.
Basit bir web sitesinde (bir ana sayfa, sekiz alt sayfa, onar alt-alt sayfa diyelim) toplamda doksan bir sayfa dolanacak. Salt html haric bir sey indirmesin ve harici linkleri takip etmesin. Bu siteyi günde bir defa takip etsin. Eğer hedef site htmlnin son güncelleme özelliğini kullanmazsa vs. baştan başla her şeye, diff al, vtde guncelle...
Bunun gibi belki 100 bin siteyi hergün ziyaret edecek.
ooo bayağı külfetliymiş
-
-
Arama motoru derken like falan sql sorgusu gibi olmaz arkadaslar 2-3 asamalı bir yapı gerekli bir bot yapısı web crawler lar ve onları. aktardıgı veriyi anlamlı hale getiren bir big data veritabanı yapısı ve o dataları hızlı bir sekilde search eden bir indexing yapısı bunlara örnek dersenizde sunlara bknz
web crawler için apache nutch
database için hbase yada mongodb
indexing için solr yada elasticsearch
bunları bilseniz gidiyoo gibi salakca değilde harbi harbi özgün arama motoru yaparsanız kendinizlede alay ettirmezsiniz :)
-
Takip
-
2 sene yandex de calıstıgım icin biliyorum abi cok kasıs ve incik cincik is var. bilmem kac bin tane developer var ve her stepin ayrı ayrı özelligi var.
cok eglenceli ama o kadar da stresli bir is :)
bi de marketi değerlendirmen lazım :) rakipleri vs.
-
3Dxsolid bunu yazdı
Öncelikle şubu belirteyim arama motoru hakkında ufak tefek bilgim var ama altyapısı, bilgileri örümcek denen program ile nasıl çektiği, o kadar bilgiyi database olarak (ya da nasıl yapıyorsa) nasıl barındırıp hızlıca bularak servis ettiği, başlangıç için ne kadarlık bir donanaım ve internet hızı gerektiği,ne tür yazılımlar kullanıldığı hakkında teferruatlı bir teknik bilgi sahibi değilim. Ayrıca son zamanlardaki geliyoo.com olayını da biliyorm. Benim merak ettiğim bu işten anlayan müridler bunun algoritması, kodlaması nasıl, hangi programlar, programlama dilleri, vb. kullanılıyor. Diyelim ufak birşey yaptım. muridaramamotoru.org gibi birşey. Önümdeki yol haritası nedir.?
elasticsearch arastirmani tavsiye ederim indexleme, mapping orada mantigini anlarsin
-
ocr1991 bunu yazdı3Dxsolid bunu yazdı
Öncelikle şubu belirteyim arama motoru hakkında ufak tefek bilgim var ama altyapısı, bilgileri örümcek denen program ile nasıl çektiği, o kadar bilgiyi database olarak (ya da nasıl yapıyorsa) nasıl barındırıp hızlıca bularak servis ettiği, başlangıç için ne kadarlık bir donanaım ve internet hızı gerektiği,ne tür yazılımlar kullanıldığı hakkında teferruatlı bir teknik bilgi sahibi değilim. Ayrıca son zamanlardaki geliyoo.com olayını da biliyorm. Benim merak ettiğim bu işten anlayan müridler bunun algoritması, kodlaması nasıl, hangi programlar, programlama dilleri, vb. kullanılıyor. Diyelim ufak birşey yaptım. muridaramamotoru.org gibi birşey. Önümdeki yol haritası nedir.?
elasticsearch arastirmani tavsiye ederim indexleme, mapping orada mantigini anlarsin
Arkadaşlar verdiğiniz bilgiler ufkumu açtı. Arka planın çok karışık olduğunu tahmin ediyordum. Mesela basşlangıç olarak aramalarda bir yada iki sayfa sonuç çıkarsam büyük başarı. Hani şöyle ufak tefek scriple başlamayı düşünebilirim belki ama rakiplerin arasına girmek için sağlam destek lazım. Türkiye de sırf yerli arama motoru diye günlük 1 milyon kişi girse ben sayfanın yarısını adense gibi reklamlarla doldursam belki olur. Bilen ustalardan, duayenlerden destek almak lazım ona şüphem yok.
-
Ufak tefek bilgin neyden ibaret ? 8 TB lık veriyi parse etmek 1 haftamı aldı 128 gb ramli bir makinede tabi içinde docx pdf parser vs de var orası ayrı.
Bakabileceğin konular başlıklar : Lucene , Solr , Hadoop , Map / Reduce daha sonra scraping vs eğer scraping i regexle falan yapmaya kalkarsan eline alırsın ona uygun şeyler vs vs -
0x656e bunu yazdı
Ufak tefek bilgin neyden ibaret ? 8 TB lık veriyi parse etmek 1 haftamı aldı 128 gb ramli bir makinede tabi içinde docx pdf parser vs de var orası ayrı.
Bakabileceğin konular başlıklar : Lucene , Solr , Hadoop , Map / Reduce daha sonra scraping vs eğer scraping i regexle falan yapmaya kalkarsan eline alırsın ona uygun şeyler vs vsGoogle dan bulabildiklerim, bir de burada yazanlar. Aslen mühendisim ama bu dedikleriniz ayrı şeyler. Sayenizde yavaş yavaş öğreniyorum.