folder Tahribat.com Forumları
linefolder Google / Yandex / Bing ve Servisleri
linefolder Özgün Arama Motoru Geliştirmek...



Özgün Arama Motoru Geliştirmek...

  1. KısayolKısayol reportŞikayet pmÖzel Mesaj
    YeniHarman
    YeniHarman's avatar
    Kayıt Tarihi: 17/Haziran/2012
    Erkek

    En basitinden httract bir örümcek. Bir web sitesini offline hale getirmeye yariyor. Sitenin indexinden baslayip oz yinelemeli tüm linkeri ziyaret ediyor.

    Basit bir web sitesinde (bir ana sayfa, sekiz alt sayfa, onar alt-alt sayfa diyelim) toplamda doksan bir sayfa dolanacak. Salt html haric bir sey indirmesin ve harici linkleri takip etmesin. Bu siteyi günde bir defa takip etsin. Eğer hedef site htmlnin son güncelleme özelliğini kullanmazsa vs. baştan başla her şeye, diff al, vtde guncelle...

    Bunun gibi belki 100 bin siteyi hergün ziyaret edecek. 


    Olaylara karışmayın!
  2. KısayolKısayol reportŞikayet pmÖzel Mesaj
    3Dxsolid
    3Dxsolid's avatar
    Kayıt Tarihi: 14/Aralık/2009
    Erkek
    YeniHarman bunu yazdı

    En basitinden httract bir örümcek. Bir web sitesini offline hale getirmeye yariyor. Sitenin indexinden baslayip oz yinelemeli tüm linkeri ziyaret ediyor.

    Basit bir web sitesinde (bir ana sayfa, sekiz alt sayfa, onar alt-alt sayfa diyelim) toplamda doksan bir sayfa dolanacak. Salt html haric bir sey indirmesin ve harici linkleri takip etmesin. Bu siteyi günde bir defa takip etsin. Eğer hedef site htmlnin son güncelleme özelliğini kullanmazsa vs. baştan başla her şeye, diff al, vtde guncelle...

    Bunun gibi belki 100 bin siteyi hergün ziyaret edecek. 

    ooo bayağı külfetliymiş


    Hayırlısı...
  3. KısayolKısayol reportŞikayet pmÖzel Mesaj
    SerYolcu
    SerYolcu's avatar
    Kayıt Tarihi: 14/Ocak/2010
    Erkek

    Fikir vermesi açısından.

    Detaylı araştırmadım.

    Google : Open Source Web Search Engine


    Ondan çocuk olmamıştır (Kimsenin babası değildir). Kendisi de doğmamıştır (kimsenin çocuğu değildir). İhlas Suresi 3 üncü ayette bunlar yazar.
  4. KısayolKısayol reportŞikayet pmÖzel Mesaj
    DesertSun
    DesertSun's avatar
    Kayıt Tarihi: 10/Eylül/2002
    Erkek

    Arama motoru derken like falan sql sorgusu gibi olmaz arkadaslar 2-3 asamalı bir yapı gerekli bir bot yapısı web crawler lar ve onları. aktardıgı veriyi anlamlı hale getiren bir big data veritabanı yapısı ve o dataları hızlı bir sekilde search eden bir indexing yapısı bunlara örnek dersenizde sunlara bknz

    web crawler için apache nutch

    database için hbase yada mongodb

    indexing için solr yada elasticsearch

    bunları bilseniz gidiyoo gibi salakca değilde harbi harbi özgün arama motoru yaparsanız kendinizlede alay ettirmezsiniz :)


    ::: REALHACKERS.NET ADMIN :::
  5. KısayolKısayol reportŞikayet pmÖzel Mesaj
    uz-i
    uz-i's avatar
    Kayıt Tarihi: 28/Aralık/2005
    Erkek

    Takip


    cnc prog. ugs nx solid autocad [IMG]http://img66.imageshack.us/img66/3489/adslnahalirsin5ry6in5ci4md.gif[/IMG]
  6. KısayolKısayol reportŞikayet pmÖzel Mesaj
    nurk
    nurk's avatar
    Üstün Hizmet Madalyası
    Kayıt Tarihi: 15/Eylül/2006
    Erkek

    2 sene yandex de calıstıgım icin biliyorum abi cok kasıs ve incik cincik is var. bilmem kac bin tane developer var ve her stepin ayrı ayrı özelligi var.

    cok eglenceli ama o kadar da stresli bir is :)

    bi de marketi değerlendirmen lazım :) rakipleri vs.


    [22817//kaanabak]
  7. KısayolKısayol reportŞikayet pmÖzel Mesaj
    ocr1991
    ocr1991's avatar
    Kayıt Tarihi: 29/Kasım/2013
    Erkek
    3Dxsolid bunu yazdı

    Öncelikle şubu belirteyim arama motoru hakkında ufak tefek bilgim var ama altyapısı, bilgileri örümcek denen program ile nasıl çektiği, o kadar bilgiyi database olarak (ya da nasıl yapıyorsa) nasıl barındırıp hızlıca bularak servis ettiği, başlangıç için ne kadarlık bir donanaım ve internet hızı gerektiği,ne tür yazılımlar kullanıldığı hakkında teferruatlı bir teknik bilgi sahibi değilim. Ayrıca son zamanlardaki geliyoo.com olayını da biliyorm. Benim merak ettiğim bu işten anlayan müridler bunun algoritması, kodlaması nasıl, hangi programlar, programlama dilleri, vb. kullanılıyor. Diyelim ufak birşey yaptım. muridaramamotoru.org gibi birşey. Önümdeki yol haritası nedir.?

      elasticsearch arastirmani tavsiye ederim indexleme, mapping orada mantigini anlarsin 

  8. KısayolKısayol reportŞikayet pmÖzel Mesaj
    3Dxsolid
    3Dxsolid's avatar
    Kayıt Tarihi: 14/Aralık/2009
    Erkek
    ocr1991 bunu yazdı
    3Dxsolid bunu yazdı

    Öncelikle şubu belirteyim arama motoru hakkında ufak tefek bilgim var ama altyapısı, bilgileri örümcek denen program ile nasıl çektiği, o kadar bilgiyi database olarak (ya da nasıl yapıyorsa) nasıl barındırıp hızlıca bularak servis ettiği, başlangıç için ne kadarlık bir donanaım ve internet hızı gerektiği,ne tür yazılımlar kullanıldığı hakkında teferruatlı bir teknik bilgi sahibi değilim. Ayrıca son zamanlardaki geliyoo.com olayını da biliyorm. Benim merak ettiğim bu işten anlayan müridler bunun algoritması, kodlaması nasıl, hangi programlar, programlama dilleri, vb. kullanılıyor. Diyelim ufak birşey yaptım. muridaramamotoru.org gibi birşey. Önümdeki yol haritası nedir.?

      elasticsearch arastirmani tavsiye ederim indexleme, mapping orada mantigini anlarsin 

    Arkadaşlar verdiğiniz bilgiler ufkumu açtı. Arka planın çok karışık olduğunu tahmin ediyordum. Mesela basşlangıç olarak aramalarda bir yada iki sayfa sonuç çıkarsam büyük başarı. Hani şöyle ufak tefek scriple başlamayı düşünebilirim belki ama rakiplerin arasına girmek için sağlam destek lazım. Türkiye de sırf yerli arama motoru diye günlük 1 milyon kişi girse ben sayfanın yarısını adense gibi reklamlarla doldursam belki olur. Bilen ustalardan, duayenlerden destek almak lazım ona şüphem yok.


    Hayırlısı...
  9. KısayolKısayol reportŞikayet pmÖzel Mesaj
    nick6
    0x656e
    0x656e's avatar
    Kayıt Tarihi: 19/Mayıs/2012
    Homo

    Ufak tefek bilgin neyden ibaret ? 8 TB lık veriyi parse etmek 1 haftamı aldı 128 gb ramli bir makinede tabi içinde docx pdf parser vs de var orası ayrı.



    Bakabileceğin konular başlıklar : Lucene , Solr , Hadoop , Map / Reduce daha sonra scraping vs eğer scraping i regexle falan yapmaya kalkarsan eline alırsın ona uygun şeyler vs vs 

  10. KısayolKısayol reportŞikayet pmÖzel Mesaj
    3Dxsolid
    3Dxsolid's avatar
    Kayıt Tarihi: 14/Aralık/2009
    Erkek
    0x656e bunu yazdı

    Ufak tefek bilgin neyden ibaret ? 8 TB lık veriyi parse etmek 1 haftamı aldı 128 gb ramli bir makinede tabi içinde docx pdf parser vs de var orası ayrı.



    Bakabileceğin konular başlıklar : Lucene , Solr , Hadoop , Map / Reduce daha sonra scraping vs eğer scraping i regexle falan yapmaya kalkarsan eline alırsın ona uygun şeyler vs vs 

    Google dan bulabildiklerim, bir de burada yazanlar. Aslen mühendisim ama bu dedikleriniz ayrı şeyler. Sayenizde yavaş yavaş öğreniyorum.


    Hayırlısı...
Toplam Hit: 4923 Toplam Mesaj: 34
arama yerli motoru müridaramamotoru.org bilgi havuzu