Gelen Veride Türkçe Karakter Sorunu

Tahribat.com Forumları
line

Python

Gelen Veride Türkçe Karakter Sorunu

17/Eyl/15 17:57 Kısayol Şikayet Özel Mesaj
iKlotho

Kayıt Tarihi: 06/Haziran/2015
UPDATE: Windows'un code page'i amerika olarak ayarlıymış türkçeye alınca sorun düzeldi.

Can sıkıntısından twitter bot yapmakla uğraşıyorum ancak yazılan twitleri okumaya çalışırken gelen veri türkçe karakterlerde sorun çıkarıyor.

örneğin şuradaki twiti çekmeye çalıştığımda gelen html dosyasında aşağıdaki şekilde twit dönüyor. Coding cp1254 kullanıyorum utf-8 de denedim decode etmeyide denedim olmadı.

requests ve bs modüllerini kullanıyorum.
```
<meta property="og:description" content="â€œyayÄ±n aÃ§Ä±k http://t.co/qoy72iZdqVâ€�">
```
```
def _getTwitContent(self,tId):    
    self.tContentR = self.ssn.get(self.twit_content+tId)
    print self.tContentR.encoding
    tContentR_soup = BeautifulSoup(self.tContentR.content)
    yaz = open('gelen1.html','w')
    yaz.write(self.tContentR.content)
    yaz.close()
    return tContentR_soup.findAll(attrs = {'property':'og:description'})[0]['content']
```
iKlotho tarafından 17/Eyl/15 23:14 tarihinde düzenlenmiştir

Too weird to live, too rare to die.
Alıntı yap
17/Eyl/15 18:39 Kısayol Şikayet Özel Mesaj

YekteranBaymedir

Kayıt Tarihi: 10/Temmuz/2009

windows kullanıosan IDLE dene bağim bi?

ayrıca kodlama tarzın hiç pitonik değil .s.s.s

az daha uğraştıraydın kendini?

YekteranBaymedir tarafından 17/Eyl/15 18:41 tarihinde düzenlenmiştir

Alıntı yap
17/Eyl/15 19:08 Kısayol Şikayet Özel Mesaj

iKlotho

Kayıt Tarihi: 06/Haziran/2015

File "C:\Python27\lib\encodings\cp1252.py", line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_table)
UnicodeEncodeError: 'charmap' codec can't encode character u'\u0131' in position 4: character maps to

Bu hatayı veriyor decode deneyince. Kod aşağıdaki gibi pycharm kullanıyorum ideyi birazdan denicem

def _getTwitContent(self,tId):
        self.tContentR = self.ssn.get(self.twit_content+tId)
        tContentR_soup = BeautifulSoup(self.tContentR.content.decode('utf-8'))
        return tContentR_soup.findAll(attrs = {'property':'og:description'})[0]['content']

iKlotho tarafından 17/Eyl/15 20:48 tarihinde düzenlenmiştir

Too weird to live, too rare to die.

Alıntı yap
19/Eyl/15 00:51 Kısayol Şikayet Özel Mesaj

Allura

Kayıt Tarihi: 17/Mayıs/2009

scrapy scrapy

"

Alıntı yap

Toplam Hit: 1896 Toplam Mesaj: 4
python türkçe karakter sorunu

Cevapla