Gelen Veride Türkçe Karakter Sorunu
-
UPDATE: Windows'un code page'i amerika olarak ayarlıymış türkçeye alınca sorun düzeldi.
Can sıkıntısından twitter bot yapmakla uğraşıyorum ancak yazılan twitleri okumaya çalışırken gelen veri türkçe karakterlerde sorun çıkarıyor.
örneğin şuradaki twiti çekmeye çalıştığımda gelen html dosyasında aşağıdaki şekilde twit dönüyor. Coding cp1254 kullanıyorum utf-8 de denedim decode etmeyide denedim olmadı.
requests ve bs modüllerini kullanıyorum.
<meta property="og:description" content="“yayın açık http://t.co/qoy72iZdqV�">
def _getTwitContent(self,tId):
iKlotho tarafından 17/Eyl/15 23:14 tarihinde düzenlenmiştir
self.tContentR = self.ssn.get(self.twit_content+tId) print self.tContentR.encoding tContentR_soup = BeautifulSoup(self.tContentR.content) yaz = open('gelen1.html','w') yaz.write(self.tContentR.content) yaz.close() return tContentR_soup.findAll(attrs = {'property':'og:description'})[0]['content'] -
windows kullanıosan IDLE dene bağim bi?
ayrıca kodlama tarzın hiç pitonik değil .s.s.s
az daha uğraştıraydın kendini?
-
File "C:\Python27\lib\encodings\cp1252.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_table)
UnicodeEncodeError: 'charmap' codec can't encode character u'\u0131' in position 4: character maps toBu hatayı veriyor decode deneyince. Kod aşağıdaki gibi pycharm kullanıyorum ideyi birazdan denicem
def _getTwitContent(self,tId):
self.tContentR = self.ssn.get(self.twit_content+tId)
tContentR_soup = BeautifulSoup(self.tContentR.content.decode('utf-8'))
return tContentR_soup.findAll(attrs = {'property':'og:description'})[0]['content'] -
scrapy scrapy