C# İle Word İçeriğini Okumak Ama Biraz Farklı
-
Selam Beyler,
C# ile word dosyasını okuyacağım. Dokuman başlıklardan ve başlık altındaki yazılardan oluşuyor.
Amacım,
Wordde belirtilen başlıklar var mı ?
Başlıklar varsa altında yazı var mı ?
Kontollerini yapmak gerekiyor.
Dokuman içinde olmasını beklediğim başlıklar bende var.
O başlıklar ve altındaki yazıların sadece var olup olmamasına göre sınıflamam gerekiyor.
Örnek:
Dokumanda beklediğim başlıklar : Başlık -1, Başlık -2, Başlık -3, Başlık -4, Başlık -5
**************************************************
dokuman1.docx
Başlık -1
Başlık-1 Altındaki açıklama yazısıdır.
Başlık -2
Başlık-2 Atındaki açıklama yazısıdır.
Başlık -4
Başlık -5
Başlık-5 Atındaki açıklama yazısıdır.
**************************************************
Sonuç:
Başlık -1 : Var
Başlık -2 : Var
Başlık -3: Yok
Başlık -4: Var ama uygun değil. ( Çünkü yazı yok)
Başlık -5 Var.
String matching dışında efektif çözüm önerisi arıyorum.
Önerileriniz benim için önemli. Eğer başarılı olursa binlerce farklı dosyayı sınıflandıracağım.
Teşekkürler.
zeybekustasi tarafından 07/Haz/17 19:19 tarihinde düzenlenmiştir -
Okumayı nasıl yapıyorsun hocam merak ettim ? C#'ın kendi kütüphanesi vs var mı ? Çünkü yanlış hatırlamıyorsam .doc ( x de olabilir ) okumak için ben antiword kullanıyordum.
-
Streamreader ile okuyup baslik ve altinda satir var mi diye kontrol ettirerek neden yapamiyorsun ?
-
Abi eğer docx formatındaysa OpenXML ile biraz uğraşarak yapabilirsin.
-
microsoft.office.interop.word.dll
-
baristbt bunu yazdı
microsoft.office.interop.word.dll
abi bunun için makinada word kurulu olması gerekiyor. bazı durumlarda openxml'den daha kolay olsada bazende kanser edebiliyor.
artık başlığı açan arkadaş bakar iki çözümede
-
visual studio word okuyamıyor mudur nedir yani
-
emirhan-exp bunu yazdı
visual studio word okuyamıyor mudur nedir yani
Hocam MS iki üründe ailesinden olunca öyle bir fikir uyanıyor olabilir ama VS'lik bir durum değil ne yazikki.
-
Docx library işimi fazlasıyla görüyor ama mantıklı string matching yapmak epey düşündürecek. Her dosya birebir aynı değil