Преобразование DOC и PDF в текст на Java
Если у вас в системе столько файлов что уже никто найти ничего не может, то это самое оно =)
При загрузке документов можно преобразовывать doc и pdf в текст, и хранить его где то отдельно.
Вот собственно небольшой метод для этого. Document это мой объект где есть сам файл и его свойства.
public String documentToText(Document document) throws IOException{
InputStream is = new ByteArrayInputStream(document.getBytes());
if ("pdf".equals(document.getFileType().toLowerCase())){
PDDocument pdfDoc = PDDocument.load(is);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(pdfDoc);
}
if ("doc".equals(document.getFileType().toLowerCase())){
HWPFDocument doc=new HWPFDocument(is);
WordExtractor wordDoc = new WordExtractor(doc);
return wordDoc.getText();
}
return null;
}