Maxim Dadynsky
Блог программиста

Преобразование DOC и PDF в текст на Java

Февраль 1st 2011 в Новости

Если у вас в системе столько файлов что уже никто найти ничего не может, то это самое оно =)
При загрузке документов можно преобразовывать doc и pdf в текст, и хранить его где то отдельно.
Вот собственно небольшой метод для этого. Document это мой объект где есть сам файл и его свойства.
public String documentToText(Document document) throws IOException{
InputStream is = new ByteArrayInputStream(document.getBytes());

if ("pdf".equals(document.getFileType().toLowerCase())){
PDDocument pdfDoc = PDDocument.load(is);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(pdfDoc);
}
if ("doc".equals(document.getFileType().toLowerCase())){
HWPFDocument doc=new HWPFDocument(is);
WordExtractor wordDoc = new WordExtractor(doc);
return wordDoc.getText();
}

return null;
}


Комментарии закрыты.

Очень порадовала убунта своей легкостью утсановки софта.
Но за это пришлось отдать некорое время на настройку :)

И так mySQL поставился конечно же с кодировкой latin что не входило в мои планы и я решил это дело исправить.
Делается все просто, нужно поправить файл /etc/mysql/my.cnf

Добавлены были следующие строки

set-variable = default-character-set=utf8
default-character-set=utf8
character-set-server=utf8
collation-server=utf8_general_ci
init-connect=”SET NAMES utf8″
skip-character-set-client-handshake

Собственно после этого все заработало как надо.

Предыдущие записи

Добавив новый параметр в файл properties возникает вопрос как будет себя вести приложение если такой параметр не задали в файле.
Если параметра не будет то спринг выругается так: [serviceContext.xml]: Could not resolve placeholder

Решается ситуация настройкой ignoreUnresolvablePlaceholders:

< bean id=propertyConfigurer class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer">
< property name="location" value="classpath:jdbc.properties" />
< property name=”ignoreUnresolvablePlaceholders” [...]

Следующие записи

Комментарии
  • Без комментариев
Рубрики
БлогРолл