Задача: зачитать XML (лучше, если при этом будут допускаться небольшие ошибки в виде тегов, закрытых в неправильном порядке. или так не бывает?)
кое-что поудалять, для некоторых поддеревьев выколупать значения и выдать их наружу. В базу.
Всё, ничего более сложного не требуется.
Upd: xml - не самоцель, это промежуточный способ хранения данных, выколупанных из pdf. Если есть возможность работать непосредственно с pdf, то она тоже подойдёт.
кое-что поудалять, для некоторых поддеревьев выколупать значения и выдать их наружу. В базу.
Всё, ничего более сложного не требуется.
Upd: xml - не самоцель, это промежуточный способ хранения данных, выколупанных из pdf. Если есть возможность работать непосредственно с pdf, то она тоже подойдёт.
no subject
no subject
Так не бывает. А не проще написать xslt который будет генерить sql-скрипт, например?...
no subject
no subject
no subject
Не, xslt совсем не проще, нужна довольно эвристическая обработка.
no subject
no subject
no subject
Если то, что насоветовали будет валиться с ошибками (или потерей содержимого в теех местах где перепутаны теги), то прийдется искать что-то, чем можно ненапряжно пропарстть markup
no subject
есть тулза которая из html xml делает... tiny называлась раньше...
no subject
Для pdf там тоже что-то было, но что - не помню. в ru.perl (кажется)обсуждалось несколько месяцев назад, там говорили каким модулем работать удобнее всего.
no subject
no subject
no subject
no subject
no subject
no subject
no subject
no subject
no subject
no subject
XML::Parser - первый и самый неюзабельный, идёт с пёрлом
XML::SAX - фронтенд к саксу, говят гуть