Задача: зачитать XML (лучше, если при этом будут допускаться небольшие ошибки в виде тегов, закрытых в неправильном порядке. или так не бывает?)
кое-что поудалять, для некоторых поддеревьев выколупать значения и выдать их наружу. В базу.
Всё, ничего более сложного не требуется.
Upd: xml - не самоцель, это промежуточный способ хранения данных, выколупанных из pdf. Если есть возможность работать непосредственно с pdf, то она тоже подойдёт.
кое-что поудалять, для некоторых поддеревьев выколупать значения и выдать их наружу. В базу.
Всё, ничего более сложного не требуется.
Upd: xml - не самоцель, это промежуточный способ хранения данных, выколупанных из pdf. Если есть возможность работать непосредственно с pdf, то она тоже подойдёт.
no subject
Так не бывает. А не проще написать xslt который будет генерить sql-скрипт, например?...
no subject
no subject
no subject
Не, xslt совсем не проще, нужна довольно эвристическая обработка.
no subject
no subject
no subject
Если то, что насоветовали будет валиться с ошибками (или потерей содержимого в теех местах где перепутаны теги), то прийдется искать что-то, чем можно ненапряжно пропарстть markup
no subject
есть тулза которая из html xml делает... tiny называлась раньше...