dil | А чем нынче модно на перле с XML работать?

You're viewing

dil's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

November 2019

S	M	T	W	T	F	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Navigation

Page Summary

dil.livejournal.com - (no subject)

Style Credit

Style: Blue for Drifting by Jennie Griner
Resources: OSWD design

Expand Cut Tags

No cut tags

А чем нынче модно на перле с XML работать?

dil

Friday, November 25th, 2005 12:37 pm

Задача: зачитать XML (лучше, если при этом будут допускаться небольшие ошибки в виде тегов, закрытых в неправильном порядке. или так не бывает?)
кое-что поудалять, для некоторых поддеревьев выколупать значения и выдать их наружу. В базу.
Всё, ничего более сложного не требуется.

Upd: xml - не самоцель, это промежуточный способ хранения данных, выколупанных из pdf. Если есть возможность работать непосредственно с pdf, то она тоже подойдёт.

Tags:

Flat | Top-Level Comments Only

no subject

dil.livejournal.com

Friday, November 25th, 2005 01:28 pm (UTC)

я этот xml получил из pdf посредством pdftohtml. и оказалось, что там в некоторых местах b и i закрываются в неправильном порядке, отсюда и вопрос. Я не знаю, проблема ли это pdftohtml или внутри pdf ошибка, да это и не существенно, вообще говоря :)

Не, xslt совсем не проще, нужна довольно эвристическая обработка.

no subject

ctpeko3a.livejournal.com

Friday, November 25th, 2005 03:02 pm (UTC)

Если тэги закрываются в неправильном порядке, то это что угодно, но не XML.

no subject

dil.livejournal.com

Friday, November 25th, 2005 03:09 pm (UTC)

Да я понимаю, но так уж склалось :)

no subject

bormotov.livejournal.com

Saturday, November 26th, 2005 12:29 pm (UTC)

...значит работать с этой разметкой как с xml сходу не получится.

Если то, что насоветовали будет валиться с ошибками (или потерей содержимого в теех местах где перепутаны теги), то прийдется искать что-то, чем можно ненапряжно пропарстть markup

no subject

zarr.livejournal.com

Monday, November 28th, 2005 07:04 am (UTC)

хех :)
есть тулза которая из html xml делает... tiny называлась раньше...

Flat | Top-Level Comments Only

файл отрицательного размера

переезжаем из жежешечки

November 2019

Navigation

Page Summary

Style Credit

Expand Cut Tags

А чем нынче модно на перле с XML работать?

no subject

no subject

no subject

no subject

no subject