dil | А чем нынче модно на перле с XML работать?

You're viewing

dil's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

November 2019

S	M	T	W	T	F	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Navigation

Page Summary

Style Credit

Style: Blue for Drifting by Jennie Griner
Resources: OSWD design

Expand Cut Tags

No cut tags

А чем нынче модно на перле с XML работать?

dil

Friday, November 25th, 2005 12:37 pm

Задача: зачитать XML (лучше, если при этом будут допускаться небольшие ошибки в виде тегов, закрытых в неправильном порядке. или так не бывает?)
кое-что поудалять, для некоторых поддеревьев выколупать значения и выдать их наружу. В базу.
Всё, ничего более сложного не требуется.

Upd: xml - не самоцель, это промежуточный способ хранения данных, выколупанных из pdf. Если есть возможность работать непосредственно с pdf, то она тоже подойдёт.

Tags:

Flat | Top-Level Comments Only

no subject

dkfl.livejournal.com

Friday, November 25th, 2005 12:45 pm (UTC)

XML::LibXML

Link
Reply

no subject

zarr.livejournal.com

Friday, November 25th, 2005 01:15 pm (UTC)

> (лучше, если при этом будут допускаться небольшие ошибки в виде тегов, закрытых в неправильном порядке. или так не бывает?)

Так не бывает. А не проще написать xslt который будет генерить sql-скрипт, например?...

no subject

dkfl.livejournal.com

Friday, November 25th, 2005 01:22 pm (UTC)

Как это в духе XML - плодить ненужные сущности! xml, xslt потом sql скрипт вместо того чтоб просто освоить Perl.

no subject

zarr.livejournal.com

Monday, November 28th, 2005 07:01 am (UTC)

Лично для меня перл - такая же ненужная сущность, как и xslt... :)

no subject

dil.livejournal.com

Friday, November 25th, 2005 01:28 pm (UTC)

я этот xml получил из pdf посредством pdftohtml. и оказалось, что там в некоторых местах b и i закрываются в неправильном порядке, отсюда и вопрос. Я не знаю, проблема ли это pdftohtml или внутри pdf ошибка, да это и не существенно, вообще говоря :)

Не, xslt совсем не проще, нужна довольно эвристическая обработка.

no subject

ctpeko3a.livejournal.com

Friday, November 25th, 2005 03:02 pm (UTC)

Если тэги закрываются в неправильном порядке, то это что угодно, но не XML.

no subject

dil.livejournal.com

Friday, November 25th, 2005 03:09 pm (UTC)

Да я понимаю, но так уж склалось :)

no subject

bormotov.livejournal.com

Saturday, November 26th, 2005 12:29 pm (UTC)

...значит работать с этой разметкой как с xml сходу не получится.

Если то, что насоветовали будет валиться с ошибками (или потерей содержимого в теех местах где перепутаны теги), то прийдется искать что-то, чем можно ненапряжно пропарстть markup

no subject

zarr.livejournal.com

Monday, November 28th, 2005 07:04 am (UTC)

хех :)
есть тулза которая из html xml делает... tiny называлась раньше...

no subject

knutov.livejournal.com

Friday, November 25th, 2005 01:32 pm (UTC)

на search.cpan.org куча готовых модулей для парсинга. Если не ошибаюсь - есть несколько, которые делают из XML хеш хешей.

Для pdf там тоже что-то было, но что - не помню. в ru.perl (кажется)обсуждалось несколько месяцев назад, там говорили каким модулем работать удобнее всего.

no subject

dil.livejournal.com

Friday, November 25th, 2005 01:34 pm (UTC)

вот в том-то и проблема, что куча. а мне выбирать, что лучше, некогда. потому и спрашиваю, чем люди пользуются :)

no subject

dkfl.livejournal.com

Friday, November 25th, 2005 03:14 pm (UTC)

есть книжка O'Reilly Perl & XML чес-слово таи описано все чем можно пользоваться.

no subject

dil.livejournal.com

Friday, November 25th, 2005 03:24 pm (UTC)

Она, конечно, есть, но за 35 баксов и в Штатах..

no subject

dkfl.livejournal.com

Friday, November 25th, 2005 03:46 pm (UTC)

ты эта, не чуди... http://safari.oreilly.com 14 дней бесплатного чтения любой книги oreilly онлайн, да да и посик тоде рулит oreilly perl xml pdf

no subject

dil.livejournal.com

Friday, November 25th, 2005 03:30 pm (UTC)

Нашёл за бесплатно. Спасибо, буду читать.

no subject

ohw.livejournal.com

Friday, November 25th, 2005 02:06 pm (UTC)

expat - стандартная c-библиотека с простым api.

no subject

dil.livejournal.com

Friday, November 25th, 2005 02:19 pm (UTC)

спасибо, c не пойдёт. меня эффективность не волнует, мне надо быстро написать.

no subject

asd.livejournal.com

Friday, November 25th, 2005 03:20 pm (UTC)

XML::Simple

no subject

dil.livejournal.com

Monday, November 28th, 2005 12:48 am (UTC)

Как оказалось - не катит. Там порядок узлов не сохраняется, потому что они складываются не в массив, а в хэш.

no subject

http://users.livejournal.com/_kleptos_/

Friday, November 25th, 2005 02:07 pm (UTC)

XML::Simple - прост как палка, есть пару фишек, может хватит, фроненд к другим
XML::Parser - первый и самый неюзабельный, идёт с пёрлом
XML::SAX - фронтенд к саксу, говят гуть

Link
Reply

Flat | Top-Level Comments Only