Парсер HTML файла - Форум на CrossPlatform.RU

crossplatform.ru

Форумы по кроссплатформенному программированию

CrossPlatform.RU портал

Документация

Соглашение

Пользователи

Календарь

Теги форума

Здравствуйте, гость ( Вход | Регистрация )

Форум на CrossPlatform.RU > Библиотеки > Qt > Qt Ввод/Вывод, Сеть. Межпроцессное взаимодействие

2 страниц

< 1 2

Ответить в данную тему

Начать новую тему

Парсер HTML файла

++Norton++ опции профиля: Просмотр профиля	21.11.2009, 22:52 Сообщение #11
Студент Группа: Участник Сообщений: 98 Регистрация: 5.10.2008 Пользователь №: 380 Спасибо сказали: 0 раз(а) Репутация: 1	Спасибо за советы! Вот, кстати, пример куска хтмл файла: <tbody> <tr class="thead" valign="bottom"> <td rowspan="1" width="80%">Text</td> <td align="right" width="20%">Some info:</td> </tr> <tr class="list" bgcolor="#ffffff"> <td> <a href="?cmd=words&page=1&inf=7423&secret=deae3a1c7690f&ps=%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B8">текст1</a> </td> <td align="right">5701375</td> </tr> <tr class="list" bgcolor="#eeeeee"> <td> <a href="?cmd=words&page=1&inf=12704&secret=d115239573deae3a1c7690f&ps=%D1%82%D0%B5%D0%BA%D1%81%D1%82">текст2</a> </td> <td align="right">5701027</td> </tr> <tr class="list" bgcolor="#ffffff"> <td> <a href="?cmd=words&page=1&inf=125704&secret=67c115239573deae3a1c7690f&ps=%D1%82%D0%B5%D0%BA%D1%81%D1%82%20%D0%BF%D0%B5%D1%81%D0%BD%D0%B8">текст3</a> </td> <td align="right">2804612</td> </tr> <tr class="tlist" bgcolor="#eeeeee"> ........ Вот. Из такого кода нужно выдрать текст1, текст2, текст3 а также те числа, что идут после ссылки, т.е. в теге td align=right. Т.е. в данном примере после первой ссылки это 5701375, после второй 5701027, после третьей 2804612. Заранее еще раз спасибо!

++Norton++ опции профиля: Просмотр профиля	29.11.2009, 14:16 Сообщение #12
Студент Группа: Участник Сообщений: 98 Регистрация: 5.10.2008 Пользователь №: 380 Спасибо сказали: 0 раз(а) Репутация: 1	Сделал регулярку, как посоветовал rcdimon. Получилось вроде этого: `QRegExp rx("<a.+href.=.\"(.+?)\">(.+?)</a.*>"); while ((pos = rx.indexIn(Page, pos)) != -1) { parserList->append( rx.cap(1) ); pos += rx.matchedLength(); }` Однако ничего не парсит С другой регуляркой работает нормально. Подскажите, дело в регулярке или нужно использовать не "rx.cap" а что-то другое?

trdm опции профиля: Просмотр профиля	29.11.2009, 20:10 Сообщение #13
Дмитрий Трошин Группа: Участник Сообщений: 575 Регистрация: 12.1.2008 Пользователь №: 68 Спасибо сказали: 21 раз(а) Репутация: 6	Блин, я где-то нарывался на html парсер на основе бизона. Вот бы его в либу оформить, можно было бы просто подключать к проекту.

« Предыдущая тема · Qt Ввод/Вывод, Сеть. Межпроцессное взаимодействие · Следующая тема »

2 страниц

< 1 2

Быстрый ответ

Ответить в данную тему

Начать новую тему

Теги

Нет тегов для показа

1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)

Пользователей: 0

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Текстовая версия

Сейчас: 20.4.2024, 15:13

Форум IP.Board © 2024 IPS, Inc.

Лицензия зарегистрирована на: CrossPlatform.RU