![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
++Norton++ |
![]()
Сообщение
#1
|
Студент ![]() Группа: Участник Сообщений: 98 Регистрация: 5.10.2008 Пользователь №: 380 Спасибо сказали: 0 раз(а) Репутация: ![]() ![]() ![]() |
Есть куча файлов html. Из этих файлов ничего не надо, кроме того что стоит в тегах href с одинаково начинающимся адресом. Т.е. html документ имеет примерно такой вид:
Собственно нужно спарсить текст (хотя бы в QString) находящийся на месте "ТекстДляПарсинга" и то, что за ним, т.е. 1234. Подскажите, как это лучше всего будет сделать? Просто никогда раньше парсеры не приходилось писать. Заранее спасибо! |
|
|
![]() |
++Norton++ |
![]()
Сообщение
#11
|
Студент ![]() Группа: Участник Сообщений: 98 Регистрация: 5.10.2008 Пользователь №: 380 Спасибо сказали: 0 раз(а) Репутация: ![]() ![]() ![]() |
Спасибо за советы! Вот, кстати, пример куска хтмл файла:
Вот. Из такого кода нужно выдрать текст1, текст2, текст3 а также те числа, что идут после ссылки, т.е. в теге td align=right. Т.е. в данном примере после первой ссылки это 5701375, после второй 5701027, после третьей 2804612. Заранее еще раз спасибо! |
|
|
++Norton++ |
![]()
Сообщение
#12
|
Студент ![]() Группа: Участник Сообщений: 98 Регистрация: 5.10.2008 Пользователь №: 380 Спасибо сказали: 0 раз(а) Репутация: ![]() ![]() ![]() |
Сделал регулярку, как посоветовал rcdimon. Получилось вроде этого:
Однако ничего не парсит ![]() |
|
|
trdm |
![]()
Сообщение
#13
|
Дмитрий Трошин ![]() ![]() ![]() ![]() Группа: Участник Сообщений: 575 Регистрация: 12.1.2008 Пользователь №: 68 Спасибо сказали: 21 раз(а) Репутация: ![]() ![]() ![]() |
Блин, я где-то нарывался на html парсер на основе бизона.
Вот бы его в либу оформить, можно было бы просто подключать к проекту. |
|
|
![]() ![]() ![]() |
![]() |
|
Текстовая версия | Сейчас: 22.6.2025, 5:37 |