Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Регулярное выражение от <form...> до первого </form>
Форум на CrossPlatform.RU > Библиотеки > Другие библиотеки
ViGOur
Есть HTML документ, в нем есть две формы (form). Мне нужно получить все, что внутри первого form, пишу выражение:
<form[^>]+>([^<>]*)</form>
но почему-то получаю данные до второго </form>, а не до первого.
Как нужно составить регулярное выражение, чтобы получить данные только из первой формы.
Andrew Selivanov
На Perl-e это делается так...
$test =~ m/<form>(.+?)<\/form>/;
print "$1\n";
Tonal
Цитата(ViGOur @ 13.8.2008, 20:26) *
<form[^>]+>([^<>]*)</form>
но почему-то получаю данные до второго </form>, а не до первого.

Поставь ? после *
Это сделает повторитель "не жадным".
"Жадный" повторитель захватывает сразу всё сколько может, а потом отдаёт если остаток выражения не совпадает.
"Нежадный" наоборот, после захвата минимально возможного количества символов, отдаёт управление дальше, и если совпадений там нет, кушает следующий доступный. :)

P.S. Кстати, изменение не проканают - у тебя между тегами form стоит ([^<>]*) - т.е. взять любую последовательность символов в которой не встречаются символы <> - т.е. при встрече первого же тега (а это скорее всего будет не </form> оно остановиться. И выражение обломается.
Так что тебе нужно его заменить (как правильно написал Andrew Selivanov) на такое: (.+?)
ViGOur
Понял, я только начинаю вникать в регулярные выражения.

Но в Qt'шной тулзе RegExp выражения (.+?) и (.*?) не работают. :(
Tonal
Там нужно 2 вариант синтаксиса включить: QRegExp::RegExp2
ViGOur
Неа, не идет, вот пример:
    QString szBody = "<form[^>]+>(.+?)</form>";
    // ...
    QString sz;
    QRegExp rx( szBody, Qt::CaseInsensitive, QRegExp::RegExp2);
    int pos = rx.indexIn( szData);
    if (pos > -1)
    {
        sz = rx.cap( 1);
    }
В szData прочитанный HTML документ.

Да и тулза не съедает тоже. :(
Litkevich Yuriy
ViGOur, а если вместо
(.+?)
так
({.+}?)
ViGOur
Тоже самое, сам глянь с помощью утилиты RegExp, которая находится в %qtdir%\examples\tools\regexp
Tonal
Ага, проверил. Qt действительно не понимает конструкций +?, *? и ?? но при переключении во второй синтаксис все квантификаторы делаются "нежадными".
Т.е. работает <form[^>]+>(.+)</form> + QRegExp::RegExp2.
+ setMinimal
ViGOur
Угу, заработало! Спасибо. :)
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2024 IPS, Inc.