crossplatform.ru

Здравствуйте, гость ( Вход | Регистрация )

> Помогите с регулярным выражением.
Razerio
  опции профиля:
сообщение 25.1.2013, 22:55
Сообщение #1


Студент
*

Группа: Новичок
Сообщений: 13
Регистрация: 16.1.2013
Пользователь №: 3677

Спасибо сказали: 1 раз(а)




Репутация:   0  


Никак не получается составит работающее регулярное выражение.
Есть примерный текст:
Redistributions in binary form *must reproduce the above copyright notice, this list of <a href='http://google.com/"><span style=" text-decoration: underline;">*conditions  and *the following</span> *disclaimer</a> in the documentation and/or other *materials provided with the *distribution.

Из текста нужно вытащить все слова начинающиеся со звёздочки(*), кроме тех, что находятся между "<a" и "</a>".
То есть в данном случаи должны найтись слова:
*must
*materials
*distribution
А остальные должны быть пропущены.

Все слова найти довольно просто "[*]+[A-Za-z]+", но вот найти только те, которые вне HTML тегов незнаю как.
P.S.
Для работы с регулярками использую дефолтный QRegExp (Qt 4.8.4).
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
 
Начать новую тему
Ответов
iReset
  опции профиля:
сообщение 26.1.2013, 10:07
Сообщение #2


Участник
**

Группа: Участник
Сообщений: 178
Регистрация: 6.6.2012
Пользователь №: 3414

Спасибо сказали: 23 раз(а)




Репутация:   2  


Цитата(Razerio @ 25.1.2013, 23:55) *
Никак не получается составит работающее регулярное выражение.
...
У меня получилось так:
  QString str ("Redistributions in binary form *must reproduce the above copyright notice, this list of <a href='http://google.com/\"><span style=\" text-decoration: underline;\">*conditions  and *the following</span> *disclaimer</a> in the documentation and/or other *materials provided with the *distribution.");
  QRegExp re ("(\\*\\w+\\b)(?:[^*]*<a\\s(?:.(?!<\\/a>))*.<\\/a>)?");
  int pos = 0;
  while ((pos = re.indexIn(str, pos)) != -1) {
    qDebug () << re.cap(1);
    pos += re.matchedLength();
  }

Выражение написано с условием того, что тег <a> не имеет вложенности и имеет параметр (например, href), т.е. не "<a>".
Выражение "(\\*\\w+\\b)" хорошо было бы доработать с учётом того, что могут быть фразы типа "111*222" или "привет*мир". Но тут нужны более чёткие входные условия.
При необходимости могу разъяснить выражение по частям.


Цитата(Litkevich Yuriy @ 26.1.2013, 4:45) *
это кость в горле Регулярных выражений, с помощью них невозможно отслеживать "парные скобки", т.е. элементы играющие их роль
Ну невозможно, это все-таки очень жестко сказано. Даже с помощью регулярных выражений Qt можно составить выражение, позволяющее производить поиск на любой, но, правда, заранее известный, уровень вложенности.
О вложенности в других языках
В Perl возможен просмотр на любой, неизвестный заранее, уровень вложенности с помощью динамических регулярных выражений, "(??{$re})".
В .NET это возможно с помощью конструкции-счётчика "(?<DEPTH>)".
В PHP можно использовать рекурсивные регулярные выражения "(?R)".
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение

Сообщений в этой теме


Быстрый ответОтветить в данную темуНачать новую тему
Теги
Нет тегов для показа


1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0




RSS Текстовая версия Сейчас: 20.4.2024, 3:11