crossplatform.ru

Здравствуйте, гость ( Вход | Регистрация )

 
Ответить в данную темуНачать новую тему
> Помогите с регулярным выражением.
Razerio
  опции профиля:
сообщение 25.1.2013, 22:55
Сообщение #1


Студент
*

Группа: Новичок
Сообщений: 13
Регистрация: 16.1.2013
Пользователь №: 3677

Спасибо сказали: 1 раз(а)




Репутация:   0  


Никак не получается составит работающее регулярное выражение.
Есть примерный текст:
Redistributions in binary form *must reproduce the above copyright notice, this list of <a href='http://google.com/"><span style=" text-decoration: underline;">*conditions  and *the following</span> *disclaimer</a> in the documentation and/or other *materials provided with the *distribution.

Из текста нужно вытащить все слова начинающиеся со звёздочки(*), кроме тех, что находятся между "<a" и "</a>".
То есть в данном случаи должны найтись слова:
*must
*materials
*distribution
А остальные должны быть пропущены.

Все слова найти довольно просто "[*]+[A-Za-z]+", но вот найти только те, которые вне HTML тегов незнаю как.
P.S.
Для работы с регулярками использую дефолтный QRegExp (Qt 4.8.4).
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Litkevich Yuriy
  опции профиля:
сообщение 26.1.2013, 3:45
Сообщение #2


разработчик РЭА
*******

Группа: Сомодератор
Сообщений: 9656
Регистрация: 9.1.2008
Из: Тюмень
Пользователь №: 64

Спасибо сказали: 807 раз(а)




Репутация:   94  


Цитата(Razerio @ 26.1.2013, 0:55) *
кроме тех, что находятся между "<a" и "</a>".
это кость в горле Регулярных выражений, с помощью них невозможно отслеживать "парные скобки", т.е. элементы играющие их роль
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
iReset
  опции профиля:
сообщение 26.1.2013, 10:07
Сообщение #3


Участник
**

Группа: Участник
Сообщений: 178
Регистрация: 6.6.2012
Пользователь №: 3414

Спасибо сказали: 23 раз(а)




Репутация:   2  


Цитата(Razerio @ 25.1.2013, 23:55) *
Никак не получается составит работающее регулярное выражение.
...
У меня получилось так:
  QString str ("Redistributions in binary form *must reproduce the above copyright notice, this list of <a href='http://google.com/\"><span style=\" text-decoration: underline;\">*conditions  and *the following</span> *disclaimer</a> in the documentation and/or other *materials provided with the *distribution.");
  QRegExp re ("(\\*\\w+\\b)(?:[^*]*<a\\s(?:.(?!<\\/a>))*.<\\/a>)?");
  int pos = 0;
  while ((pos = re.indexIn(str, pos)) != -1) {
    qDebug () << re.cap(1);
    pos += re.matchedLength();
  }

Выражение написано с условием того, что тег <a> не имеет вложенности и имеет параметр (например, href), т.е. не "<a>".
Выражение "(\\*\\w+\\b)" хорошо было бы доработать с учётом того, что могут быть фразы типа "111*222" или "привет*мир". Но тут нужны более чёткие входные условия.
При необходимости могу разъяснить выражение по частям.


Цитата(Litkevich Yuriy @ 26.1.2013, 4:45) *
это кость в горле Регулярных выражений, с помощью них невозможно отслеживать "парные скобки", т.е. элементы играющие их роль
Ну невозможно, это все-таки очень жестко сказано. Даже с помощью регулярных выражений Qt можно составить выражение, позволяющее производить поиск на любой, но, правда, заранее известный, уровень вложенности.
О вложенности в других языках
В Perl возможен просмотр на любой, неизвестный заранее, уровень вложенности с помощью динамических регулярных выражений, "(??{$re})".
В .NET это возможно с помощью конструкции-счётчика "(?<DEPTH>)".
В PHP можно использовать рекурсивные регулярные выражения "(?R)".
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Iron Bug
  опции профиля:
сообщение 26.1.2013, 12:32
Сообщение #4


Профессионал
*****

Группа: Модератор
Сообщений: 1594
Регистрация: 6.2.2009
Из: Yekaterinburg
Пользователь №: 533

Спасибо сказали: 219 раз(а)




Репутация:   12  


Цитата(Litkevich Yuriy @ 26.1.2013, 6:45) *
Цитата(Razerio @ 26.1.2013, 0:55) *
кроме тех, что находятся между "<a" и "</a>".
это кость в горле Регулярных выражений, с помощью них невозможно отслеживать "парные скобки", т.е. элементы играющие их роль

возможно, это кость в горле конкретной реализации. я спокойно распарсиваю такие выражения в boost, ANTLR, в обычном перле. в целом, у регекспов такого ограничения нет. это рекурсивные операции.
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Litkevich Yuriy
  опции профиля:
сообщение 26.1.2013, 16:34
Сообщение #5


разработчик РЭА
*******

Группа: Сомодератор
Сообщений: 9656
Регистрация: 9.1.2008
Из: Тюмень
Пользователь №: 64

Спасибо сказали: 807 раз(а)




Репутация:   94  


Я ориентируюсь на тот вариант регулярок, которые поддерживаются множеством ПО.
Такие штуки:
Цитата(iReset @ 26.1.2013, 12:07) *
(??{$re})"

Цитата(iReset @ 26.1.2013, 12:07) *
"(?<DEPTH>)"

Цитата(iReset @ 26.1.2013, 12:07) *
"(?R)"
не съедят ни NotePad++, ни TotalComander, ни Qt, ...
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Razerio
  опции профиля:
сообщение 26.1.2013, 19:36
Сообщение #6


Студент
*

Группа: Новичок
Сообщений: 13
Регистрация: 16.1.2013
Пользователь №: 3677

Спасибо сказали: 1 раз(а)




Репутация:   0  


Всем спасибо, забрал пример предложенный iReset'ом. Разъяснения не нужны, выражение не очень сложное.
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Iron Bug
  опции профиля:
сообщение 28.1.2013, 7:49
Сообщение #7


Профессионал
*****

Группа: Модератор
Сообщений: 1594
Регистрация: 6.2.2009
Из: Yekaterinburg
Пользователь №: 533

Спасибо сказали: 219 раз(а)




Репутация:   12  


Цитата(Litkevich Yuriy @ 26.1.2013, 19:34) *
Я ориентируюсь на тот вариант регулярок, которые поддерживаются множеством ПО.

и вот поэтому у меня на работе стоит Msys и я не пользуюсь вендозными шнягами :) нормальный bash. ну, чуть урезанный, но всяко лучше, чем всё, что есть под вендой. пишу скрипты для обработки файлов только там.
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
call_me_Frank
  опции профиля:
сообщение 18.8.2013, 11:44
Сообщение #8


Студент
*

Группа: Участник
Сообщений: 73
Регистрация: 20.10.2010
Пользователь №: 2129

Спасибо сказали: 0 раз(а)




Репутация:   0  


iReset, растолкуй, пожалуйста, вот эту часть выражения:

(?:[^*]*<a\\s(?:.(?!<\\/a>))*.<\\/a>)?

где можно почитать про все элементы, допустимые в QRegExp? потому что я еще нигде не встречал описание конструкций, типа ?! и ?:...

спасибо :)
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
Razerio
  опции профиля:
сообщение 18.8.2013, 23:22
Сообщение #9


Студент
*

Группа: Новичок
Сообщений: 13
Регистрация: 16.1.2013
Пользователь №: 3677

Спасибо сказали: 1 раз(а)




Репутация:   0  


Цитата(call_me_Frank @ 18.8.2013, 11:44) *
iReset, растолкуй, пожалуйста, вот эту часть выражения:

(?:[^*]*<a\\s(?:.(?!<\\/a>))*.<\\/a>)?

Я не iReset, но попытаюсь:
(?: ) — пассивная группа, отличается от обычной тем, что при нахождении не записывается в QRegExp.cap(...)
[^*] — Любые символы за исключением звёздочки длинной от 0 символов.
* — Определяет длину искомых символов, стоящих перед ним, от 0 до бесконечности
<a — просто текст "<a"
\\s — один пробел
. — один любой символ, за исключением переноса строки
(?! ) — отрицательное вперёд смотрящее, означает, что после искомого текста не должен находится текст стоящий после ?!
<\\/a> — просто текст </a> (прим.: поскольку символ / зарезервированный, то для его использования в качестве обычного текста, его нужно экранировать символами \\)
? — означает, что символ или группа стоящая перед ним может игнорироваться. (прим.: В тексте <p>some text</p>, с помощью регулярного выражения <\\/?p>, можно найти сразу открывающий <p>, и закрывающий тег </p>. Так как в данном случаи символ /, не является обязательным)

Описание класса QRegExp, есть на официальном сайте http://qt-project.org/doc/qt-5.0/qtcore/qregexp.html

А ещё вот шпаргалка, правда она не совсем по QRegExp, но тоже бывает полезна:
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение

Быстрый ответОтветить в данную темуНачать новую тему
Теги
Нет тегов для показа


1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0




RSS Текстовая версия Сейчас: 29.1.2020, 17:40