crossplatform.ru

Здравствуйте, гость ( Вход | Регистрация )


  Ответ в Помогите с регулярным выражением.
Введите ваше имя
Подтвердите код

Введите в поле код из 6 символов, отображенных в виде изображения. Если вы не можете прочитать код с изображения, нажмите на изображение для генерации нового кода.
 

Опции сообщения
 Включить смайлы?
Иконки сообщения
(Опционально)
                                
                                
  [ Без иконки ]
 


Последние 10 сообщений [ в обратном порядке ]
Razerio Дата 18.8.2013, 23:22
 
Цитата(call_me_Frank @ 18.8.2013, 11:44) *
iReset, растолкуй, пожалуйста, вот эту часть выражения:

(?:[^*]*<a\\s(?:.(?!<\\/a>))*.<\\/a>)?

Я не iReset, но попытаюсь:
(?: ) — пассивная группа, отличается от обычной тем, что при нахождении не записывается в QRegExp.cap(...)
[^*] — Любые символы за исключением звёздочки длинной от 0 символов.
* — Определяет длину искомых символов, стоящих перед ним, от 0 до бесконечности
<a — просто текст "<a"
\\s — один пробел
. — один любой символ, за исключением переноса строки
(?! ) — отрицательное вперёд смотрящее, означает, что после искомого текста не должен находится текст стоящий после ?!
<\\/a> — просто текст </a> (прим.: поскольку символ / зарезервированный, то для его использования в качестве обычного текста, его нужно экранировать символами \\)
? — означает, что символ или группа стоящая перед ним может игнорироваться. (прим.: В тексте <p>some text</p>, с помощью регулярного выражения <\\/?p>, можно найти сразу открывающий <p>, и закрывающий тег </p>. Так как в данном случаи символ /, не является обязательным)

Описание класса QRegExp, есть на официальном сайте http://qt-project.org/doc/qt-5.0/qtcore/qregexp.html

А ещё вот шпаргалка, правда она не совсем по QRegExp, но тоже бывает полезна:
call_me_Frank Дата 18.8.2013, 11:44
  iReset, растолкуй, пожалуйста, вот эту часть выражения:

(?:[^*]*<a\\s(?:.(?!<\\/a>))*.<\\/a>)?

где можно почитать про все элементы, допустимые в QRegExp? потому что я еще нигде не встречал описание конструкций, типа ?! и ?:...

спасибо :)
Iron Bug Дата 28.1.2013, 7:49
 
Цитата(Litkevich Yuriy @ 26.1.2013, 19:34) *
Я ориентируюсь на тот вариант регулярок, которые поддерживаются множеством ПО.

и вот поэтому у меня на работе стоит Msys и я не пользуюсь вендозными шнягами :) нормальный bash. ну, чуть урезанный, но всяко лучше, чем всё, что есть под вендой. пишу скрипты для обработки файлов только там.
Razerio Дата 26.1.2013, 19:36
  Всем спасибо, забрал пример предложенный iReset'ом. Разъяснения не нужны, выражение не очень сложное.
Litkevich Yuriy Дата 26.1.2013, 16:34
  Я ориентируюсь на тот вариант регулярок, которые поддерживаются множеством ПО.
Такие штуки:
Цитата(iReset @ 26.1.2013, 12:07) *
(??{$re})"

Цитата(iReset @ 26.1.2013, 12:07) *
"(?<DEPTH>)"

Цитата(iReset @ 26.1.2013, 12:07) *
"(?R)"
не съедят ни NotePad++, ни TotalComander, ни Qt, ...
Iron Bug Дата 26.1.2013, 12:32
 
Цитата(Litkevich Yuriy @ 26.1.2013, 6:45) *
Цитата(Razerio @ 26.1.2013, 0:55) *
кроме тех, что находятся между "<a" и "</a>".
это кость в горле Регулярных выражений, с помощью них невозможно отслеживать "парные скобки", т.е. элементы играющие их роль

возможно, это кость в горле конкретной реализации. я спокойно распарсиваю такие выражения в boost, ANTLR, в обычном перле. в целом, у регекспов такого ограничения нет. это рекурсивные операции.
iReset Дата 26.1.2013, 10:07
 
Цитата(Razerio @ 25.1.2013, 23:55) *
Никак не получается составит работающее регулярное выражение.
...
У меня получилось так:
  QString str ("Redistributions in binary form *must reproduce the above copyright notice, this list of <a href='http://google.com/\"><span style=\" text-decoration: underline;\">*conditions  and *the following</span> *disclaimer</a> in the documentation and/or other *materials provided with the *distribution.");
  QRegExp re ("(\\*\\w+\\b)(?:[^*]*<a\\s(?:.(?!<\\/a>))*.<\\/a>)?");
  int pos = 0;
  while ((pos = re.indexIn(str, pos)) != -1) {
    qDebug () << re.cap(1);
    pos += re.matchedLength();
  }

Выражение написано с условием того, что тег <a> не имеет вложенности и имеет параметр (например, href), т.е. не "<a>".
Выражение "(\\*\\w+\\b)" хорошо было бы доработать с учётом того, что могут быть фразы типа "111*222" или "привет*мир". Но тут нужны более чёткие входные условия.
При необходимости могу разъяснить выражение по частям.


Цитата(Litkevich Yuriy @ 26.1.2013, 4:45) *
это кость в горле Регулярных выражений, с помощью них невозможно отслеживать "парные скобки", т.е. элементы играющие их роль
Ну невозможно, это все-таки очень жестко сказано. Даже с помощью регулярных выражений Qt можно составить выражение, позволяющее производить поиск на любой, но, правда, заранее известный, уровень вложенности.
О вложенности в других языках
В Perl возможен просмотр на любой, неизвестный заранее, уровень вложенности с помощью динамических регулярных выражений, "(??{$re})".
В .NET это возможно с помощью конструкции-счётчика "(?<DEPTH>)".
В PHP можно использовать рекурсивные регулярные выражения "(?R)".
Litkevich Yuriy Дата 26.1.2013, 3:45
 
Цитата(Razerio @ 26.1.2013, 0:55) *
кроме тех, что находятся между "<a" и "</a>".
это кость в горле Регулярных выражений, с помощью них невозможно отслеживать "парные скобки", т.е. элементы играющие их роль
Razerio Дата 25.1.2013, 22:55
  Никак не получается составит работающее регулярное выражение.
Есть примерный текст:
Redistributions in binary form *must reproduce the above copyright notice, this list of <a href='http://google.com/"><span style=" text-decoration: underline;">*conditions  and *the following</span> *disclaimer</a> in the documentation and/or other *materials provided with the *distribution.

Из текста нужно вытащить все слова начинающиеся со звёздочки(*), кроме тех, что находятся между "<a" и "</a>".
То есть в данном случаи должны найтись слова:
*must
*materials
*distribution
А остальные должны быть пропущены.

Все слова найти довольно просто "[*]+[A-Za-z]+", но вот найти только те, которые вне HTML тегов незнаю как.
P.S.
Для работы с регулярками использую дефолтный QRegExp (Qt 4.8.4).
Просмотр темы полностью (откроется в новом окне)
RSS Текстовая версия Сейчас: 28.3.2024, 17:39