Есть примерный текст:
Redistributions in binary form *must reproduce the above copyright notice, this list of <a href='http://google.com/"><span style=" text-decoration: underline;">*conditions and *the following</span> *disclaimer</a> in the documentation and/or other *materials provided with the *distribution.
Из текста нужно вытащить все слова начинающиеся со звёздочки(*), кроме тех, что находятся между "<a" и "</a>".
То есть в данном случаи должны найтись слова:
*must
*materials
*distribution
А остальные должны быть пропущены.
Все слова найти довольно просто "[*]+[A-Za-z]+", но вот найти только те, которые вне HTML тегов незнаю как.
P.S.
Для работы с регулярками использую дефолтный QRegExp (Qt 4.8.4).