crossplatform.ru

Здравствуйте, гость ( Вход | Регистрация )

Гость_Krakozabra_*
сообщение 15.9.2014, 12:14
Сообщение #1





Гости








    


Привет. Есть задача в обработке текста, точнее html кода. Все работает за исключением выбора текста между кавычками.
Цитата
m = re.findall('href=".*\"', ht)
print m[0]


Первое вхождение срабатывает на ура, второе с примесью текста, третье вхождение также проходит хорошо, каждое последующее с примесями. Подскажите, как должна выглядеть эта регулярка, я уже голову сломал.

Всем спасибо.
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение
 
Начать новую тему
Ответов
lanz
  опции профиля:
сообщение 16.9.2014, 16:36
Сообщение #2


Старейший участник
****

Группа: Участник
Сообщений: 690
Регистрация: 28.12.2012
Пользователь №: 3660

Спасибо сказали: 113 раз(а)




Репутация:   8  


Не используйте регулярные выражения для парсинга html.
http://stackoverflow.com/questions/6751105...planation-in-la

Серьезно, используйте BeautifulSoup например или любой другой готовый парсер.
http://www.crummy.com/software/BeautifulSoup/
Перейти в начало страницы
 
Быстрая цитата+Цитировать сообщение

Сообщений в этой теме


Быстрый ответОтветить в данную темуНачать новую тему
Теги
Нет тегов для показа


1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


RSS Рейтинг@Mail.ru Текстовая версия Сейчас: 29.5.2025, 17:22