Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Надо написать html браузер
Форум на CrossPlatform.RU > Библиотеки > Qt > Qt Script. Интеграция WebKit
bynet
Мне надо написать html браузер. При написании его нельзя использовать практически никаких библиотек. Тоесть на читом visual studio. Без всяких STL, MFC. Но разрешили на qt,

Решил реализовывать использую регулярные выражения. Но стандартную библиотеку для работы с регуляными выражениями мне использовать нельзя.

Как лучше организовать регулярные выражения(алгоритм)? Или может лучше будет организовать другим способом?
ViGOur
Столкнувшись с написанием конвертера HTML в WIKI формата, могу сказать точно, что регулярные выражения дял правильного разбора HTML использовать нельзя! :(

Например с помощью регулярного выражения правильно разобрать конструкцию с произвольной вложенностью невозможно:
<ol>
   <li>text1</li>
</ol>
<ol>
   <li>text2</li>
   <ol>
      <li>text3</li>
   </ol>
   <li>text4</li>
</ol>
<ol>
   <li>text5</li>
</ol>

небольшую дискусию об этом можно прочитать в теме: Разбор трехэтажных вложенных тегов, <ol> <li>...
То же относится к тэгам table или div, но с ними проще в отличии от приведенной мной выше конструкции.

Поэтому думаю тебе стоит написать свой парсер, который в принципе для твоих нужд будет написать не сложно.
bynet
Цитата(ViGOur @ 13.11.2008, 22:46) *
Поэтому думаю тебе стоит написать свой парсер, который в принципе для твоих нужд будет написать не сложно.


Можно чуток по подробней. Как парсить? Где прочитать? Возможно ли это реализовать на QT?
bobdva
Цитата(bynet @ 13.11.2008, 21:38) *
Мне надо написать html браузер. При написании его нельзя использовать практически никаких библиотек. Тоесть на читом visual studio. Без всяких STL, MFC. Но разрешили на qt,

Решил реализовывать использую регулярные выражения. Но стандартную библиотеку для работы с регуляными выражениями мне использовать нельзя.

Как лучше организовать регулярные выражения(алгоритм)? Или может лучше будет организовать другим способом?


судя по всему, с вашим пониманием проблемы курить и курить вам множество литературы, и про конечные автоматы, и про парсеры, да и базовые возможности qt тоже бы не плохо было бы посмотреть чуть детальней, чем писать свой HTML браузер .

Кстати, WebKit в составе Qt не спасёт отца русской демократии ?

FYI, Уже в m$ потенциально посматривают в сторону WebKit'а...
bynet
Цитата(bobdva @ 13.11.2008, 23:13) *
Цитата(bynet @ 13.11.2008, 21:38) *
Мне надо написать html браузер. При написании его нельзя использовать практически никаких библиотек. Тоесть на читом visual studio. Без всяких STL, MFC. Но разрешили на qt,

Решил реализовывать использую регулярные выражения. Но стандартную библиотеку для работы с регуляными выражениями мне использовать нельзя.

Как лучше организовать регулярные выражения(алгоритм)? Или может лучше будет организовать другим способом?


судя по всему, с вашим пониманием проблемы курить и курить вам множество литературы, и про конечные автоматы, и про парсеры, да и базовые возможности qt тоже бы не плохо было бы посмотреть чуть детальней, чем писать свой HTML браузер .

Кстати, WebKit в составе Qt не спасёт отца русской демократии ?

FYI, Уже в m$ потенциально посматривают в сторону WebKit'а...

Я спрашиваю как это организовать... Тоесть как парсить на словах..
ViGOur
Цитата(bobdva @ 13.11.2008, 23:13) *
Кстати, WebKit в составе Qt не спасёт отца русской демократии ?
На сколько я знаю это ему в универе дали задание, а там как известно халява вроде Webkit'a не пройдет. :(

Тоесть как я понимаю достаточно сделать вывод результата в консоль и не более того. :)

Цитата(bynet @ 13.11.2008, 23:22) *
Я спрашиваю как это организовать... Тоесть как парсить на словах..
У тебя есть массив символов, в цикле проходишь его и проверяешь на наличие открывающегося тэга или закрывающегося, дальше отображаешь даныне в зависимости от того, что за тэг.
bobdva
Цитата(ViGOur @ 14.11.2008, 1:09) *
Цитата(bobdva @ 13.11.2008, 23:13) *
Кстати, WebKit в составе Qt не спасёт отца русской демократии ?
На сколько я знаю это ему в универе дали задание, а там как известно халява вроде Webkit'a не пройдет. :(

Тоесть как я понимаю достаточно сделать вывод результата в консоль и не более того. :)


а чем SAX Parser не устраивает для данной задачи ? :)
сомневаюсь, что потребуется делать анализ html с ошибками с точки зрения xml (не закрытые теги, одиночные теги типа <br> и т.п)
Litkevich Yuriy
Цитата(bobdva @ 14.11.2008, 11:58) *
а чем SAX Parser не устраивает для данной задачи ?
раз уж человеку STL нельзя использовать значит суть задания - построить синтаксический анализатор, читай SAX.

Цитата(ViGOur @ 14.11.2008, 1:46) *
Поэтому думаю тебе стоит написать свой парсер, который в принципе для твоих нужд будет написать не сложно.
Согласен

Я предлагаю сделать отдельный клас в стиле SAX-reader'а который будет обнаруживать во входной символьной последовательности:
1) открывающийся тэг
2) закрывающийся тэг
2) ошибку
kuler
Цитата(Litkevich Yuriy @ 14.11.2008, 9:59) *
раз уж человеку STL нельзя использовать

в qt же облегченная версия stl есть, больше особо и не нада, тем более студенту. И вообще не понятно - mfc и stl нельзя, а qt - можно. Смысл?
Litkevich Yuriy
Цитата(kuler @ 14.11.2008, 13:33) *
Смысл?
парсер прийдется писать руками, но можно использовать довольно удобный класс QString, а всю суть парсера человек постигнет.
kuler
Цитата(Litkevich Yuriy @ 14.11.2008, 11:06) *
парсер прийдется писать руками,

почему?
Litkevich Yuriy
Цитата(kuler @ 14.11.2008, 19:00) *
почему?
это задание такое
kuler
Цитата(Litkevich Yuriy @ 14.11.2008, 16:51) *
это задание такое

это то я понял, я имел ввиду почему при запрете mfc и stl парсер придется писать руками, а если бы не запретили, то как?
Litkevich Yuriy
Цитата(kuler @ 14.11.2008, 20:43) *
а если бы не запретили, то как?
взял бы WebKit ;)
bynet
Огромное спасибо буду пробовать.
bynet
Читаю строку QTextStream::readline как мне онализировать посимвольно эту строку?
AD
Цитата(bynet @ 18.11.2008, 13:12) *
Читаю строку QTextStream::readline как мне онализировать посимвольно эту строку?

Можно с помощью регулярных выражений. Можно анализировать в цикле - ведь строка - это массив символов! :)
bynet
Цитата(AD @ 18.11.2008, 13:19) *
Цитата(bynet @ 18.11.2008, 13:12) *
Читаю строку QTextStream::readline как мне онализировать посимвольно эту строку?

Можно с помощью регулярных выражений. Можно анализировать в цикле - ведь строка - это массив символов! :)


Я понимаю что это массив символам, вопрос именно к ним обращаться?
AD
А что именно хочешь? Я не очень понимаю. Вот так обращаться к ним:
QString string = "Hello, World!";
for(int i=0; i<str.size(); ++i)
{
    QChar p = string[i];
     // какие-то действия с этим символом
}

Или еще что-то? :)
bynet
Ок!
Вот у меня есть строка Qstring str="asd <h1>qwe</h2> fgh";

Делаю следующее

QChar p;
for (int i=0;i<str.size();++i);
{
if(str.at(i)== QChar('<'))

Как из строки asd <h1>qwe</h2> удалить к примеру <h1> чтобы строка стала asd qwe</h2> fgh
Litkevich Yuriy
bynet, яб тебе всетаки рекомендовал использовать подход SAX, т.к. ты можешь использовать С++.

Т.е. ты создаешь класс SAX-парсера, передаешь ему файл, а он выпоняет поиск тэгов. Посмотри примеры Qt'явые по SAX'у.
в наследнике своего SAX-парсера переопределяешь функции такого вида:
openTag(QString tag, QString text)
closeTag(QString tag)

первая вызывается парсером, когда он обнаруживает открывающийся текст, и в нее парсер передает имя тэга "foo" (<foo>) и строку, которую он обнаружил от этого отрывающегося тэга до символа "<"

вторая вызывается, когда парсер обнаружил закрывающийся тэг "bar" (</bar>).
bynet
Огромное спасибо, но мне минимум можно использовать стандартных функций. Все практически надо написать самому. Тоесть если строку парсить то надо написать свой парсер
AD
QString & QString::remove ( const QString & str, Qt::CaseSensitivity cs = Qt::CaseSensitive )
QString & QString::remove ( QChar ch, Qt::CaseSensitivity cs = Qt::CaseSensitive )
Цитата
QString & QString::remove ( const QString & str, Qt::CaseSensitivity cs = Qt::CaseSensitive )
This is an overloaded member function, provided for convenience.
Removes every occurrence of the given str string in this string, and returns a reference to this string.
If cs is Qt::CaseSensitive (the default), the search is case sensitive; otherwise the search is case insensitive.
This is the same as replace(str, "", cs).
See also replace().

QString & QString::remove ( QChar ch, Qt::CaseSensitivity cs = Qt::CaseSensitive )
This is an overloaded member function, provided for convenience.
Removes every occurrence of the character ch in this string, and returns a reference to this string.
If cs is Qt::CaseSensitive (the default), the search is case sensitive; otherwise the search is case insensitive.
Example:
QString t = "Ali Baba";
t.remove(QChar('a'), Qt::CaseInsensitive);
// t == "li Bb"
This is the same as replace(ch, "", cs).


QString & QString::replace ( const QString & before, const QString & after, Qt::CaseSensitivity cs = Qt::CaseSensitive )
Цитата
QString & QString::replace ( const QString & before, const QString & after, Qt::CaseSensitivity cs = Qt::CaseSensitive )
This is an overloaded member function, provided for convenience.
Replaces every occurrence of the string before with the string after.
If cs is Qt::CaseSensitive (the default), the search is case sensitive; otherwise the search is case insensitive.
Example:
QString str = "colour behaviour flavour neighbour";
str.replace(QString("ou"), QString("o"));
// str == "color behavior flavor neighbor"
bynet
Вот к чему я пришел
CODE

void Parser::open()
{ QString szLine;
QString absFileName = QFileDialog::getOpenFileName(this,"Open File","","HTML files (*.html;*.htm)");
QFile file(absFileName);
if (file.open(QIODevice::ReadOnly)){
QTextStream out(&file);

do
{
szLine = out.readLine();

htmltostr(szLine);
//textEdit->(szLine);
}while( !szLine.isNull());

}

file.close();
}

void Parser::htmltostr(QString& htmstr)
{

Сюда приходит строка которую мне надо обработать!!!!!!!
}


Для каждой строки, как я понимаю надо вытянуть тег и текст который находится между им. Может кто посоветует чего?
fsMark
Помоему надо строить дерево отрожающее структуру HTML файла

Например:
<HTML>
текст
<br>
<b>
жырный текст
</b>
снова текст
</HTML>

Пример такого простейшего дерева приведен в прикрепленном файле, потом ты будешь обходить это дерево и отображать его.

Без такой древовидной структуры будет сложно учитывать вложенность тегов например для таблиц.
trdm
Цитата(bynet @ 19.11.2008, 10:59) *
Как из строки asd <h1>qwe</h2> удалить к примеру <h1> чтобы строка стала asd qwe</h2> fgh


QString.replace();
Месь, рекомендую покурить Ассистант. Он всегда поможет.

Цитата(bynet @ 19.11.2008, 16:09) *
Для каждой строки, как я понимаю надо вытянуть тег и текст который находится между им. Может кто посоветует чего?

Поищите в интернете букварь по патернам, а в букваре поищите "рекурсивная композиция" или погуглите по "рекурсивная композиция/рекурсивный спуск".
например тут: http://code.google.com/p/unnstudio/downloads/list

http://ru.wikipedia.org/wiki/Метод_рекурсивного_спуска
Litkevich Yuriy
Цитата(fsMark @ 19.11.2008, 19:55) *
Помоему надо строить дерево отрожающее структуру HTML файла
это DOM-подход, он сложен.

Цитата(bynet @ 19.11.2008, 15:38) *
Огромное спасибо, но мне минимум можно использовать стандартных функций. Все практически надо написать самому. Тоесть если строку парсить то надо написать свой парсер
это я понял, я и предлагаю тебе свой парсер написать, но несквозной. А в стиле SAX, т.е. ты создаешь свой класс обзываешь его к примеру MySAX. Интерфейс выглядит примерно так:
Интерфейс

#ifndef MYSAX_H
#define MYSAX_H

class QString;
class QFile;


/*!    SAX парсер.
*/
class MySAX
{


public:
    MySAX();
    ~MySAX();

    /*!    Загрузчик.
     *    
     *    Загружает файл в память и вызывает приватный метод start(), для анализа.
     *
     *    \param    file - файл для разбора.    
     *    \return    false - если неудалось загрузить файл или он неправильный.
     */
    bool load(const QFile &file);

    /*!    Обработчик открывающегося тэга.
     *    \param    tag - имя тэга.
     *    \param    text - текст следующий за тэгом (до символа "<").    
     *    \return    false - если необходимо прервать анализ.
     */
    virtual bool openTag(const QString &tag);

    /*!    Обработчик текста в нутри тэга.
     *    \param    text - текст следующий за тэгом (до символа "<").    
     *    \return    false - если необходимо прервать анализ.
     */
    virtual bool text(const QString &text);    
    
    /*!    Обработчик закрывающегося тэга.
     *    \param    tag - имя тэга.
     *    \return    false - если необходимо прервать анализ.        
     */
    virtual bool closeTag(const QString& tag);  

private:
    /*!    Сам синтаксический анализатор.
     */
    void start();

    int old_pos;
};

#endif //MYSAX_H



В функции start(), собственно парсере, ты ищещ тэги (закрывающий и открывающий).
Помере того как ты их находишь, вызываешь соответствующие методы. Например ты нашел открывающийся тэг, вызвал openTag(const QString &tag), в качестве аргумента передаешь имя тэга. Запоминашь позицию (номер символа)курсора сразу после тэга, ищешь слудющий тэг (или закрывающий или открывающий), когда нашел, то сначало берешь текст от запомненой позиции до текущей, передаешь его в text(const QString &text) затем вызываешь closeTag или openTag в зависимости от того какой тэг нашел. и т.д.

А вот заготовка реализации:
реализация

MySAX::MySAX()
{
}

MySAX::~MySAX()
{
}

bool MySAX::load(const QFile &file)
{
    if (!file.open(QIODevice::ReadOnly))
    {
        qDebug() << "Error: file " << file.fileName() << "is absent";
        return false;
    }

    qDebug() << "Open file: " << file.fileName();
    
    ...
    ...
    ...
    
}

bool MySAX::openTag(const QString &tag)
{
    qDebug() << "Open tag: " << tag;
}

bool MySAX::text(const QString &text)
{
    qDebug() << "\tIn tag text: " << text;
}

bool MySAX::closeTag(const QString &tag)
{
    qDebug() << "Close tag: " << tag;
}

void MySAX::start()
{
  QString    otag, ctag, text;
    
    // анализируем
    while(/*пока файл некончился*/)
    {
        ...
        // Нашли открывающийся тэг
        if (!openTag(otag))
            return;
        
        ...
        // Нашли закрывающийся тэг
        
            // читаем текст от старой позиции до новой
        text = ...;
        if (!text(text))
            return;
            
        if (!closeTag(ctag))
            return;
    }

}

molchanoviv
Цитата(bynet @ 19.11.2008, 10:59) *
Как из строки asd <h1>qwe</h2> удалить к примеру <h1> чтобы строка стала asd qwe</h2> fgh


функцией remove.

Совет: Смотри ассистент.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2024 IPS, Inc.