Довольно часто встаёт задача разбора HTML (его парсинга). Неважно какие цели мы при этом преследуем. Для этого специально разрабатывают парсеры. Буквально на днях набрёл на один из таких парсеров, написанный на языке РНР - очень порадовал. Советую попробовать.
Основные преимущества
- Парсер написан на PHP5+
- Позволяет легко производить манипулиции с HTML
- Поддерживает невалидный HTML
- Находит теги при помощи селекторов (похожих на JQuery)
- Получает содержимое HTML одной строкой.
Загрузка
- Скачать последнюю версию с Sourceforge.
- Прочитать онлайн - справку.
Похожие публикации:
- Несколько стартовых страниц в Firefox
В браузере FireFox появилась возможность добавлять ни одну, а сразу несколько домашних (стартовых) страниц. Они будут отображаться каждая в своей... - Релиз jQuery 1.4 Alpha 1
Зарелизился новый JQuery 1.4 Alpha 1! Это первый альфа-релиз JQuery 1.4. Код является стабильным (проходит всех испытаний во всех браузерах),... - Атрибуты пользователя в HTML
Часто для взаимодействия HTML и Javascript приходится добавлять свои придуманные атрибуты в код, который, естественно, не проходит валидацию. Решение здесь... - Эмуляция position: fixed в Internet Explorer 6
Internet Explorer 6 не поддерживает CSS-свойство position: fixed position, поэтому для эмуляции данного эффекта используют position: absolute и CSS expression....

А чем это лучше стандартных средств PHP для работы с DOM?.
Селекторы, похожие на jQuery — имеется ввиду xPath или прям как в jQuery?
Кстати, из стандартных средств (правда это все-таки именно под XML заточено)реально крут SimpleXML. Можно делать цепочки вызовов типа такого: $xml->body->div->span[0]->div, можно использовать селекторы xPath. Я недавно урок писал, где активно используется SimpleXML.
Бывают хостинги, где отключена вообще поддержка XML, никаких SimpleXML нет (в основном бесплатные, конечно) — ту на помощь и приходит данный скрипт.
По поводу селекторов — в документации есть примеры: это и jQuery и xPath. Селекторы jQuery и построены на основе xPath, CSS.
Ребят, такой вопрос.
Парсю html-код
$text = file_get_html(‘http://googe.com‘);
Теперь ведь код мне надо записать в базу данных, представим, что есть бд, с таблицей одной, у нее одно поле, например sample.
Как это сделать?
А в чем проблема? Получаем HTML, парсим, заносим в базу
Проблема в том, что у меня не получается это сделать. Я экранирую кавычки своей функцией (она удаляет все одиночные, и экранирует двойные), делаю запрос на добавление записи в БД, выходит ошибка. Причем, часть html-кода записывается, остальная почему-то нет. Поэтому прошу помощи у программистов.
Попробуйте использовать mysql_real_escape_string();