Парсер HTML страниц на Python (комментарии к странице)

Ник к "Парсер HTML страниц на Python"

none@none.com (Ник) — Mon, 30 Dec 2013 12:04:45 +0300

в этом блоке у меня ошибка, ничего не менял просто скопировал код.

# Содержимое мета полей

for meta in soup.find_all('meta'):

print(meta.get('content'))

Traceback (most recent call last):

File "C:/Users/nor/Desktop/les.py", line 7, in

for meta in soup.find_all('meta'):

TypeError: 'NoneType' object is not callable

Leonid к "Парсер HTML страниц на Python"

none@none.com (Leonid) — Tue, 28 Oct 2014 23:29:22 +0300

find_all -> findAll

Артём к "Парсер HTML страниц на Python"

none@none.com (Артём) — Mon, 28 Sep 2015 10:01:02 +0300

Добрый день!

Скажите можно сделать Парсер HTML страниц сайта который сделан на joomla если да то можете показать пример кода как это сделать спасибо заранее.

Артём к "Парсер HTML страниц на Python"

none@none.com (Артём) — Tue, 29 Sep 2015 15:29:30 +0300

Добрый вечер !

Извините я наверное не так выразился я хотел сказать.

Можно ли с сделать копию категорий содержимого сайта на joomla импортировать это в xml формат.

А потом восстановить на другом сайте

Timberg к "Парсер HTML страниц на Python"

none@none.com (Timberg) — Tue, 03 Nov 2015 16:52:21 +0300

Добренько!

А если нужна картинка из блока?

Archy к "Парсер HTML страниц на Python"

none@none.com (Archy) — Thu, 05 Nov 2015 14:15:02 +0300

Timberg, существует функция urlretrieve.

Алекс к "Парсер HTML страниц на Python"

none@none.com (Алекс) — Fri, 06 Nov 2015 01:59:03 +0300

Здравствуйте! А как получить доступ к div-блокам элемента "всплывающего" окна? Самый простой пример того, что я имею в виду: Вконтакте если открыть "интересные страницы" пользователя, в адресной строке ссылка не поменяется, но мы получаем целую кучу новых данных на всплывшем окне. Если открыть конкретно "код элемента", там все есть. А как получить ссылку на эти данные?

Прошу прощения, если коряво выражаюсь или спрашиваю глупые вещи, я только начинаю.

Александр к "Парсер HTML страниц на Python"

none@none.com (Александр) — Sat, 23 Jan 2016 19:54:13 +0300

Добрый день!

Я написал и запустил данный код из статьи:

from bs4 import BeautifulSoup

from urllib2 import urlopen

html_doc = urlopen('http://python-3.ru').read()

soup = BeautifulSoup(html_doc)

print soup

И получил вот это: Missing parentheses in call to 'print'.

Что это означает, и как это исправить?

Archy к "Парсер HTML страниц на Python"

none@none.com (Archy) — Tue, 26 Jan 2016 01:03:25 +0300

Александр, здравствуйте!

Проблема в том, что вы запускаете данный скрипт с помощью Python 3, для этого замените print soup на print(soup).

Попробуйте запускать с помощью Python 2.7:

python myfile.py

Артем к "Парсер HTML страниц на Python"

none@none.com (Артем) — Sat, 12 Mar 2016 11:42:01 +0300

Добрый день.

Скажите можно ли скопировать стиль css на другом сайте.

Используя эту библиотеку

Archy к "Парсер HTML страниц на Python"

none@none.com (Archy) — Sat, 12 Mar 2016 21:43:32 +0300

Здравствуйте Артем.

Да, используете следующий код:

from urllib.request import urlopen

file_with_css = open('mycssfile.css', 'w')

url = 'http://mywebsite/style.css'

css_link = urlopen(url)

file_with_css.write(style.decode('utf-8'))

file_with_css.close()

Аноним к "Парсер HTML страниц на Python"

none@none.com (Аноним) — Tue, 31 May 2016 08:36:48 +0300

Здравствуйте,

у меня есть форум, я бы хотел чтобы по циклу я прошел по каждой теме и взял оттуда дивки с классом