카테고리 없음
python 웹 페이지 크롤링
Canyi
2022. 10. 6. 11:04
request : 특정 사이트의 html를 통째로
BeautifulSoup: 내부로 객체화 (데이터 구조화)
1. 태그기반 fin_all
2. CSS기반 select
3. 검색 하고 싶은 사이트에서 마우스 우클릭해서 '페이지 소스보기' 클릭후 원하는 소스 분석
import requests
from bs4 import BeautifulSoup
#headers = {'User-Agent': 'mozilla/5.0'}
webpage = requests.get("웹페이지입력") #모든 정보를 다 가져오겠다.
soup = BeautifulSoup(webpage.content, 'html.parser')
# print(soup.h1) #print(soup.h1.string) html을 문자열로 출력
#print(soup.ul.child)
for child in soup.ul.children:
print(child)
import requests
from bs4 import BeautifulSoup
#headers = {'User-Agent': 'mozilla/5.0'}
webpage = requests.get("https://www.daangn.com/hot_articles") #모든 정보를 다 가져오겠다.
soup = BeautifulSoup(webpage.content, 'html.parser')
# print(soup.h1) #print(soup.h1.string) html을 문자열로 출력
#print(soup.ul.child)
# for child in soup.ul.children:
# print(child)
#print(soup.find_all('h2'))
# for data in soup.find_all('h2'):
# print(data)
# import re #정규식
# #print(soup.find_all(re.compile('[ou]l')))
# print(soup.find_all(re.compile('h[1-3]')))
# print(soup.find_all(['h1','p']))
#print(soup.select('.card-region-name')) #class선택자 찾고싶을떄 앞에 . 넣기, 전체 사이트의 card-region-name을 가져옴
title = soup.select('.card-title')
for t in title:
#print(title)
print(t.get_text())
'''
download = soup.select('#hot-articles-go-download') #id선택자로 찾고싶을때
print(download)
'''