python 웹 페이지 크롤링

카테고리 없음

python 웹 페이지 크롤링

Canyi 2022. 10. 6. 11:04

request : 특정 사이트의 html를 통째로

BeautifulSoup: 내부로 객체화 (데이터 구조화)

1. 태그기반 fin_all

2. CSS기반 select

3. 검색 하고 싶은 사이트에서 마우스 우클릭해서 '페이지 소스보기' 클릭후 원하는 소스 분석

import requests
from bs4 import BeautifulSoup

#headers = {'User-Agent': 'mozilla/5.0'}

webpage = requests.get("웹페이지입력")   #모든 정보를 다 가져오겠다.
soup = BeautifulSoup(webpage.content, 'html.parser')

# print(soup.h1)       #print(soup.h1.string)  html을 문자열로 출력 

#print(soup.ul.child)

for child in soup.ul.children:
    print(child)

import requests
from bs4 import BeautifulSoup

#headers = {'User-Agent': 'mozilla/5.0'}

webpage = requests.get("https://www.daangn.com/hot_articles")   #모든 정보를 다 가져오겠다.
soup = BeautifulSoup(webpage.content, 'html.parser')

# print(soup.h1)       #print(soup.h1.string)  html을 문자열로 출력 

#print(soup.ul.child)

# for child in soup.ul.children:
#     print(child)

#print(soup.find_all('h2'))

# for data in soup.find_all('h2'):
#     print(data)

# import re  #정규식
# #print(soup.find_all(re.compile('[ou]l')))    
# print(soup.find_all(re.compile('h[1-3]')))

# print(soup.find_all(['h1','p']))

#print(soup.select('.card-region-name'))       #class선택자 찾고싶을떄 앞에 . 넣기,  전체 사이트의 card-region-name을 가져옴


title = soup.select('.card-title')

for t in title:
    #print(title)
    print(t.get_text())


'''
download = soup.select('#hot-articles-go-download')  #id선택자로 찾고싶을때
print(download)
'''