파이썬을 이용한 업무자동화 방법 중, 원하는 뉴스를 스크래핑 하는 방법을 배워보았습니다. 순서대로 차근차근 따라하면 원하는 뉴스를 원하는 방식으로 스크래핑할 수 있습니다. 해당 내용은 코딩을 처음 배워보며 공부한 내용의 정리 및 기록용으로 작성하고 있습니다
뉴스검색 페이지로 이동
원하는 뉴스가 있는 검색페이지로 이동합니다. 원하는 검색어를 검색창에 입력하여 검색한 후, [마우스 오른쪽 클릭] - [검사]를 눌러주면 아래와 같은 화면이 나타납니다.
오른쪽에 나타난 화면에서 mark를 찾으시면 내가 검색창에 검색해 본 단어가 들어있습니다. 이를 다른 단어로 바꿔보면 왼쪽의 검색창에는 기존 검색어가 내가 바꾸어놓은 단어로 바뀌어 보입니다. 단어를 바꾸었다고 해서 다른 사람들에게도 내가 바꾸어놓은 단어가 보이는 것은 아닙니다. 다만, 내가 받아온 자료를 가공했을 뿐이니 나에게만 바뀌어 보일 뿐이죠.
즉, 이렇게 이미 받아온 정보를 솎아서 원하는 정보만을 스크래핑 하는 것이 가능합니다. 크롤링 기본 코드는 아래와 같습니다. 복사해서 붙여넣어준 후, 뉴스 스크래핑을 시작해봅니다.
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query=삼성전자',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')
네이버 뉴스 스크래핑 시작
먼저 bs4를 인스톨해줍니다. ctrl+enter를 누르거나 왼쪽 플레이 버튼을 누르면 실행됩니다. 실행해놓은 후, 아까 켜놓은 검색창으로 돌아가봅니다. </a> 를 찾은 후, 마우스 오른쪽 버튼을 눌러 [copy] - [copy selector]를 눌러줍니다.
다시 코드 입력창으로 돌아와 아래와 같이 입력해봅니다.
- a에 들어있는 모든 내용이 보고 싶을 때는 print(a)
- a에 들어있는 텍스트만 보고 싶을 때는 a.text
- a에 들어있는 링크를 보고싶다면 a['href']
위의 3가지를 조합해서 여러개의 뉴스 가져오기도 가능합니다.
- 뉴스 리스트 중에서 첫번째 뉴스를 보고싶다면
- 첫번째 뉴스의 링크를 보고싶다면 ['href']
- lis에서 li 중에 텍스트만 뽑고 싶다면 for li in lis:
- 텍스트와 URL을 한꺼번에 보고 싶다면 아래와 같이
파이썬 기초를 배우고 있습니다. 오늘은 파이썬을 이용하여 원하는 뉴스를 검색창에서 스크래핑 하는 방법을 익혀보았습니다. 생각보다 재미있지만 조금 어렵기도 하네요. 꾸준히 열공해보도록 하겠습니다 :D
'유용한 정보' 카테고리의 다른 글
우편요금 | 우편배달기간 | 일반우편 등기통상 익일특급 (0) | 2023.07.24 |
---|---|
풍수인테리어 | 행운을 가져오는 인테리어 꿀팁 (0) | 2023.07.21 |
파이썬 기초 ㅣ Colab 사용하여 파이썬 코드 연습하기 (0) | 2023.03.23 |
지각하는 꿈 해몽 및 학교 지각하는 꿈, 회사, 시험, 직장에 지각하는 꿈 (0) | 2023.01.20 |
개인회생 신청자격, 개인회생 신청서류, 개인회생 비용과 절차 (0) | 2023.01.11 |
댓글