본문 바로가기
유용한 정보

업무자동화 ㅣ 원하는 뉴스 스크래핑하기

by 쀼쀼네 2023. 3. 24.

파이썬을 이용한 업무자동화 방법 중, 원하는 뉴스를 스크래핑 하는 방법을 배워보았습니다. 순서대로 차근차근 따라하면 원하는 뉴스를 원하는 방식으로 스크래핑할 수 있습니다. 해당 내용은 코딩을 처음 배워보며 공부한 내용의 정리 및 기록용으로 작성하고 있습니다 

 

원하는-뉴스-스크래핑하기원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

뉴스검색 페이지로 이동

원하는 뉴스가 있는 검색페이지로 이동합니다. 원하는 검색어를 검색창에 입력하여 검색한 후, [마우스 오른쪽 클릭] - [검사]를 눌러주면 아래와 같은 화면이 나타납니다. 

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

 

오른쪽에 나타난 화면에서 mark를 찾으시면 내가 검색창에 검색해 본 단어가 들어있습니다. 이를 다른 단어로 바꿔보면 왼쪽의 검색창에는 기존 검색어가 내가 바꾸어놓은 단어로 바뀌어 보입니다. 단어를 바꾸었다고 해서 다른 사람들에게도 내가 바꾸어놓은 단어가 보이는 것은 아닙니다. 다만, 내가 받아온 자료를 가공했을 뿐이니 나에게만 바뀌어 보일 뿐이죠. 

 

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

 

즉, 이렇게 이미 받아온 정보를 솎아서 원하는 정보만을 스크래핑 하는 것이 가능합니다. 크롤링 기본 코드는 아래와 같습니다. 복사해서 붙여넣어준 후, 뉴스 스크래핑을 시작해봅니다. 

 

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query=삼성전자',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')
반응형

 

네이버 뉴스 스크래핑 시작

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

 

먼저 bs4를 인스톨해줍니다. ctrl+enter를 누르거나 왼쪽 플레이 버튼을 누르면 실행됩니다. 실행해놓은 후, 아까 켜놓은 검색창으로 돌아가봅니다. </a> 를 찾은 후, 마우스 오른쪽 버튼을 눌러 [copy] - [copy selector]를 눌러줍니다. 

 

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

다시 코드 입력창으로 돌아와 아래와 같이 입력해봅니다. 

 

  • a에 들어있는 모든 내용이 보고 싶을 때는 print(a)
  • a에 들어있는 텍스트만 보고 싶을 때는 a.text

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

  • a에 들어있는 링크를 보고싶다면 a['href']

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

 

위의 3가지를 조합해서 여러개의 뉴스 가져오기도 가능합니다. 

 

  •  뉴스 리스트 중에서 첫번째 뉴스를 보고싶다면 

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

  • 첫번째 뉴스의 링크를 보고싶다면 ['href']

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

  • lis에서 li 중에 텍스트만 뽑고 싶다면 for li in lis:

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기

  • 텍스트와 URL을 한꺼번에 보고 싶다면 아래와 같이

원하는-뉴스-스크래핑하기
업무자동화 ㅣ 원하는 뉴스 스크래핑하기


파이썬 기초를 배우고 있습니다. 오늘은 파이썬을 이용하여 원하는 뉴스를 검색창에서 스크래핑 하는 방법을 익혀보았습니다. 생각보다 재미있지만 조금 어렵기도 하네요. 꾸준히 열공해보도록 하겠습니다 :D

댓글