정그래의 아카이빙

내사이트가 검색되게 하기 : 크롤러, robot.txt, sitmemap.xml 본문

코딩정보

내사이트가 검색되게 하기 : 크롤러, robot.txt, sitmemap.xml

정그래♪ 2021. 2. 24. 19:33

내가 만든 사이트를 공개하고 들어올 수 있는 URL까지 등록했다고 하더라도 방문자가 거의 없을 수 있다. 이럴 때는 구글, 네이버, 다음 등의 검색엔진에서 내 사이트를 잘 찾을 수 있도록 설정한다면 더 많은 사람이 내 사이트에 쉽게 들어 올 수 있다. 따라서 내 사이트가 검색엔진에서 잘 찾아지도록 설정하는 과정이 필요하다. 

 

각 검색엔진에는 네이버는 서치 어드바이저(Naver Search Advisor) 상의 웹마스터도구, 구글은 검색 콘솔(Goole Search Console) 등 내 사이트를 등록하고 관리할 수 있는 곳이 있다. 이곳들에 내 사이트 URL을 등록하고 내 사이트임을 인증해야 한다. 다음으로 검색이 잘 될 수 있도록 관련 문서를 제출하고 SEO 즉, 검색엔진 최적화를 해주면 된다.

 

Step1 : 검색엔진에 내 사이트 등록하기

여기서는 네이버 웹마스터 도구로 예를 들어보자. 네이버 검색창에서 웹마스터 도구를 입력한다. 사이트에 들어간 후 네이버 아이디로 로그인 해준다. 이후 '사이트추가'에 내가 만든 사이트URL을 입력해준다. 

 

Step2 : 내 사이트 소유 인증하기

사이트URL을 입력해준 후 내 사이트임을 인증해준다. '사이트 소유확인' 페이지에서 HTML태그를 눌러서 나오는 메타태그를 복사해서 본인 사이트 HTML 문서 안에 <head> 안쪽에 붙여넣기 해주면 된다. 이걸로 내 사이트임을 인증할 수 있다. 

 

Step3 : 관련문서(robots.txt & sitemap.xml) 제출하기

검색엔진은 정보를 수집하는 로봇이 존재한다. 이 로봇이 여러 사이트를 돌아다니면서 정보를 수집하고 이 정보를 모아서 검색엔진에 표시해준다. 이 로봇을 '크롤러'라고 부른다. 구글은 Goolebot, 네이버는 Yeti등으로 크롤러를 명명한다. 

 

그런데 크롤러가 모든 정보를 무작위로 수집한다면 숨기고 싶은 정보는 거를 수가 없게 된다. 따라서 이를 방지하기 위해 특정한 약속 즉 robots.txt파일을 먼저 읽게 된다. 해당 사이트의 robots.txt파일에서 로봇 접근을 허용한다고 되어있으면 정보를 가져오고 크롤러를 거부한다고 되어 있으면 해당 사이트에 접근하지 못하게 된다.

 

또한 sitemap.xml이란 파일도 있는데 크롤러가 해당 sitemap을 보고 사이트 내의 정보를 좀 더 정확하고 효율적으로 탐샘 할 수 있게 만들어 준다.따라서 우리 사이트에 robots.txt 파일과 sitemap.xml이란 파일을 만들어서 등록함으로써 검색엔진에 더 잘 노출되도록 할 수 있다.

 

이는 네이버 웹마스터도구에 등록한 내 사이트 URL을 클릭해서 들어간 후 검증-robots.txt 항목에서 간단히 생성할 수 있다. 사이트맵은 사이트맵 생성 사이트를 활용하거나 티스토리의 경우 자동으로 생성된다. 

 

Step4 : SEO(검색 엔진 최적화하기)

검색엔진에서 특정 검색어로 검색 시 상단에 노출되기 위해서는 '검색엔진최적화(SEO, Search Engine Optimization)이 필요하다. 역시 네이버웹마스터도구 페이지에서 할 수 있는데 '검증-웹페이지 최적화' 메뉴로 들어간다. 그러면 검색 로봇수집에서 대표적인 항목들이 잘 설정되어 있는지 아닌지 확인할 수 있다. 여기서 체크가 되어 있으면 잘 된 것이고 그렇지 않을 경우는 x가 나온다. 따라서 미흡한 항목들은 물음표를 확인 후 부족한 걸 채워주면 된다. 

 

네이버 뿐만 아니라 구글, 다음 등에서도 위와 비슷한 과정으로 내 사이트를 잘 검색되게 진행할 수 있다. 구글 검색콘솔 등록하기 등으로 검색한 수 방법을 그대로 따라하면 쉽게 설정이 가능하다. 

 

Comments