MY MENU

칼럼

제목

크롤링에 관하여

내용

구글은 웹크롤러가 정기적으로 웹을 탐색하고 구글 색인에 추가할 사이트를 찾습니다.


실제로 구글 검색결과에 게재되는 사이트 중 대부분 웹크롤러가 웹크롤링을 할때 자동으로 발견하여 추가한 것입니다.


<구글에서 클롤링이란?>

구글은 크롤러라는 자동화된 프로그램을 웹으로 검색하여 신규페이지 또는 업데이트 된 페이지를 찾습니다.  

이 작업을 '크롤링'이라하며, 웹 페이지를 가져오는 프로그램을 '구글봇'이라고 합니다.

(로봇, 크롤러, 스파이더라고도 알려져 있음)

구글에서 크롤링하며, 웹사이트 소유자가 제공한 사이트맵을 찾은 후 페이지 주소는 나중에 볼 수 있도록 목록에 저장/추가합니다.

(구글봇이 새로운 페이지 및 업데이트 된 페이지를 방문하여 `구글색인`에 추가하는 과정)

웹페이지에서 어떤페이지가 존재하는지 크롤링을 통해 파악하는 것으로, 

구글에서 페이지의 url을 발견하면 내용을 확인하기 위해 페이지 방문(크롤링)합니다.


구글은 모바일 크롤러와 데스크탑 크롤러라는 두가지 크롤러를 사용하여 웹사이트를 크롤링합니다.

각 크롤러 유형은 해당 유형의 기기로 페이지를 방문하는 사용자를 시뮬레이션합니다.

사이트에서 한가지 크롤러 유형(모바일 또는 데스크톱)을 기본 크롤러로 사용합니다. 

구글에서 크롤링하는 사이트의 모든 페이지는 기본 크롤러로 크롤링되며, 모든 새 웹사이트의 기본 크롤러는 모바일 크롤러입니다.



<만약 구글에서 크롤링 하지 말아야 하는 페이지가 있다면>

robots.txt에서 차돤된 페이지는 크롤링되지 않지만 다른 페이지에서 연결된 경우에는 여전히 색인될 수 있습니다.

크롤링시에는 민감한 개인정보나 로그인, 기타 승인보호가 설정된 경우 크롤링되지 않으며, 엑세스 할 수 없는 페이지 또한 크롤링 할 수 없습니다.



<크롤링 개선하기>

- 사이트맵 제출하기

- 개별 페이지의 크롤링 요청을 제출하기

- 간결하고 사람이 읽을 수 있는 논리적인 페이지 url경로로 페이지 url 작성하기

- roobots.txt를 사용하기

- 구글에서 주요 페이지와 페이지를 렌더링하는데 필요한 중요 리소스(이미지, css파일, 스크립트)에 엑세스할 수 있는지 확인하기

- 실제 페이지에서 url 검사 도구를 실행하여 구글이 페이지를 제대로 엑세스하고 렌더링할 수 있는 지 확인하기

- 페이지명이 올바르게 표시되는지 확인합니다.



구글 입장에서는 사이트에서 가장 중요한 페이지는 홈페이지입니다.

사이트 전체가 크롤링되게 하려면 홈페이지 및 모든 페이지에 중요한 섹션 및 페이지로 연결되는 양질의 사이트 탐색 시스템을 갖춰야합니다.

크롤링이 원활하게 잘 될 수 있도록 홈페이지를 개선하시어 구글 사용자가 사이트를 탐색하는데 도움이 될 수 있도록 합니다.









 



URL 복사

아래의 URL을 전체 선택하여 복사하세요.

게시물수정

게시물 수정을 위해 비밀번호를 입력해주세요.

댓글삭제게시물삭제

게시물 삭제를 위해 비밀번호를 입력해주세요.

이용가이드 다운로드 eBook으로 보기