구글 검색 원리

1 minute read

게시글이 검색 엔진에 노출되도록 sitemap을 등록하다 문뜩 검색 원리가 궁금해졌다. 그래서 이 포스팅을 작성한다. 구글에서 제공하는 검색 엔진에 관한 내용을 요약, 정리해 나가보자!

구글의 검색 작동 방식

1) 크롤링 및 색인 생성

image

여러분이 웹에서 어떤 정보를 찾으려고 하면 관련된 정보가 
포함된 웹페이지가 수천, 수백 만 개까지도 존재할 수 있습니다. 
검색 결과를 제공하는 작업은 여러분이 검색어를 입력하기 훨씬 
전부터 시작되는데 이는 사용자에게 최고의 정보를 제공하겠다는 
약속에 기반을 두고 있습니다.

[출처 - Google 검색의 작동 방식]

- 검색의 기본

현재 인터넷에는 수없이 많은 웹 사이트가 존재한다. 그리고 검색엔진은 이 안에서 유의미한 결과를 추출해 사용자에게 제공하고 있다. 구글에서는 웹 콘텐츠 구성이라는 색인을 통해 수 없이 많은 웹 사이트에 관한 정보들을 저장해놓는다. 이는, 도서관의 색인기능과 같지만 그 보다 많은 정보들을 담고 있다고 한다.

구글은 웹 크롤러를 활용해 웹페이지에서 정보를 모아 색인에 정리한다. 크롤링 프로세스1) 이전 크롤링 작업을 통해 수집한 웹 주소 목록2) 웹 사이트 소유자가 제공한 사이트맵에서부터 시작된다. 2) 번 같은 경우는 블로그를 운영하거나, 상업적인 목적으로 사이트를 검색 상위에 노출하고자하는 많은 사람이 검색 엔진에 자신의 사이트맵을 등록하는 방식이다. 이러한 방식으로 구글은 검색을 위한 자료들을 끌어모은다.

image

- 크롤링으로 정보 찾기

웹은 끊임없이 커져가는 도서관에 비유할 수 있다. 웹Google은 웹 크롤러를 사용하여 수 없이 많은 공개된 웹페이지를 찾아내고, 여러 링크를 넘나들며 이러한 웹페이지에 관한 데이터를 Google 서버로 가져온다.

- 색인 생성을 통한 정보 구성

크롤러가 웹페이지를 찾으면 해당 페이지의 콘텐츠를 렌더링한다. 이때 키워드나 웹사이트 최신 정보에 해당하는 정보들을 기록하며, 검색 색인에서 모든 주요한 정보들을 추적하게 되는 것이다.

Google 검색 색인은 수 십 억 개의 웹페이지를 포함하고 있으며 크기는 100,000,000 기가바이트가 넘는다고 한다. 웹페이지 색인이 생성되면 웹페이지에 포함된 모든 단어의 색인 항목에 웹페이지를 추가한다.

2) 검색 알고리즘

image

웹 상의 정보는 정말 다양해 정보를 정렬하지 않으면, 원하는 정보를 찾아내기 쉽지 않다. 알고리즘 문제에서 단순 문자열 파싱에도 애를 먹었던 기억이 있다. 수 천 수 억개나 되는 정보들로부터 유의미한 결과를 만들기 위해 검색 알고리즘을 결합해야 한다.

검색 알고리즘은 특정 기준에 따라 검색 결과 노출 랭킹을 결정한다. 검색어의 단어, 페이지의 관련성 및 유용성, 출처의 전문성, 사용자의 위치 및 설정과 같은 다양한 요소들을 겹합하여 최종 노출할 정보를 선택하는 것이다.

1) 단어분석
2) 웹페이지 관련성
3) 콘텐츠의 품질
4) 웹페이지의 활용도
5) 문맥 고려하기

[검색 알고리즘 기준]

Reference

Leave a comment