Robot - Alat pencarian Sumber Data oleh Search Engine

September 4th, 2005

Oleh : JPN. Sumarno
Uraian ini menjelaskan secara umum proses pencatatan data dari sumber data di Internet oleh robot search engine. Tetapi robot search engine memerlukan kondisi yang memungkinkan baginya untuk mencatat, menelusuri sumber data sesuai dengan panduan dari meta tag yang ada pada sumber sumber data maupun pengaturan API dan RAF dalam server search engine. Pada search engine sekarang, penggunaan robot lebih memudahkan search engine untuk mengakses file data dari sumber data http, ftp, dan file. Tulisan ini gratis bagi siapa saja yang ingin mengkopi, mencetak atau bahkan membacanya.

Pencarian sumber data di Internet oleh search engine (dikenal dengan nama spidering) telah mempergunakan robot (Lycos, Excite, Google, Altavista, Infoseek, dll). Robot search engine juga ada yang menyebut dengan robot web. Robot ini akan mengakses (retrieve) semua data yang ada di Internet baik data http, ftp maupun file.

Robot dari sebuah search engine akan bekerja dengan baik apabila ada tiga kondisi umum berikut ini:

1. Sumber data mempergunakan meta-tag ROBOTS.

Meta tag ini umumnya dipakai dalam header dokumen HTML yang disimpan dalam web server.

default = empty = “ALL”
“NONE” = “NOINDEX, NOFOLLOW”

Sebagai filter adalah tanda koma yang memisahkan parameter berikut :
ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.

Meta tag ini ditujukan bagi anda yang tidak ingin sumber data miliknya diakses oleh file robots.txt dari search engine. Dengan cara ini pula maka data yang ada dalam halaman web site seseorang tidak akan dicatat perubahan terbarunya oleh search engine. Pada tag ini tidak dimungkinkan adanya penambahan syntax lain agar supaya robot tertentu diperbolehkan melalui meta-tag ini.

Penjelasan pengaturan meta tag :

INDEX berarti mempersilahkan robot dari search engine untuk mengakses sumber data yang ada
dalam server anda.

NOINDEX mengatur agar semua bagian halaman anda tidak diindeks oleh robot web.

FOLLOW berarti mempersilahkan robot untuk mengikuti semua link yang ada dalam sumber data anda untuk menemukan halaman halaman lainnya.

Nilai “NOFOLLOW” mengijinkan halaman anda bisa diindex oleh search engine, tetapi link link ke halaman lain yang ada pada halaman itu tidak diindex oleh search engine.

Nilai “NONE” mengatakan kepada robot untuk melewatkan halaman tersebut.

NOIMAGEINDEX mencegah gambar gambar yang ada dalam halaman web anda dari aksi pencatatan oleh robot web, tetapi data lain dari halaman web anda masih bisa dicatat oleh robot web.

NOIMAGECLICK mencegah pengaksesan data link dari image.

Tidak semua search engine dapat menterjemahkan meta-tag diatas, atau bahkan mereka
memiliki tag tersendiri yang bisa diterjemahkannya, misalnya Google dapat menerima pesan NOARCHIVE, sedangkan pada Altavista tidak dapat memahami meta tag ini. Pada Altavista dapat mengenal meta tag NOINDEX, NOFOLLOW, NOIMAGEINDEX, dan NOIMAGECLICK.

Contoh pemakaian pengaturan meta tag ini pada header dokumen HTML.

Robot web akan mengakses file anda tapi tidak akan mencatatnya dalam database search engine

2. Sumber data mempergunakan meta-tag DESCRIPTION

Adanya penggunaan meta tag ini didalam dokumen HTML akan memudahkan search engine mempergunakan data ini untuk ditampilkan dalam halaman hasil pencarian-nya secara ringkas. Teks yang ditampilkan oleh search engine ini tidak memuat daftar isi dan format data anda.

3. Pengunaan file ROBOTS.TXT

File ini dipergunakan didalam server search engine untuk mengkses sumber data di Internet
Beberapa search engine bahkan dilengkapi dengan tampilan interface yang memungkinkan anda
mengontrol kinerja file ini melalui pengaturan API (Application Programming Interface) dan RAF (Robot Application Function) dalam mesin search engine, misalnya pada mesin Sun ONE Portal
Server 6.2. atau Netscape Compass Server. Sebuah robot search engine adalah agen pengidentifikasi dan pelapor atas sebuah sumber data didalam domainnya; sehingga ini tentu saja mempergunakan dua jenis filter yaitu filter enumerator dan filter generator.

Protokol Eksklusi Robot akan berfungsi meneruskan (forwarding) data. Mekanisme kerjanya kurang lebih seperti ini : ketika sebuah robot search engine mengunjungi sebuah situs, pertama kali yang akan dicek olehnya adalah URL “/robots.txt” situs tersebut. Jika URL ini ada, Robot akan menampilkan isinya sekaligus mengarahkan robot itu untuk mengakses dokumen dokumen HTML anda sesuai dengan meta tag robot yang ada dalam dokumen anda begiu pula dengan link linknya.

Bagi seorang administrator web server, ini sangat penting, karena biasanya seorang administrator
web server akan membuat pengarah yang baik untuk situsnya. Sehingga beberapa direktori data penting tidak ditampilkan dan sebagian data bisa ditampilan oleh search engine.

Robot search engine akan menampilkan deskripsi sumber data anda sesuai dengan yang diinginkan. Misalnya direktori data yang lalu tidak ingin ditampilkan oleh search engine, maka pada data HTML yang ada didalam direktori tersebut dapat diberi meta tag yang dapat mengatakan kepada robot search engine untuk tidak mencatatnya yaitu dengan memakai meta tag NOINDEX dan NOFOLLOW.

Entry Filed under: Internet Marketing

Leave a Comment

You must be logged in to post a comment.

Trackback this post  |  Subscribe to the comments via RSS Feed


Calendar

May 2012
M T W T F S S
« Aug    
 123456
78910111213
14151617181920
21222324252627
28293031  

Most Recent Posts