網站籌備詳細過程及上線一天google收錄心得
最近一直在想做個網站充實一下業餘的時間,畢竟每天上下班後的時間都很無聊,由於女朋友屬於非主流腦殘人群,因此為了迎合她的喜好,就打算搞一個非主流文化的站點。
先期的工作可以大致分為以下幾個步驟:
1、CMS系統的選擇:
一直在drupal和dedecms之間猶豫,但最後還是選擇了本土的dedecms,畢竟本土化做的好,而且相較之 下,drupal雖然功能異常強大,但是對於我的應用來說,它實在是太複雜了。於是本地搭建了WAMP環境,裝上了dedecms,對系統的操作進行了初 步的熟悉,並且對網站的欄目進行了劃分。
2、採集器的選擇:
說實在的,作為個人站長,我實在沒有太多的時間和精力去搞非主流素材的原創,於是考慮使用數據採集,試過了dedecms的 採集功能,使用起來不是很方面,而且是基於web界面,在我網速不佳的情況下,頁面竟然會僵死。現在的採集軟件較幾年前應該是強大很多了,於是我相信一定 有更強大的採集軟件,GG上一搜,果然有一款稱為火車採集的軟件。於是下載,熟悉。說句題外話,這個軟件寫的其實真不咋的,內存消耗極大,並且很多UI、 UE的設計簡直莫名其妙。不過好在,耍起來,基本功能都能滿足,並且穩定性、抓取速度明顯強於dedecms。在完全熟悉了它之後,就開始針對已劃分的欄 目進行對應的採集了。
3、域名的註冊及空間的租用:
網上查了很多相關域名,都被註冊掉了,最後選擇了www.17feizl.com這個域名,意為」一起非主流「,也算是搭一點邊界吧。空間租的是10G、mysql1G的那種,獨立IP,速度還行。只是不能防盜鏈,這對於一個以圖片為主的網站而言,不太理想。
4、ICPbeian:
我選擇的這家IDC還算是比較正規的,因此管理比較嚴格,如果沒有ICPbeian號,是不允許域名綁定的,於是讓 IDC代為進行beian,因為眾所周知,beian的週期是驚人的緩慢。我已經做好等待3周的準備了。而這3周的時間,我可以用來同步進行 dedecms模板的修改及程序的調整。但是沒想到的是,我申請的ICP在提交2天之後就審核通過了。總結了一下,代我beian的IDC在ICP那裡信 譽度高,可能我以個人站長身份報備,週期就會長了。這裡還有一個小心得,就是我報備的那個身份證號,之前是註冊過,但是15位的,這次我報備的時候輸入的 是18位的,一樣審核通過了。
5、模板修改:
由於ICP迅速的通過審核,讓我的計劃有點打亂,於是我加班加點地進行dedecms模板的修改,難度倒是沒有什麼,比較多的是 一些css的調整。其中有一個自由列表功能,有點讓我莫名,因為dede官網對於它的介紹也是非常模糊,論壇裡也有大量的人在問這個功能到底怎麼用。通過 反覆的摸索研究,終於對其理解了。其實自由列表在一定程度上,可以替代文章列表頁和智能標籤,因為它能套用不同風格的列表模板,這是列表頁所不具備的,但 智能標籤可以實現。只是智能標籤又不能做分頁。dede的開發人員還真沒想清楚。搞得這麼複雜,具體怎麼用自由列表,這裡就不多闡述,提一個小心得,當自 由列表替代一個欄目的列表頁時,在每次生成欄目文章靜態頁之後,要去更新一下自由列表,否則沒有效果。並且切記不要再去更新欄目靜態頁,否則自由列表也會 沒有效果。
6、抓取數據的處理:
dede的文章摘要比較奇怪,是自動摘錄文章的前N個字,這對於我需要自定義摘要而言,有點畫蛇添足。另外,一些抓取的文 章中的圖片的alt也需要替換,於是自己寫了個外掛,可以檢查各個欄目文章的keywords、description,並且可以進行修正。還能夠批量檢 測、修正文章中圖片的alt等等。而對於dede的程序也做了一些hack,每次添加文章的摘要和關鍵字都是根據預先寫的好程序自動生成的。
7、偽原創:
對於圖片文章,我的做法是修改文章標題,基本上改的面目全非,但不會脫離圖片的主題。對於圖文混和的文章,改標題、添加原創首尾段文字,中間的文字對於語義比較容易轉換的,也儘量做了調整,儘量將兩篇文章的相似度降低。
8、部署:
我不提倡網站一上線,就一股腦把所有抓取的數據都生成出來。首先,蜘蛛看你瞬間出現的龐大數據量,很容易判定站點為垃圾站,其次,剛 上線的網站,弄那麼多,給誰看呢?我的做法是,上線時,生成了百篇左右的文章,其餘在後台全部設為」待審核「,這樣在生成靜態的時候,不會一起生成出來。 然後每天就在後台裡,從那些待審核的文章中,挑個二三十篇進行更新,這樣蜘蛛看來,更像是網站的自然更新,而其實這些數據早一個星期前就準備好了,咔咔~ 但前提是,這些數據一定要經過偽原創處理,否則。。。但是,我又發現一個問題,即如果數據的抓取時間是8月5日,更新時間為8月9日,文件目錄命名是以年 月日這種方式的話,9日更新的文件,是會保存在5日那個文件夾內,這樣不太美觀,也不清楚對SEO是否會有影響。於是還是狠下心,讀了一下dede的源 碼,將源碼修改為每次修改完文章後,sortdate、senddate都取當前時間戳,這樣就可以保證發佈到當前日期的文件夾,並且文章發佈日期也正 確。我是archives和arctiny兩個表都同步更新。只更新archives表有什麼後果我也沒有試過。
9、上線:
向各大搜索引擎提交了網站,其中GG和百度提交了2次。然後半夜在一個論壇回覆了一個帖子,後面跟了域名及超鏈,就去睡了。白天醒 來,發現沒什麼動靜,於是就到網易、搜狐、新浪的博客裡發了個日誌,日誌裡大量提到了網站名稱和超鏈。到了下午,觀察log,終於發現google的蜘蛛 來了。但百度還沒有來,於是去了百度知道回覆了一個提問,並且針對提問,給了一個一起非主流站內鏈接給提問者參考,還在貼吧跟貼帶了域名和超鏈。到了下 午,百度蜘蛛來了,並且又去GG站長管理工具驗證了網站並且申請了GG Adsense。網上吃好飯,打開GG,發現已經被GG收錄了,雖然只是首頁,但總算也是收錄了。其中我在GG中輸入我的某些文章的標題,還能搜到那片文 章所在的列表頁地址。這個不知道算不算收錄,我也不是非常清楚。但百度依然沒有動靜。再觀察log,竟然發現了大量的404,我查了半天也不知道這些 404蜘蛛是哪裡找到的,後來花了1個小時,終於被我查到原因了:在網站正式生成靜態之前,我曾經一口氣生成過全部靜態頁作為測試之用,後來全部被我刪除 了,我以為這樣就乾淨了,卻沒想到,我忘記刪除或更新sitemap和rss文件,這兩個文件裡面,存在之前生成的大量鏈接!當我更新了這兩個文件之後, 蜘蛛的爬行也順暢多了,出現了很多200,但404依舊夾雜其中,應該是之前的網站索引已經被完全被抓取導致蜘蛛還在繼續爬行那些404頁面。我很胸悶。 只能怪自己太粗心,沒有注意到這個細節。所以以此為戒,希望各位站長朋友務必要注意這兩個文件。
關於GG快速收錄,不乏運氣因素,但總結下來,這幾方面也也值得思索:博客日誌的外鏈作用還是有一定效果的,而GG站長管理工具和GG adsense都是google自家的產品,相信其也有一定的權重。而百度,就真的是看造化了。
好了,洋洋灑灑地談了這麼多,並不是要具體討論如何選擇cms、如何選購域名空間、如何使用採集器、如何修改dede,如何做seo。而是將我 的建站過程與大家分享,在這個過程中,可以看到一些操作步驟是可以提前,又有一些是可以並行,還可以看到建站過程中可能會遇到的問題及陷阱。本文無非是起 到拋磚引玉的作用。希望幫助那些新手站長理理建站的頭緒,更清楚自己哪一步該做什麼以及哪些必須要做,哪些避免去做。
歡迎大家訪問我文中提到的這個新建站點:一起非主流 原創文章,歡迎轉載,尊重原創內容,轉載請註明出處:www.17feizl.com