出家如初,成佛有余

无线互联网垂直电子商务平台各系统内容运维策略思考

Posted in Uncategorized by chuanliang on 2008/05/16

    在平台的eSales系统、BSS/OSS系统、支付平台、门户这几大平台中,门户及eSales系统中有大量的关于手机软件、手机素材、手机型号参数、手机相关专业知识等相关的资源,这些内容的完备与否是各平台能否成功的关键所在。但作为一家以“渠道通路”为核心竞争力的初创性的互联网公司,内容本身的运维、运营并不是我们自己最为擅长的地方,近期也不可能招聘一批专职的内容运营人员来做网站内容本身的运营。从技术角度谈一下门户及eSales系统的内容运维策略,以更好支撑运营部门的日常运营。

1. 平台(门户、eSales系统)内容运维基本原则

  • 门户定位:手机增值业务垂直性门户
  • 内容运维基本原则:采用搜索引擎全自动或搜索引擎+人工(人肉搜索)方式对内容进行爬取入库
  • 内容演进过程:垂直搜索引擎自动爬取的内容基础库(无原创内容,无筛选)->垂直搜索引擎爬取+内容运营人员编辑形成的内容库(较少原创内容,人工参与筛选)->垂直搜索引擎爬取+内容运营人员编辑+社区原创内容(具有部分原创内容)->以社区原创性内容为主的内容(UGC)。

第一阶段:垂直搜索引擎自动爬取的内容基础库

    由垂直搜索引擎的对互联网上海量的手机内容进行自动爬取入库,形成自身的基础内容库;在内容上无太多的原创内容,也无内容编辑人员对爬取的内容进行筛选和过滤。这属于内容运维的第一阶段,也是近期的技术开发重点。

第二阶段:垂直搜索引擎爬取+内容运营人员编辑形成的内容库

    在第一阶段的基础上,由内容运营人员对爬取内容进行审核、编辑,保证内容库的质量

第三阶段:垂直搜索引擎爬取+内容运营人员编辑+社区原创内容

    在第三阶段基础上,将内容平台逐步开放,并将社区人员来参与到内容平台的建设中,充分发挥群体智慧的力量。

第四阶段:以社区原创性内容为主的内容

    在社区逐步成熟后,在此阶段,平台的核心内容只要是用户参与产生的内容(UGC),这也是门户的核心价值。

2. 技术架构指导原则:

    技术架构的统一:各平台核心数据模型、业务模型、技术架构必须遵循平台统一的架构,保证平台各系统的内容资源是完全复用的。

    垂直搜索引擎的建设:尽管垂直门户的建设是门户的核心内容,但围绕“渠道通路”的建设才是的核心竞争力,这包括支付通路、内容分销通路、手机通路、互联网通路等,近期的建设重点并不是社区门户的建设,因此在开发上不能投入太多的开发资源到垂直搜索引擎的开发上,在满足未来扩展性的基础上,采用相对快捷的方式开发垂直搜索引擎。

3. 垂直搜索引擎技术实现

    近期垂直搜索引擎的建设重点是爬虫,与普通的垂直性搜索引擎不同,我们是对网站内容进行爬取,而不对内容进行索引。而在内容爬取上,重点是对指定网站页面内容(例如北斗手机网)所需要内容的定向解析。

    爬取整站内容或复杂爬取需求选用的爬虫框架:Heritrix、Nutch。但这两个框架都较重,初期我们并不需要处理诸如爬取层次、增量爬取等策略,因此这两个框架后期再采用。

    对Javascript的解析:采用Rhino(SpiderMonkey)

    爬取指定内容选用的爬虫框架(目前使用方式):httpclient+htmlparser(nekohtml)。采用httpclient完成对网站内容指定页面的爬取,采用nekohtml或htmlparser包来对页面内容进行定向解析并爬取。在实现上可以参考httpunit对Rhino+httpclient+nekohtml的封装和实现。

    对采用AJAX方式生成内容的爬取:采用Cobra(http://lobobrowser.org/cobra.jsp

    搜索引擎:采用Lucene+Compass

 

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: