出家如初,成佛有余

一个快递公司业务员的客户关系管理

Posted in Uncategorized by chuanliang on 2009/05/20

    近期在网上疯狂购物,给即将出生的宝宝准备各种用品,于是与形形色色的快递公司的业务人员接触也较多,大部分快递公司的业务员典型的送货流程:

   1、(可选步骤)业务员先电话联系。用语:我是xx快递的,这边有你的快递,大致几点会送货上门,有人在家吗。似乎大部分的快递公司都不会先联系是否有人在家。

   2、业务员风风火火地上门按门铃。用语:快递。一些快递的用语:xx快递,给你送xx地方发送的东西。当然有些快递是打电话,让自己下楼去取货。

   3、递过货物及签收单,职业性的指着签收处让签收。用语:请签这儿。有的快递会提醒当面检查一下货物

   4、向其询问相关问题。大部分的用语:不知道,请打我们公司服务电话;

   5、风风火火地走掉

   从这些细节倒是可以看出不同快递公司的服务水平及规范性。

   前几天在外面,一家快递公司的业务员给我电话:

       快递:我是xx快递的,你购买的东西到了,好像有婴儿床、蚊帐几个东西,东西都很大,我没办法用自行车给你送过去,你自己过来取一下。

      我:怎么让我自己去取,你没办放弄,我去也没力气搬动啊。你可有责任把东西给我送上门

     快递:我这边自行车放不下,公司现在也没有货车。

     我:那东西沉吗,出租能放下吗?

     快递:能装下,不沉,你自己能够搬动的。

   由于在外,于是让爱人挺住大肚子去快递公司那边看看能否用出租车装下,然后让快递骑车到我家帮助把东西搬上去。到了一看,根本不是我们这样的文弱书生能够搬动的,一大堆东西,怪不得快递不愿意送上门,让自己去取。在爱人反问快递:“我挺住一个大肚子,你觉得我能够搬回去吗?”。后来协商的结果是,找了2个出租把东西一股脑送到楼下,快递公司的业务员骑自行车到我家帮助把东西搬上楼。

    刚好其他快递的业务员也送东西到我家(按照上述的标准服务流程,门铃->签字->走人),按照爱人的说法是:送床的那个业务员反应很灵敏,刚开始搬东西时候还爱理不理的,一看有其他快递也送东西,可能知道我家近期使用快递较多,因此弄完后,送上自己的名片,说有什么快递需求可以找他。

    回家后一听整个过程,大骂快递一通,真不是东西,只不过也感叹这个业务员的反应,然后顺手将名片扔进了垃圾桶。

    过了几天,需要把一个商家多发的货发回去,由于东西较大,懒得上邮局通过EMS发,想起了那个小孩,从垃圾桶里找到那名片,给其打电话,一报告地址,业务员马上说:哦,是xx先生吧,我马上过来帮你发了。很诧异这个小孩的记忆力,竟然能够记得这么清楚。打完电话后出门了,后来听我爱人说,由于需要打包、称重等,因此耽搁了一会儿,将货发完后,那小孩又特意留了一张多余的发货单,说:下一次可以先填好,贴上去,他直接过来取,这样快一点。

    再次感叹这个小孩的销售意识,尽管曾经对其没好印象,但相信这样的孩子一定会有所出息;再次感叹为何有些人始终会成功,而更多人只能始终在底层一直干下去,几点感悟:

   1、我们天天挂在嘴边的客户关系管理其实并不没有我们宣扬的那样复杂与神秘。快递公司的小孩通过我们家快递较多从而将我作为使用其快递服务的潜在客户(leads),通过记住服务过的客户名称等细节来增加客户好感,并在服务后主动留下服务单来主动创造销售机会。尽管这些都微不足道,但我相信这是比那些所谓“CRM最佳实践”的范例更具有现实指导意义、更加生动的例子。

   2、在任何行业都有无限的市场机会,关键还是在于我们自己是否具备捕获市场机会的意识和能力,其实很多时候我们不是缺少能力而是缺少市场竞争所必须的思维方式及职业素养。快递公司的快递人员,就我理解而言,可以算是一个毫无前途的职业,只能够解决生存问题,但不可能有太大的发展。于是乎大部分快递公司的的快递业务员也满足于从公司接单->送货这样按部就班的工作,大家都把接单数的多少寄托于公司身上,没有人想过怎样接更多单、没有人想过怎样更聪明地干体力活,于是乎大家也无所谓什么职业习惯、职业素养的培养,在未有合适机会时候我们天天指望奇迹的出现。我相信这个小孩也不喜欢这个底层的职业,也不愿意干太多吃力不讨好的事情(正如不愿意多费一点力气帮我运床一样),但我相信他应该相信:通过自己的努力,一定会改变自己的命运的。他通过自己服务来赢得客户、赢得更多的销售机会,从而改变自己的命运。

  3、怎样在历尽沧桑后仍然保持我们刚步入社会时的梦想与激情是我们最为稀缺的精神。与快递公司小孩草根化的客户关系管理相比较,我们并不缺少高深的CRM理论,也不缺少复杂的IT系统,更不缺少专业化的客服坐席。我们真正缺少的是将客户作为我们衣食父母的意识,因为我们只是希望客户不要找我麻烦就行;我们真正缺少的是对工作由衷的热爱,因为我们只是将工作当成一份谋生的工作而言;我们缺少的是通过自己奋斗改变命运的勇气和信念,因为我们不愿意丧失目前我们所拥有的,尽管我们其实还是有很多的梦想。所谓“出家如初,成佛有余”。因此与其天天按住头灌输所谓的企业文化及规章制度、空谈企业管理的各种新理念、空谈员工的职业发展规划,还不如创造环境激发起员工内心深处曾经的梦想和荣誉感,让其为自己的命运工作。

 

基于标签tag实现电子商务推荐系统之思路篇

Posted in Uncategorized by chuanliang on 2009/05/19

    正如在电子商务推荐系统入门基础中所说:电子商务推荐系统可以向客户提供商品信息和建议,模拟销售人员帮助客户完成购买过程,从而使客户避免信息“超载”所带来的麻烦。

    理想情况下,协同过滤的推荐方式是电子商务推荐系统最佳的选择方案,但在项目初期,由于用户消费信息、点击数据、偏好数据等积累尚不完善的情况下,会出现所谓的“稀疏性问题、冷开始问题”现象。因此在项目初期,考虑先采用基于内容过滤(Content-Based filtering ) 的方案以满足对用户购物推荐的目的,等用户数据积累到一定程度后,再采用基于协同过滤( Collaborative filtering )的方案。

    对于基于内容的过滤,最核心的问题其实是内容特征值的提取及内容特征值之间的相关性分析。

1、内容特征值的提取:

    对于一个商品要达到向用户推荐的目的,首要要能够提取出能够表征商品特征的数据,这样才能够根据用户的喜好(实际上用户喜好也需要转化为特征值来进行度量)进行相对应的推荐,可以说提取商品的特征数据是进行Content-Based filtering 的首要条件。

   一般情况下采用分类法、关键字、标签(tag)等方式是对产品特征进行描述。

  • 分类法:

    采用人工手工维护方式,允许将一种产品归属于一个或多个产品分类。这种方案在CMS系统及目前大部分的电子商务系统中采用得较多。

    优点是:实现相对简单且由于分类法层次化结构适合大部分用户逐级浏览的习惯;

    缺点是:分类相对固定,很难适应分类的变化;相对静态的分类只适合产品分类相对粗粒度的划分场景,对于太细粒度的分类,由于分类标准的不一致性导致用户所理解的分类法与商家的分类法标准并不一定相同,因此很容易引起用户的迷惑。

  • 社会化标签:

    标准的Web2.0应用的最典型的应用。社会化标签允许用户对产品资源赋以个性化的tag来表征产品特征,同时用户可以通过共享自己的tags以通过tags的聚合和相关度来实现信息的组织及分类。标签的优点在于其灵活性,避免了因分类法标准不一致所导致的混乱,同时其“社会化”的特性使其适合于Web 2.0应用;缺点也在于其灵活性,因为标签的标准太过随意,同样的产品,用户可以赋予其不同的标签。

  • 关键字:

   从用法来看,关键字其实与标签类似,最大的差异在于社会化属性上。去除标签的社会化属性后,我们可以把标签和关键字等同使用。此处我们考虑的是Content-Based filtering ,因此可以先将关键字与标签混淆使用。

  思考:正如blog可以通过标签来表征一篇blog的特征属性。对于一个产品,我们也可以通过标签tag来描述一个产品的特征属性,这样Content-Based filtering的产品推荐我们就归结为标签间的相关性分析的问题 。

2、内容特征值之间的相关性分析

   要使用标签来实现产品间的相关性分析从而达到相关性推荐的目标,又存在几个方面的核心问题:

  • 怎样处理不同标签权重、标签出现的频率、stop words等问题?
  • 怎样以向量方式来描述标签?
  • 标签的相关性分析采用什么算法?余弦相似性、皮尔逊相关度系数、欧几里得距离、广义Jaccard系数?

    由于Lucene这样的搜索引擎对索引中的不同的关键词的相关度都已经有较好的处理(参考Lucene 的 org.apache.lucene.search.Similarity),因此最简单的方案莫过于直接使用lucene这样的搜索引擎将标签纳入其索引范围,然后让搜索引擎本身的相关度分析帮助实现标签间的相关性分析及聚类分析,只不过搞清楚方案的可行性及原理才是我们的目的所在,这样才能够应用于更多的场合。

    只不过考察org.apache.lucene.search.Similarity代码,会发现其注释已经很完美地回答了我们上述需要解决的几个问题。摘录如下:

Similarity (Lucene 2008-12-20_02-04-42 API)

 

  • 怎样处理不同标签权重、标签出现的频率、stop words等问题?

      答案:采用tf-idf(term frequency/inverse document frequency)

  • 怎样以向量方式来描述标签?

      答案:采用Vector Space Model (VSM) of Information Retrieval

  • 标签的相关性分析采用什么算法?余弦相似性、皮尔逊相关度系数、欧几里得距离、广义Jaccard系数?

      答案:采用 cosine similarity  +Vector Space Model (VSM) of Information Retrieval

     

    实际上对于vector space model ,有三个基本操作步骤:

    • Document Indexing
    • Term Weighting
    • Similarity Coefficients

    这刚好就是我们需要解决的问题所在。

         关于tf-idf(term frequency/inverse document frequency),可以参考Wikipedia数学之美 系列九 — 如何确定网页和查询的相关性 的介绍,这个相对好理解。

        关于Vector Space Model (VSM) of Information Retrieval这一篇文章介绍得挺清楚的:

        在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),我们把它叫做文本D的向量表示。其中Wk是 Tk的权重,1<=k<=N。在上面那个例子中,假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为
    D(30,20,20,10)。在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:

    其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1<=k<=N。

     

       暂且整理实现思路到此,等把例子弄完成后,再对照代码解释具体的实现细节。

     

  • 基于标签tag实现电子商务推荐系统之思路篇

    Posted in Uncategorized by chuanliang on 2009/05/18

        正如在电子商务推荐系统入门基础中所说:电子商务推荐系统可以向客户提供商品信息和建议,模拟销售人员帮助客户完成购买过程,从而使客户避免信息“超载”所带来的麻烦。

        理想情况下,协同过滤的推荐方式是电子商务推荐系统最佳的选择方案,但在项目初期,由于用户消费信息、点击数据、偏好数据等积累尚不完善的情况下,会出现所谓的“稀疏性问题、冷开始问题”现象。因此在项目初期,考虑先采用基于内容过滤(Content-Based filtering ) 的方案以满足对用户购物推荐的目的,等用户数据积累到一定程度后,再采用基于协同过滤( Collaborative filtering )的方案。

        对于基于内容的过滤,最核心的问题其实是内容特征值的提取及内容特征值之间的相关性分析。

    1、内容特征值的提取:

        对于一个商品要达到向用户推荐的目的,首要要能够提取出能够表征商品特征的数据,这样才能够根据用户的喜好(实际上用户喜好也需要转化为特征值来进行度量)进行相对应的推荐,可以说提取商品的特征数据是进行Content-Based filtering 的首要条件。

       一般情况下采用分类法、关键字、标签(tag)等方式是对产品特征进行描述。

    • 分类法:

        采用人工手工维护方式,允许将一种产品归属于一个或多个产品分类。这种方案在CMS系统及目前大部分的电子商务系统中采用得较多。

        优点是:实现相对简单且由于分类法层次化结构适合大部分用户逐级浏览的习惯;

        缺点是:分类相对固定,很难适应分类的变化;相对静态的分类只适合产品分类相对粗粒度的划分场景,对于太细粒度的分类,由于分类标准的不一致性导致用户所理解的分类法与商家的分类法标准并不一定相同,因此很容易引起用户的迷惑。

    • 社会化标签:

        标准的Web2.0应用的最典型的应用。社会化标签允许用户对产品资源赋以个性化的tag来表征产品特征,同时用户可以通过共享自己的tags以通过tags的聚合和相关度来实现信息的组织及分类。标签的优点在于其灵活性,避免了因分类法标准不一致所导致的混乱,同时其“社会化”的特性使其适合于Web 2.0应用;缺点也在于其灵活性,因为标签的标准太过随意,同样的产品,用户可以赋予其不同的标签。

    • 关键字:

       从用法来看,关键字其实与标签类似,最大的差异在于社会化属性上。去除标签的社会化属性后,我们可以把标签和关键字等同使用。此处我们考虑的是Content-Based filtering ,因此可以先将关键字与标签混淆使用。

      思考:正如blog可以通过标签来表征一篇blog的特征属性。对于一个产品,我们也可以通过标签tag来描述一个产品的特征属性,这样Content-Based filtering的产品推荐我们就归结为标签间的相关性分析的问题 。

    2、内容特征值之间的相关性分析

       要使用标签来实现产品间的相关性分析从而达到相关性推荐的目标,又存在几个方面的核心问题:

    • 怎样处理不同标签权重、标签出现的频率、stop words等问题?
    • 怎样以向量方式来描述标签?
    • 标签的相关性分析采用什么算法?余弦相似性、皮尔逊相关度系数、欧几里得距离、广义Jaccard系数?

        由于Lucene这样的搜索引擎对索引中的不同的关键词的相关度都已经有较好的处理(参考Lucene 的 org.apache.lucene.search.Similarity),因此最简单的方案莫过于直接使用lucene这样的搜索引擎将标签纳入其索引范围,然后让搜索引擎本身的相关度分析帮助实现标签间的相关性分析及聚类分析,只不过搞清楚方案的可行性及原理才是我们的目的所在,这样才能够应用于更多的场合。

        只不过考察org.apache.lucene.search.Similarity代码,会发现其注释已经很完美地回答了我们上述需要解决的几个问题。摘录如下:

    Similarity (Lucene 2008-12-20_02-04-42 API)

     

  • 怎样处理不同标签权重、标签出现的频率、stop words等问题?

      答案:采用tf-idf(term frequency/inverse document frequency)

  • 怎样以向量方式来描述标签?

      答案:采用Vector Space Model (VSM) of Information Retrieval

  • 标签的相关性分析采用什么算法?余弦相似性、皮尔逊相关度系数、欧几里得距离、广义Jaccard系数?

      答案:采用 cosine similarity  +Vector Space Model (VSM) of Information Retrieval

     

    实际上对于vector space model ,有三个基本操作步骤:

    • Document Indexing
    • Term Weighting
    • Similarity Coefficients

    这刚好就是我们需要解决的问题所在。

         关于tf-idf(term frequency/inverse document frequency),可以参考Wikipedia数学之美 系列九 — 如何确定网页和查询的相关性 的介绍,这个相对好理解。

        关于Vector Space Model (VSM) of Information Retrieval这一篇文章介绍得挺清楚的:

        在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),我们把它叫做文本D的向量表示。其中Wk是 Tk的权重,1<=k<=N。在上面那个例子中,假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为 D(30,20,20,10)。在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:

    其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1<=k<=N。

     

       暂且整理实现思路到此,等把例子弄完成后,再对照代码解释具体的实现细节。

     

  • 基于python的crawler

    Posted in Uncategorized by chuanliang on 2009/05/16

    考虑到垂直爬虫及站内搜索的重要性,重新思考一下项目爬虫的技术架构及实现方案。以前的垂直爬虫曾经使用过heritrix、htmlparser、nutch等,各有优缺点。尤其是要做垂直网站的定向爬取时候,并没有太好的方案,只能够做指定页面的定向解析,因此以前主要还是使用htmlparser的方案。

    考察垂直爬虫的几个原则:

    • 性能较高:较好支持多线程并发处理;支持异步、非阻塞socket;支持分布式爬取;爬取调度算法性能较高;内存使用效率较高,不要老是出现out of memory问题;
    • 架构优美:组件式设计式架构,扩展方便;架构设计精巧。至少值得花时间去学习架构设计思想。
    • 扩展方便:能够与现有框架较好集成;由于是垂直爬虫,需要针对不同的网页定制爬取规则集逻辑,需要能够方便测试,不要老是重新编译,因此最好支持python等脚本语言
    • 功能全面:内置支持ajax/javascript爬取、登录认证、深度爬取设置、类似heritrix的爬取过滤器(filter)、页面压缩处理等
    • 管理功能:提供爬虫管理接口,能够实时监控和管理爬取

    厌烦了基于java的爬虫方案,尤其是考虑到python在网络编程上的易用性,因此打算考察基于python做新版本爬虫的可行性,刚好把久不使用的python捡起来。

    整理了一下目前基于python的crawler,大致有如下一些现成的项目方案可供参考:

    Mechanizehttp://wwwsearch.sourceforge.net/mechanize/

    Twillhttp://twill.idyll.org/

    Scrapyhttp://scrapy.org

    HarvestManhttp://www.harvestmanontheweb.com/

    Ruyahttp://ruya.sourceforge.net/

    psilibhttp://pypi.python.org/pypi/spider.py/0.5

    BeautifulSoup + urllib2http://www.crummy.com/software/BeautifulSoup/

    比较之后,选择Scrapy作为重点考察学习对象,尽管没有Mechanize及Harvestman成熟,但从其架构来看,还是很有前途的,尤其是基于twisted高性能框架的架构,很有吸引力。

    看看Scrapy的架构:

    scrapy_architecture1

    Components

    • Scrapy Engine

    The engine is responsible for controlling the data flow between all components of the system, and triggering events when certain actions occur. See the Data Flow section below for more details.

    • Scheduler

    The Scheduler receives requests from the engine and enqueues them for feeding them later (also to the engine) when the engine requests them.

    • Downloader

    The Downloader is responsible for fetching web pages and feeding them to the engine which, in turns, feeds them to the spiders.

    • Spiders

    Spiders are custom classes written by Scrapy users to parse response and extract items (aka scraped items) from them or additional URLs (requests) to follow. Each spider is able to handle a specific domain (or group of domains). For more information see Spiders.

    • Item Pipeline

    The Item Pipeline is responsible for processing the items once they have been extracted (or scraped) by the spiders. Typical tasks include cleansing, validation and persistence (like storing the item in a database). For more information see Item Pipeline.

    • Downloader middlewares

    Downloader middlewares are specific hooks that sit between the Engine and the Downloader and process requests when they pass from the Engine to the downloader, and responses that pass from Downloader to the Engine. They provide a convenient mechanism for extending Scrapy functionality by plugging custom code. For more information see Downloader Middleware.

    • Spider middlewares

    Spider middlewares are specific hooks that sit between the Engine and the Spiders and are able to process spider input (responses) and output (items and requests). They provide a convenient mechanism for extending Scrapy functionality by plugging custom code. For more information see Spider Middleware.

    • Scheduler middlewares

    Spider middlewares are specific hooks that sit between the Engine and the Scheduler and process requests when they pass from the Engine to the Scheduler and vice-versa. They provide a convenient mechanism for extending Scrapy functionality by plugging custom code.

    参考资料:

    http://doc.scrapy.org

    http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use

    http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers

    http://java-source.net/open-source/crawlers

    广电业务杂思之支付平台建设

    Posted in Uncategorized by chuanliang on 2009/05/15

        与做广电的朋友聊起广电的相关业务,尤其是广电BOSS系统建设、广电增值业务平台建设、广电领域垂直支付平台建设等问题。从电信运营商对比,广电系统算是一个尚待开发的处女地,有着无限的想象空间,只不过也有着无限的挑战,这种挑战不是通过技术手段、业务创新、市场化手段可以解决。

        不管怎样,先一厢情愿地思考一下广电领域垂直支付平台建设的必要性。这里的支付平台并不完全是通常意义的电子支付平台,其实可以认为是清算结算平台+电子支付+增值业务+BOSS业务等的杂交品种,既然是杂思,想到哪儿写到哪儿,也懒得以严严谨的方式定义这些东西。

    1、垂直支付平台建设的必要性

        数字化浪潮已经席卷全球广播电视行业,数字技术、网络技术、3G技术的发展极大促进了广电向数字化、信息化、产业化的大踏步迈进。尤其是数字电视以其高质量、高容量、交互性好、增值业务承载能力强等优势成为广电应对市场竞争强有力的杀手锏。但对普通用户而言,用户看重的不是数字电视技术先进与否,而是数字电视能否向用户提供丰富多彩的服务内容,这也是数字电视能否发展的关键因素。

        随着有线电视的数字化快速增长和双向网的改造推进,数字电视增值业务就具备了发展的基础。各个地方的广电都在积极开展付费电视、多媒体信息服务、视频点播、电子商务等各种增值业务,以实现多种业务融合的、开放的、个性化的综合信息服务,满足城乡各类型用户随时随地获取丰富的、多层次的信息需求,形成竞争合力。

        广大的广电用户对广电增值业务感兴趣的程度也在逐渐升高,用户也愿意给与生活及休闲娱乐相关项目的业务付费,但目前的数字电视付费渠道不成熟。用户对付费节目的整体接受价格偏低,集中在10元以下,目前广电所提供的支付手段很难满足这样小额支付的需求。

        怎样让广电用户便捷地完成增值业务的支付已成为广电数字电视业务发展的成败关键,但目前广电现有的管理体制、广电增值业务相对不成熟的产业链、支撑系统建设的滞后、运营能力、用户使用习惯等因素严重制约了广电增值业务的发展,具体体现在:

        1. 广电目前的收费手段极其的单一,除了银行代扣费、营业厅缴费等手段外,并没有积极开拓电子支付、手机支付、SP收费等较为便捷的支付方式,用户缴纳费用极其不方便。

        2. 广电目前的支付手段不能有效支撑诸如频道开通、电视购物、视频点播等增值业务对小额支付的需求,用户有使用增值业务的热情,但面对繁琐的支付过程,只能“望视兴叹”。

        3. 广电尚未建立起成熟的类似于电信运营商的增值业务管理平台、增值业务运营平台、资金清算结算平台,产业链尚未形成,CP/SP短期很难马上获益,CP/SP主动性不高。且由于没有全国统一的资金清结算平台,CP/SP只能与各地广电一家一家进行结算,导致CP/SP运营成本极高。

        4. 广电并没有像电信运营商那样发展成熟的代理商管理体系及营销体系,帮助广电进行充值、售卡、增值业务推广等服务的服务点相对较少,市场开拓能力较弱。

        5. 广电较为松散的管理格局导致在于各地广电在于银行谈判过程中处于相对劣势,在费率、业务需求、系统实现等各个层面并不能得到银行较好的支持,且要与一家一家银行合作接入并不是广电所擅长的。通过整合各地方广电的支付需求,形成一个独立的支付平台,可以整体提高广电与银行的议价能力。

        6. 支付平台成败的关键在于运营能力。广电运营商当下的重点是BOSS系统的建设,电子支付平台的建设及运营并不是广电所擅长的,而目前众多的第三方支付厂商对于广电运营商的运营模式、业务需求也没有较好的解决方案。

        综上所述,广电运营商要在增值业务乃至数字电视业务上有所作为,就必须有一套针对广电行业量身打造的电子支付解决方案,来满足广大广电用户小额支付的需求,为用户提供更加便捷、个性化的服务,从而保证广电运营商在激烈的市场竞争中胜出。

        当然从经济利益角度而言,靠大家自己的想象能力去海阔天空地思考一下吧。

    2、建设目标

        通过广电支付平台的建设,提供短信充值、第三方支付充值、神州行充值、充值卡充值、银行卡绑定充值、IVR充值等多种形式的充值(缴费)手段,同时提供电子支付、短信支付、Web支付、POS支付、手机支付等多种形式的支付手段。为广电运营商提供一种覆盖面更广、更接近用户实际需求的服务手段,使最终用户享受到更方便和简捷服务,提高用户的服务满意度和忠诚度,从而提高运营商的经济效益。

        通过广电支付平台的建设,为广电数字电视提供一体化的增值业务的电子结算支付平台,提升广电运营商资金清算、结算能力,最终提高广电运营商的服务能力、运营能力、盈利能力。

        通过广电支付平台的建设,完善内容资源的收费通道,以利益为契合点,进一步整合有价值的内容提供商、服务提供商、渠道代理商、用户、广电运营商等资源,完善广电增值业务产业链。

        说了这么多美好的辉煌前景,来点现实的东西,要做这玩意,需要什么条件呢?

        资源!资源!还是资源!

        所以上面所有的东西全是清谈,不一定具有现实的指导意义,算是对电子商务及电子支付的再次思考吧。

    基于python的crawler

    Posted in Uncategorized by chuanliang on 2009/05/15

        考虑到垂直爬虫及站内搜索的重要性,重新思考一下项目爬虫的技术架构及实现方案。以前的垂直爬虫曾经使用过heritrix、htmlparser、nutch等,各有优缺点。尤其是要做垂直网站的定向爬取时候,并没有太好的方案,只能够做指定页面的定向解析,因此以前主要还是使用htmlparser的方案。

        考察垂直爬虫的几个原则:

    • 性能较高:较好支持多线程并发处理;支持异步、非阻塞socket;支持分布式爬取;爬取调度算法性能较高;内存使用效率较高,不要老是出现out of memory问题;
    • 架构优美:组件式设计式架构,扩展方便;架构设计精巧。至少值得花时间去学习架构设计思想。
    • 扩展方便:能够与现有框架较好集成;由于是垂直爬虫,需要针对不同的网页定制爬取规则集逻辑,需要能够方便测试,不要老是重新编译,因此最好支持python等脚本语言
    • 功能全面:内置支持ajax/javascript爬取、登录认证、深度爬取设置、类似heritrix的爬取过滤器(filter)、页面压缩处理等
    • 管理功能:提供爬虫管理接口,能够实时监控和管理爬取

       厌烦了基于java的爬虫方案,尤其是考虑到python在网络编程上的易用性,因此打算考察基于python做新版本爬虫的可行性,刚好把久不使用的python捡起来。

        整理了一下目前基于python的crawler,大致有如下一些现成的项目方案可供参考:

        Mechanizehttp://wwwsearch.sourceforge.net/mechanize/

        Twillhttp://twill.idyll.org/

        Scrapyhttp://scrapy.org

        HarvestManhttp://www.harvestmanontheweb.com/

        Ruyahttp://ruya.sourceforge.net/

        psilibhttp://pypi.python.org/pypi/spider.py/0.5

        BeautifulSoup + urllib2http://www.crummy.com/software/BeautifulSoup/

        比较之后,选择Scrapy作为重点考察学习对象,尽管没有Mechanize及Harvestman成熟,但从其架构来看,还是很有前途的,尤其是基于twisted高性能框架的架构,很有吸引力。

        看看Scrapy的架构:

     

    scrapy_architecture1

    Components

    • Scrapy Engine

        The engine is responsible for controlling the data flow between all components of the system, and triggering events when certain actions occur. See the Data Flow section below for more details.

    • Scheduler

        The Scheduler receives requests from the engine and enqueues them for feeding them later (also to the engine) when the engine requests them.

    • Downloader

        The Downloader is responsible for fetching web pages and feeding them to the engine which, in turns, feeds them to the spiders.

    • Spiders

        Spiders are custom classes written by Scrapy users to parse response and extract items (aka scraped items) from them or additional URLs (requests) to follow. Each spider is able to handle a specific domain (or group of domains). For more information see Spiders.

    • Item Pipeline

        The Item Pipeline is responsible for processing the items once they have been extracted (or scraped) by the spiders. Typical tasks include cleansing, validation and persistence (like storing the item in a database). For more information see Item Pipeline.

    • Downloader middlewares

        Downloader middlewares are specific hooks that sit between the Engine and the Downloader and process requests when they pass from the Engine to the downloader, and responses that pass from Downloader to the Engine. They provide a convenient mechanism for extending Scrapy functionality by plugging custom code. For more information see Downloader Middleware.

    • Spider middlewares

        Spider middlewares are specific hooks that sit between the Engine and the Spiders and are able to process spider input (responses) and output (items and requests). They provide a convenient mechanism for extending Scrapy functionality by plugging custom code. For more information see Spider Middleware.

    • Scheduler middlewares

        Spider middlewares are specific hooks that sit between the Engine and the Scheduler and process requests when they pass from the Engine to the Scheduler and vice-versa. They provide a convenient mechanism for extending Scrapy functionality by plugging custom code.

     

    参考资料:

        http://doc.scrapy.org

        http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use

        http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers

        http://java-source.net/open-source/crawlers

     

    ZARA商业模式学习之山寨文化

    Posted in Uncategorized by chuanliang on 2009/05/10

        Zara的商业模式的成功被人们总结为“一流的设计、二流的品质、三流的价格”,在其商业模式中有一个重要的特点:Zara并不指望能够引导潮流,Zara更喜欢追随潮流;Zara设计师的任务不是创造新的款式,而是组装现有的流行元素。Zara通过专业“买手”从各种时装发布会、时尚场合获取最新的设计理念和时尚动向,参照顶级品牌的最新设计并快速推出自己的抄袭版本,并通过其高效的供应链来保证第一时间将产品推向市场。

        Zara的抄袭精神与当下盛行的“山寨文化”的精神师出同门,只不过Zara每一年需要为自己的“山寨精神”支付几千万欧元的罚款,而我们的“山寨”并不需要担忧所谓的知识产权问题。其实“山寨”现象不单纯只在Zara身上、山寨手机上,考察日韩的发家史就会发现,其实日本经济最初是师法美国经济起步的,而韩国又是仿照日本起步的,而中国近30年的改革开放实际上也是秉承同样的精神。

        作为落后者,学习标杆企业的做法是风险最小、成本最低的。只不过对比Zara、日韩“山寨”标杆的成功,中国企业改革开发30年发扬“山寨”精神企业中,真正能够像华为一样生存下来并且能够从小变大、从弱变强的企业微乎其微。这倒是很值得我辈创业型互联网好好深思的。

        暂且记录一下目前学习到的东西:

       1、“山寨文化”必须有管理制度来保障“山寨”过程是可持续、可复制的。任何企业在初创期都有一个“野蛮生长”的历程,在这个阶段“山寨精神”是成长的动力,但单靠几个核心创始人山寨一两个产品是无法长大的。关键在于在山寨过程中能够规范化企业管理、沉淀山寨经验、培育起核心的团队。通过持续不断的“山寨”过程来锤炼企业的“山寨”能力,及时修正企业持续“山寨”的障碍,培育企业区隔于其他“山寨”竞争对手的核心竞争力。Zara区隔与其他同样可以“山寨”的竞争对手的原因之一就在于其通过IT系统、企业文化、管理制度让山寨过程是高效的、可复制的、可持续的。这也是天宇能够从众多的山寨企业中脱颖而出的原因之一吧。

       2、“山寨模式”是初创性公司的毕由之路,但“山寨精神”的核心杀伤力不在于抄袭标杆企业的产品有多像,而在于是否“山寨”了标杆的核心思想和核心能力。华为的“先僵化,再优化,再固化”的思路很值得学习。

       3、“山寨模式”必须有完整的产业链来支撑,单一产品的山寨可以小胜,但并不足以支撑大胜。一个初创型的企业无法掌控整个产业链,但我们可以以“专业”、“共赢”、“协作”的思路还融入产业链中,而不是什么都想做。ZARA模式的是其高效率的供应链的成功,山寨手机成功是无数分工明确的小企业对市场做出快速反应的产业链协作模式。

       4、“山寨文化”的实质不是抄袭,ZARA这样“快时尚”的本质也不是流行,而是无限贴近市场,快速捕获市场需求并以最快捷、最低的成本来满足需求。

       5、品牌的力量。ZARA山寨别人的产品叫品牌、是时尚,大家都趋之若鹜;国产服装制造商山寨别人是A货,核心原因在于Zara的品牌号召力,Zara不单纯只是抄袭,而是围绕品牌进行“山寨“。

       6、“山寨”是很有前途的事业,只不过“山寨”时候要胸怀远大理想,不然我们很容易迷失在“挣快钱”的商业从林中。要以精益求精的精神来要求自己,要以超越标杆的理想来要求自己。我们对自己经常太好了,太尚待自己了,以至于我们刚刚出发就遗忘了目标。