创业公司应该如何开展大数据团队建设工作？

创业公司大数据

公子义 | 2016-04-06 11:24

【数据猿导读】在每轮新技术变革中，缺技术、缺人才、缺数据等种种现实，中小企业都是被最后照顾到的。不禁又要问小团队，你的大数据在哪里

然而我们却看到，在每轮技术变革中中小企业都是被最后照顾到的。在这场新变革的席卷下，我们不禁又要问小团队，你的大数据在哪里?

诚然，缺技术、缺人才、缺数据等种种现实，都将小团队置身于水深火热之中。那么大数据时代的小团队还有机会吗?

近几年，以Hadoop生态为代表的数据基础设施发展很快，给大数据技术的易用性提供了很大改善，也使技术门槛降低很多。在公子义看来，小团队在大数据方面的挑战主要表现为人才短缺和数据来源。为了应对这两个问题，小团队必须要在业务上下功夫，依据核心的业务形态，深入挖掘自身数据。

数据应该如何挖掘呢？

具体应该怎么做呢?以视频用户数据举例。虽然用户在观看视频的过程中，没有太多的互动过程，但还是可以挖掘出价值非常大的高频数据。基于用户的拖拽、回看这样同一份数据，我们可以做到的可以有很多：

挖掘到不同用户对视频内容的High点，帮助视频的内容运营和内容创作找到用户兴趣点;

某种意义上说，视频推荐比商品推荐更容易。视频作为用户相对高频的行为，意味着我们能抓取到用户更多的行为数据，对用户的喜好反映更全面;从应用场景的角度来说，用户对于商品是否购买可能是一个很大的决定，而看不看视频相对决定很小，决定错误的损失也很小。在进行视频内容分析时，由于视频文本挖掘的维度偏少，因此进行文本分析的价值不大。

通过数据挖掘分析用户的属性，洞察消费者！

因此，同一技术在不同的业务领域上的重视程度，和起到的作用是不一样的。小团队由于自身技术能力和专业人才资源都有限，一定要更加细致地了解自己的业务形态，最大程度利用已有数据。

案例研究：深圳指微科技数据工场大数据平台架构

深圳指微科技目前除了发展自己的公司，还投资了很多生态链企业。随着业务的快速增长，业务产生的数据量突飞猛涨。大家都知道，数据越集中，利用价值越大，由此深圳指微科技数据工场应运而生。

深圳指微科技数据工场主要承担着为全公司各团队及生态链建设，提供数据采集、计算、存储等基础能力，以及机器学习、挖掘的工具和方法的任务。除了底层的能力，数据工场也为公司及生态链企业提供一些具体的基础数据服务，利用风控和额度评估、广告精准投放、限时抢购时用数据打击黄牛等等。通过数据工场提供的数据能力，企业不仅能够对业务进行数据分析，也实实在在将数据应用到核心业务场景中。

深圳指微科技数据工场主要的工作是管理数据、元数据、数据权限，以及管理大量的计算。公子义认为把数据存下来不是目的，而是要通过计算运用到各个业务领域中。生态链的业务场景丰富，因此整个计算体系是纷繁复杂的。

运用好大数据才是最终的目的

为了更好适应未来的需求，深圳指微科技数据工场围绕Hadoop生态构建底层基础平台。虑到扩展性，数据工场天生基于Scala设计成分布式架构。由于小米及其生态链企业业务场景丰富，因此在技术选型方面全生态都会涉及，如消息流、批处理、实时计算等技术都需要用到，HBase、Hive、Spark、Storm 、Impala都在不同的场景下使用。

利用Docker解决异构和资源问题：为了管理好这些纷繁的计算框架和模型，在计算的执行方面，小米使用Docker来解决对环境的不同需求和异构问题，并且与Hive、Impala、Spark这些不同的计算模型都进行了对接，去适配不同应用场景计算不同数据的模型。另外，在不同业务场景下，同一个计算逻辑也可以选用不同的计算模型，Docker 的使用也避免了资源的浪费。比如一个计算任务每天凌晨运行，为了追求吞吐量，可以放到Hive里跑;还是同样一个计算模型，现在就要跑，可以不用更改，就放到Impala里运行。

小团队的大数据敏捷之路

选择热门的技术：小公司的时间耽误不起。选择热门的、常用的、经过大公司验证的技术，一是少踩坑，二是常用的技术人才相对好找。

按需使用，不要规划得太大。传统BI进行数据分析时通常会建立一个大而全的模型，再根据业务需求进行调整。但小团队的业务发展很快，因此在初期不要规划得太大，而是根据业务需要，细分业务场景，在每个小场景里构建小的数据模型，分析用户就建用户模match型，分析产品用简单的产品模型。

根据用户群体建立最为简单的数据模型

另外，小团队要考虑到自己的应用场景是以分析型为主，还是应用型为主，之后再进行相关的技术选型，如Hive、Impala 、Presto等;而如果是以业务型为主，就要具体结合自身业务和技术能力综合来看。在数据量不是非常大的情况下，没必要选择HBase这样集群的存储方案，有许多产品可以替代。比如MySQL这类传统数据库能支持的数据规模也不小。根据计算要求和数据规模综合来选，不是超高量的不需要选太大规模的技术选型。

选择便捷、灵活和易于管理的技术。大公司在技术和系统使用上首先考虑的是集群的利用率和吞吐量，而小公司则要从便捷、灵活和易于管理的维度来考虑。

存储方面：建议使用以HDFS为主的存储，因为很多计算的工具所使用的存储都建立在它之上。对于业务未来的迅速发展，有比较好的兼容性；

计算方面：建议在选用常用的基础设施之外，具体计算用户交互时使用易于使用的技术：

HUE：基于web，在进行Hive 查询时可以直接在平台上完成，使用门槛更低;

Presto：适应数据源多，可以连接各种各样的数据源做计算和数据分析。由于业务数据和用户的行为数据时分开的。使用Presto这种连接器型的分析工具时，有分析能力的人就可以直接使用这种工具，我们不需要将不同的数据还要ETL导入到一起，后续还要做加工处理，只需要在物理打通就可以。

在平时的工作需要重视数据的积累！

重视数据积累：小团队在前期积累数据时，一定要多花点儿功夫，不要偷懒，把数据尽可能采集全、采集准。千万不要等用到什么数据才去找数据，一旦发现你需要的数据之前没积累；或是积累的是错的；或是没有对数据进行标识，没办法区分这是哪个用户，陷入逻辑孤岛，都会非常麻烦。

比如我们需要采集用户在看一篇文章时的数据。这时我们应该将采集的维度考虑得更多，至少从用户本身的维度、文章内容、上下文关系、用互交互事件这四个维度上考虑。采集的数据可能包括文章分类、标题、内容ID、当前该文章热度、用户获取文章的渠道等等。这会让我们更全面地了解用户的喜好，也将用户的路径分析的很清楚。

哪怕未来不知道怎么用，采集更多更全的数据一定会对应用产生价值。在存储成本较低的现状下，多采集数据带来的代价并不大。真正昂贵的其实是计算，而一旦没有数据，代价将会更大。

通过数据为公司创造价值才是小公司的最终的出发点

对于创业公司来说，在更短的时间内创造更大的价值，是企业得以存活的根本。大数据是工具，了解大数据的作用，结合业务的真实场据，满足用户需求，大数据才能真的帮得上你。

来源：搜狐